TMDB 5000电影数据集
我们已根据来自IMDB的DMCA移除要求删除了该数据集的原始版本。为了最大程度地减少影响,我们将根据其使用条款,用电影数据库(TMDb)中的一组相似的电影和数据字段替换它。 坏消息是,基于旧数据集构建的内核很可能不再起作用。 好消息是,你可以进行一些编辑就可以移植现有的内核。该内核提供了这样做的功能和示例。你还可以在这里找到新格式的介绍。 新的数据集包含演员和剧组的全部票数,而不仅仅是前三个演员。 现在,按照在字幕中出现的顺序列出了演员。目前尚不清楚原始数据集的使用顺序。对于我检查过的电影,它既不符合积分顺序也不符合IMDB的星级顺序。 收入似乎是最新的。例如,IMDB的《阿凡达》数字似乎来自2010年,低估了影片的全球收入超过20亿美元。 我们无法移植的一些电影(几百部)只是不好的作品。例如,此IMDB条目基本上根本没有准确的信息。它列出了《星球大战第七集》作为纪录片。 数据源传输详细信息 几个新列包含json。你可以通过[从此内核]()移植加载数据功能来节省一些时间。 即使在像运行时这样的简单字段中,各个版本之间也可能不一致。例如,先前的数据集显示了Avatar扩展剪切的持续时间,而TMDB显示了原始版本的时间。 现在有一个单独的文件,其中包含演员和工作人员的全部学分。 所有字段均由用户填写,因此不要期望他们在关键字,体裁,评分等方面达成共识。 你现有的内核将继续正常渲染,直到重新运行它们为止。 如果你对如何准备此数据集感到好奇,可以在此处发布访问TMDb API的代码。 新列: 主页 ID original_title 概观 人气 生产公司 生产国家 发布日期 口语 状态 标语 平均投票 遗失的栏: 演员1 facebook_likes 演员2 facebook_likes 演员3 facebook_likes Aspect_ratio 投放总计facebook_likes 颜色 content_rating 导演facebook喜欢 facenumber在海报 电影Facebook喜欢 电影imdb链接 num评论家for_reviews num个用户for_reviews 该数据集转载自:https://www.kaggle.com/tmdb/tmdb-movie-metadata