【PY】没有电影看？来教你用Python爬取电影天堂最新电影！

Laozizuiku

2019-10-26

项目开始

第一步仍然是创建scrapy项目与spider文件

切换到工作目录两条命令依次输入

scrapy startproject xunleidianying
scrapy genspider xunleiBT https://www.xl720.com/thunder/years/2019

内容分析

打开目标网站（分类是2019年上映的电影），分析我们需要的数据

进入页面是列表的形式就像豆瓣电影一样，然后我们点进去具体页面看看

这个页面就是我们需要拿到的内容页面，我们来看我们需要哪些数据(某些数据从第一个页面就可以获得，但是下载地址必须到第二个页面)

电影名称
电影信息
电影内容剧情
电影下载地址

分析完成之后就可以首先编写 items.py文件

另外别忘了去settings.py中开启 ITEM_PIPELINES 选项

爬虫文件编写

老样子，为了方便测试我们的爬虫，首先编写一个main.py的文件方便IDE调用

main.py：

import scrapy.cmdline
scrapy.cmdline.execute(‘scrapy crawl xunleiBT‘.split())

首先我们先测试直接向目标发送请求是否可以得到响应

爬虫文件 xunleiBT.py编写如下：

运行 main.py 看看会出现什么

好的，发现直接返回正常的网页也就是我们要的网页，说明该网站没有反爬机制，这样我们就更容易爬取了

然后通过xpath定位页面元素，具体就不再赘述，之前的scarpy教程中都有继续编写爬虫文件

ITEM爬取完成后该干什么？当然是入库保存了，编写pipelines.py文件进行入库保存

再次提醒别忘了去settings.py中开启 ITEM_PIPELINES 选项

pipelines.py文件代码如下：

再次运行main.py 等待运行完成后打开数据库查询

数据保存完成，这次我们一共导入了380个数据，可以愉快的查看电影了

电影

Laozizuiku

0 关注 0 粉丝 0 动态

关注关注

一个超便捷的豆瓣电影Chrome插件

豆瓣电影传送门我是一名豆瓣爱好者，常常在豆瓣APP上面标记想看的电影，然后在有空的时候再去找资源看。豆瓣最近新增了”在哪儿看这部电影“版块，但是仅仅收录了比较常见的几家视频网站，比如优酷、腾讯视频等，这些网站往往需要购买VIP才能观看，为了节约花在找资源上

HappyBlog 2019-06-29

当好莱坞被算法同化

基努·里维斯凭借着《黑客帝国》三部曲红遍全球，他因担任Neo一角圈粉无数，并一跃成为好莱坞最有名的影星之一。但在这之前，威尔·史密斯却因拒绝出演电影《黑客帝国》Neo这个角色而错失机会。这就是电影世界里的种种机缘巧合和不确定性。但对于电影投资人来说，他们并

引力空间万物互联 2019-06-07

《复仇者联盟4》中国预售破3亿，系列电影要火靠什么？

4月12日《复仇者联盟4：终局之战》在内地开启预售，猫眼数据显示，截至4月17日上午9点，预售票房已突破3亿元，首映日零点场票房达9406万。票房暴涨后，部分影院坐地起价，购票平台上，各家影院的票价从30至300多元不等，上海、北京等一线城市核心地段的影院

84173753 2019-04-17

“小破球”票房稳登第一，为何主创焦头资方苦笑？

从立项到问世，《流浪地球》耗时四年，历经资金短缺等多种磨难。导演郭帆原以为，上映意味着打完了所有的“怪”，取得了那份真经。没想到，72难还在前方。2019年新春首日，一部名叫《流浪地球》的电影赫然问世。至今日，票房已破24亿，跻身中国电影票房总榜的前十。截

zhuyilong00 2019-02-12

「榜单」史上最经典36部AI电影大放送

端午节小长假如果不出去玩儿，可以在家看电影。ZDNet总结了36部最经典的AI电影，包括了《西部世界》和星球大战、星际迷航系列中的经典作品，挑一部你最喜欢的吧~刚刚步入老年的弗兰克开始有轻微老年痴呆的症状时，他的一对儿女为父亲提供了一个机器人来照料他的日常

mingxiu0 2018-06-17

python分析《爱情公寓》电影评分为何2.7 !（文末附赠教程一套）

在上映前，即便是面对铺天盖地的抄袭实锤，仍有大批电视剧的铁粉表示，“最好的朋友在身边，最爱的人在对面”是一代人的青春见证。其预售票房更是超过1亿，遥遥领先于同期上档的影片。然而与火爆票房相对应的，却是上映后的“挂羊头卖狗肉”，铁粉深感被欺骗的群嘲以及豆瓣上

野先生 2019-02-25

我们到底需不需要推荐系统为我们推荐影片？

一直以来Netflix都致力于通过个性化推荐系统为每位用户及时推荐最符合他们口味的影片。《怪奇物语》在我们个性化算法中超过5%展现次数的配图。在Netflix，我们崇尚个性化服务，并在算法上收纳了用户体验的各方面信息，包括主界面影片推荐列表的行数，每行不同

lfjjia 2018-01-22

《流浪地球》票房实时海报丨见证小破球24亿票房逆袭之路

今年贺岁档的电影黑马非《流浪地球》莫属。灾难题材的科幻片在春节团聚的文化氛围中，在众多喜剧片、动画片的夹击中，绝对是一股清流，是挑战观众口味的一场博弈。或许正如网友所说：《流浪地球》颠覆了世界对于中国科幻类电影的态度，改变了中国贺岁档电影的气质。《流浪地球

81337766 2019-02-12

用python爬取猫眼top100电影,我发现经典永远是经典

前言想必大家在无聊的时候，都想找一部口碑的好电影，而自己又没看过的，这个其实可以参考猫眼top100的上排名，因为排名是靠评分升上去，想排名第一的《霸王别姬》，“哥哥”在里面的出色表演，让人惊叹。学习从来不是一个人的事情，要有个相互监督的伙伴，工作需要学习

idning 2019-03-27

复联4已上映，Python带你走进观众的心里，大家怎么评价复联4？

最近复仇者联盟4正在热映中，很多人都去电影院观看了电影，那么对于这部电影，看过的人都是怎么评价的呢？这时候爬虫就可以派上用场了！所以我们得想办法得到尽量多的短评，思路为分别选择好评、一般、短评和最新，不过最新的短评只显示100条，所以我们能爬取的短评数量

orlandowww 2019-04-27

我爬取豆瓣影评，告诉你《复仇者联盟3》在讲什么？（内附源码）

《复仇者联盟3：无限战争》于 2018 年 5 月 11 日在中国大陆上映。截止 5 月 16 日，它累计票房达到 15.25 亿。这票房纪录已经超过了漫威系列单部电影的票房纪录。不得不说，漫威电影已经成为一种文化潮流。复联 3 作为漫威 10 年一剑的收

瓜牛呱呱 2018-05-23

《复仇者联盟4》预告IMAX版本周末上映或有新画面内容

根据comicbook报道，Trailer Track的Anton Volkov确认，《复仇者联盟4：终局之战》将会在本周末上映IMAX版本的预告，届时观众们需要前往IMAX影院观看，而且Volkov还暗示，观众们可能会看到更多的影片内容，因为IMAX采用

zhuyilong00 2018-12-19

虚拟现实融入电影能否颠覆体验？

如果你还没看过一部VR电影，就真的落伍了：2015年结束之前，追光动画已经推出了第一部原创短片电影《再见，表情》；诺亦腾以惯性动捕系统，协助电影《寻龙诀》颠覆性地改变了Previz发展中最大的制约因素；最令人期待的莫过于兰亭数字正在拍摄的VR电影《活到最后

lxxnb 2016-01-04

一加携手漫威将推出复仇者联盟主题一加6手机

《碟中谍6：全面瓦解》继续由克鲁斯主演，西蒙·佩吉、丽贝卡·弗格森、米歇尔·莫娜汉、亚历克·鲍德温、文·瑞姆斯等也悉数回归。爬悬崖、爬直升机、跳楼、撞车、肉搏，阿汤哥持续高能。影片讲述叙述伊森·亨特与他的IMF队员们以及熟悉的盟友在一项任务执行失败后，与时

图月志 2018-05-31

漫威十年：《复联3》如何一步步攀上内地票房高峰

首日票房3. 86 亿，单日最高4. 94 亿，首周末12. 68 亿元，上周五上映的《复联3》迅速刷新了漫威电影宇宙在中国内地市场的多项最高纪录。即便与国产片同台竞技，也仅次于《捉妖记2》今年大年初一创下的5. 47 亿内地单日票房最高纪录，位列内地影史

扑克投资家 2018-05-15

教父3部曲--回首旧时光

最近，忙中带空的开完了教父3部，每部电影持续时间有3个小时。我以为自己会没有耐心的去全部看完这些，不料故事情节、发展没有丝毫的冗余感，也不像其他故事（电影）一样，带有蓄意的去营造一个环境。它缓缓道来，描述了柯里昂家族两代的变化，没有刻意，留给我们很大的思想

扑克投资家 2018-05-14

葫芦世界获皮皮鲁旗下作品授权网大剧本火热征集中

自1981年开始，童话大王郑渊洁老师创作出了家喻户晓的皮皮鲁系列作品，皮皮鲁、鲁西西这些经典的儿童形象和故事给广大读者们留下了美好又深刻的印象。近日获悉，皮皮鲁总动员公司即将启动旗下作品《保卫叛逆者》的网络大电影拍摄计划，并联合首家内容众创平台葫芦世界开启

浮云境界 2018-05-08

北影节这场论坛火了！大咖集体预测今年票房将破600亿

2017年，中国电影市场以超过500亿的票房和重归两位数的增速让整个行业为之一振。毫无疑问，中国电影已经进入了一个由新的观影群体、新的内容创制、新的宣发思路共同构成的新阶段。在这其中，内容是基础、观众是目标，而宣发则是连接二者的桥梁。可以说，桥梁建设，决定

星夜行 2018-04-24

欧罗巴公司即将被Netflix收购，一桩生意成全了三家公司

“世界第八大电影公司”欧罗巴，即将被Netflix收购了。据法国媒体Capital援引知情人士的说法，双方之间的谈判已经到了后期。作为法国最大的电影公司，欧罗巴公司的日子并不好过，Variety报道称，公司目前负债2. 85 亿美元，完全不复当年的风光。根

凡影周刊 2018-04-20

《头号玩家》里出彩的VR／AR这么看才最有感觉

4月3日消息，由华纳兄弟影片公司出品，金奖名导史蒂文·斯皮尔伯格执导的科幻动作冒险巨制《头号玩家》已于3月30日在中国内地与北美同步上映。目前，该影片的豆瓣评分高达9.0分，有超19万人参与了评分，其中6成以上打了5星。日前，万达电影在旗下高端影城品牌寰映

触乐 2018-04-03

安科网

【PY】没有电影看？来教你用Python爬取电影天堂最新电影！

Laozizuiku

项目开始

内容分析

爬虫文件编写

Laozizuiku

相关推荐

一个超便捷的豆瓣电影Chrome插件

当好莱坞被算法同化

《复仇者联盟4》中国预售破3亿，系列电影要火靠什么？

“小破球”票房稳登第一，为何主创焦头资方苦笑？

「榜单」史上最经典36部AI电影大放送

python分析《爱情公寓》电影评分为何2.7 !（文末附赠教程一套）

我们到底需不需要推荐系统为我们推荐影片？

《流浪地球》票房实时海报丨见证小破球24亿票房逆袭之路

用python爬取猫眼top100电影,我发现经典永远是经典

复联4已上映，Python带你走进观众的心里，大家怎么评价复联4？

我爬取豆瓣影评，告诉你《复仇者联盟3》在讲什么？（内附源码）

《复仇者联盟4》预告IMAX版本周末上映或有新画面内容

虚拟现实融入电影能否颠覆体验？

一加携手漫威将推出复仇者联盟主题一加6手机

漫威十年：《复联3》如何一步步攀上内地票房高峰

教父3部曲--回首旧时光

葫芦世界获皮皮鲁旗下作品授权网大剧本火热征集中

北影节这场论坛火了！大咖集体预测今年票房将破600亿

欧罗巴公司即将被Netflix收购，一桩生意成全了三家公司

《头号玩家》里出彩的VR／AR这么看才最有感觉

Laozizuiku