• 售前

  • 售后

热门帖子
入门百科

python爬虫scrapy框架的梨视频案例解析

[复制链接]
霓小沫儿 显示全部楼层 发表于 2021-10-25 19:53:28 |阅读模式 打印 上一主题 下一主题
目录


  • 1.爬虫文件
  • 2.items.py
  • 3.pipelines.py
  • 4.举行长期化存储
之前我们利用lxml对梨视频网站中的视频举行了下载,感兴趣的朋友点击检察吧。
下面我用scrapy框架对梨视频网站中的视频标题和视频页中对视频的形貌举行爬取


分析:我们要爬取的内容并不在同一个页面,视频形貌内容需要我们点开视频,跳转到新的url中才能获取,我们就不能在一个方法中去解析我们需要的差别内容

1.爬虫文件


      
  • 这里我们可以仿照爬虫文件中的parse方法,写一个新的parse方法,可以将新的url的响应对象传给这个新的parse方法  
  • 假如需要在差别的parse方法中利用同一个item对象,可以利用meta参数字典,将item传给callback回调函数  
  • 爬虫文件中的parse需要yield的Request请求,而item则在新的parse方法中利用yield item传给下一个parse方法或管道文件
  1. import scrapy
  2. # 从items.py文件中导入BossprojectItem类
  3. from bossProject.items import BossprojectItem
  4. class BossSpider(scrapy.Spider):
  5. name = 'boss'
  6. # allowed_domains = ['www.xxx.com']
  7. start_urls = ['https://www.pearvideo.com/category_5']
  8. # 回调函数接受响应对象,并且接受传递过来的meata参数
  9. def content_parse(self,response):
  10. # meta参数包含在response响应对象中,调用meta,然后根据键值取出对应的值:item
  11. item = response.meta['item']
  12. # 解析视频链接中的对视频的描述
  13. des = response.xpath('//div[@class="summary"]/text()').extract()
  14. des = "".join(des)
  15. item['des'] = des
  16. yield item
  17. # 解析首页视频的标题以及视频的链接
  18. def parse(self, response):
  19. li_list = response.xpath('//div[@id="listvideoList"]/ul/li')
  20. for li in li_list:
  21.   href = li.xpath('./div/a/@href').extract()
  22.   href = "https://www.pearvideo.com/" + "".join(href)
  23.   title = li.xpath('./div[1]/a/div[2]/text()').extract()
  24.   title = "".join(title)
  25.   item = BossprojectItem()
  26.   item["title"] = title
  27.   #手动发送请求,并将响应对象传给回调函数
  28.   #请求传参:meta={},可以将meta字典传递给请求对应的回调函数
  29.   yield scrapy.Request(href,callback=self.content_parse,meta={'item':item})
复制代码
2.items.py

要将BossprojectItem类导入爬虫文件中才能够创建item对象
  1. import scrapy
  2. class BossprojectItem(scrapy.Item):
  3. # define the fields for your item here like:
  4. # name = scrapy.Field()
  5. # 定义了item属性
  6. title = scrapy.Field()
  7. des = scrapy.Field()
复制代码
3.pipelines.py

open_spider(self,spider)和close_spider(self,spider)重写这两个父类方法,且这两个方法都只执行一次在process_item方法中最好保存return item,因为假如存在多个管道类,return item会自动将item对象传给优先级低于本身的管道类
  1. from itemadapter import ItemAdapter
  2. class BossprojectPipeline:
  3. def __init__(self):
  4. self.fp = None
  5. # 重写父类方法,只调用一次
  6. def open_spider(self,spider):
  7. print("爬虫开始")
  8. self.fp = open('./lishipin.txt','w')
  9. # 接受爬虫文件中yield传递来的item对象,将item中的内容持久化存储
  10. def process_item(self, item, spider):
  11. self.fp.write(item['title'] + '\n\t' + item['des'] + '\n')
  12. # 如果有多个管道类,会将item传递给下一个管道类
  13. # 管道类的优先级取决于settings.py中的ITEM_PIPELINES属性中对应的值
  14.   ## ITEM_PIPELINES = {'bossProject.pipelines.BossprojectPipeline': 300,} 键值中的值越小优先级越高
  15. return item
  16. # 重写父类方法,只调用一次
  17. def close_spider(self,spider):
  18. self.fp.close()
  19. print("爬虫结束")
复制代码
4.举行长期化存储



到此这篇关于python爬虫scrapy框架的梨视频案例解析的文章就介绍到这了,更多相关python爬虫scrapy框架内容请搜刮草根技能分享从前的文章或继承欣赏下面的相关文章盼望各人以后多多支持草根技能分享!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x

帖子地址: 

回复

使用道具 举报

分享
推广
火星云矿 | 预约S19Pro,享500抵1000!
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

草根技术分享(草根吧)是全球知名中文IT技术交流平台,创建于2021年,包含原创博客、精品问答、职业培训、技术社区、资源下载等产品服务,提供原创、优质、完整内容的专业IT技术开发社区。
  • 官方手机版

  • 微信公众号

  • 商务合作