• 售前

  • 售后

热门帖子
入门百科

Python爬虫爬取微博热搜生存为 Markdown 文件的源码

[复制链接]
宝贝不哭不t 显示全部楼层 发表于 2021-10-25 19:44:23 |阅读模式 打印 上一主题 下一主题
什么是爬虫?
网络爬虫(又被称为网页蜘蛛,网络呆板人,在FOAF社区中心,更经常的称为网页追逐者),是一种按照肯定的规则,主动地抓取万维网信息的步伐大概脚本。别的一些不常使用的名字另有蚂蚁、主动索引、模拟步伐大概蠕虫。
其实普通的讲就是通过步伐去获取web页面上本身想要的数据,也就是主动抓取数据
爬虫可以做什么?
你可以爬取小姐姐的图片,爬取本身有爱好的岛国视频,大概其他任何你想要的东西,条件是,你想要的资源必须可以通过欣赏器访问的到。
爬虫的本质是什么?
上面关于爬虫可以做什么,定义了一个条件,是欣赏器可以访问到的任何资源,特别是对于知晓web哀求生命周期的学者来说,爬虫的本质就更简单了。爬虫的本质就是模拟欣赏器打开网页,获取网页中我们想要的那部分数据。
微博热搜榜python爬虫,仅供学习交流


源码及解释:
  1. # -*- coding=UTF-8 -*-
  2. #!usr/bin/env python
  3. import os
  4. import time
  5. import requests
  6. from lxml import etree
  7. url = "https://s.weibo.com/top/summary?cate=realtimehot"
  8. headers={
  9. 'Host': 's.weibo.com',
  10. 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
  11. 'Accept-Encoding': 'gzip, deflate, br',
  12. 'Accept-Language': 'zh-CN,zh;q=0.9',
  13. 'Connection': 'keep-alive',
  14. 'Referer': 'https://weibo.com/',
  15. 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.97 Safari/537.36'
  16. }
  17. r = requests.get(url,headers=headers)
  18. print(r.status_code)
  19. html_xpath = etree.HTML(r.text)
  20. data = html_xpath.xpath('//*[@id="pl_top_realtimehot"]/table/tbody/tr/td[2]')
  21. num = -1
  22. # # 解决存储路径
  23. # time_path = time.strftime('%Y{y}%m{m}%d{d}',time.localtime()).format(y='年', m='月', d='日')
  24. # time_name = time.strftime('%Y{y}%m{m}%d{d}%H{h}',time.localtime()).format(y='年', m='月', d='日',h='点')
  25. # root = "./" + time_path + "/"
  26. # path = root + time_name + '.md'
  27. # if not os.path.exists(root):
  28. #  os.mkdir(root)
  29. # 解决存储路径
  30. time_path = time.strftime('%Y{y}%m{m}%d{d}',time.localtime()).format(y='年', m='月', d='日')
  31. time_name = time.strftime('%Y{y}%m{m}%d{d}%H{h}',time.localtime()).format(y='年', m='月', d='日',h='点')
  32. year_path = time.strftime('%Y{y}',time.localtime()).format(y='年')
  33. month_path = time.strftime('%m{m}',time.localtime()).format(m='月')
  34. day_month = time.strftime('%d{d}',time.localtime()).format(d='日')
  35. all_path = "./" + year_path + '/'+ month_path + '/' + day_month
  36. if not os.path.exists(all_path):
  37. # 创建多层路径
  38. os.makedirs(all_path)
  39. # 最终文件存储位置
  40. root = all_path + "/"
  41. path = root + time_name + '.md'
  42. print(path)
  43. # 文件头部信息
  44. with open(path,'a') as f:
  45. f.write('{} {}\n\n'.format('# ',time_name+'数据'))
  46. f.close()
  47. for tr in (data):
  48. title = tr.xpath('./a/text()')
  49. hot_score = tr.xpath('./span/text()')
  50. num += 1
  51. # 过滤第 0 条
  52. if num == 0:
  53.   pass
  54. else:
  55.   with open(path,'a') as f:
  56.    f.write('{} {}、{}\n\n'.format('###',num,title[0]))
  57.    f.write('{} {}\n\n'.format('微博当时热度为:',hot_score[0]))
  58.    
  59.   f.close()
  60.   print(num,title[0],'微博此时的热度为:',hot_score[0])
复制代码
运行:
运行结束后会在当前文件夹下天生以时间定名的文件夹,并且会天生以具体小时为单位的具体时间定名的 Markdown 文件,如下:

检察:


到此这篇关于Python爬虫爬取微博热搜生存为 Markdown 文件的文章就先容到这了,更多干系Python爬虫爬取微博热搜生存内容请搜刮草根技术分享以前的文章或继续欣赏下面的干系文章盼望大家以后多多支持草根技术分享!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x

帖子地址: 

回复

使用道具 举报

分享
推广
火星云矿 | 预约S19Pro,享500抵1000!
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

草根技术分享(草根吧)是全球知名中文IT技术交流平台,创建于2021年,包含原创博客、精品问答、职业培训、技术社区、资源下载等产品服务,提供原创、优质、完整内容的专业IT技术开发社区。
  • 官方手机版

  • 微信公众号

  • 商务合作