• 售前

  • 售后

热门帖子
入门百科

python 爬取知乎回复下的微信8.0状态视频

[复制链接]
成哥337 显示全部楼层 发表于 2021-10-26 13:13:18 |阅读模式 打印 上一主题 下一主题
目次


  • 探求 url
  • 下载视频
  • 实行代码下载:
  • 最后的话
  • 答复泉源
微信 8.0 版本更新后,可以设置个人状态,状态里面可以添加火录制视频,很快状态视频就火了,可以看下知乎热榜有没有微信8.0状态沙雕又可爱的视频或图片?[1]。比如我也设置了一个:
于是我就想把这些视频下载下来,也玩一玩。本文讲述如何使用 Python 一键下载知乎某个答复下的所有视频。
思路:分析知乎答复页面 -> 定位视频 -> 探求视频播放的 url -> 下载。其实就两步:找到 url,然后下载。

探求 url


一个答复下面可能有多个视频,先分析一个视频,打开谷歌欣赏器的开发者工具窗口,找到 network,勾选 preserve log、disable cache,选择 xhr,革新,很容易找到如下图所示的接口:

从上图接口返回的数据就可以获取视频播放的 url、标题、格式等信息,这就够了,复制 play_url,放在欣赏器上看一下,发现可以直接下载,阐明那么这个 url 就是我们须要的。

接下来,写代码,获取接口返回的数据:
  1. def get(url: str) -> list:
  2.   """
  3.   获取知乎视频的 url
  4.   返回格式
  5.   [{'url':'', 'title','format':'',},{}]
  6.   """
  7.   data = []
  8.   headers = {
  9.     "user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 11_1_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36",
  10.   }
  11.   with requests.get(url, headers=headers, timeout=10) as rep:
  12.     if rep.status_code == 200:
  13.       ids = re.findall(r"www.zhihu.com/zvideo/(\d{1,})", rep.text)
  14.       ids = list(set(ids)) # 去掉重复元素
  15.     else:
  16.       print(f"网络连接失败,状态码 { rep.status_code }")
  17.       return []
  18.   if not ids:
  19.     print("视频获取失败,可能是这个页面没有视频")
  20.     return []
  21.   for id in ids:
  22.     print(id)
  23.     with requests.get(
  24.       f"https://www.zhihu.com/api/v4/zvideos/{id}/card",
  25.       headers=headers,
  26.       timeout=10,
  27.     ) as rep:
  28.       if rep.status_code == 200:
  29.         ret_data = rep.json()
  30.         playlist = ret_data["video"]["playlist"]
  31.         title = ret_data.get("title")
  32.         temp = playlist.get("ld") or playlist.get("sd")
  33.         if temp:
  34.           sigle_video = {}
  35.           sigle_video["url"] = temp.get("play_url")
  36.           sigle_video["title"] = title
  37.           sigle_video["format"] = temp.get("format")
  38.           data.append(sigle_video)
  39.       else:
  40.         print(f"网络连接失败,状态码 { rep.status_code }")
  41.         return []
  42.   return data
复制代码
下载视频


这个比力简朴了,直接哀求视频播放的 url,将流式的内容生存到文件中,最多再加个进度条的展示。部门视频获取的 title 为空,这时就使用时间戳来命名文件。
请看代码:
  1. def download( file_url, file_name=None, file_type=None, save_path="download", headers=None, timeout=15,):
  2.   """
  3.   :param file_url: 下载资源链接
  4.   :param file_name: 保存文件名,默认为当前日期时间
  5.   :param file_type: 文件类型(扩展名)
  6.   :param save_path: 保存路径,默认为download,后面不要"/"
  7.   :param headers: http请求头
  8.   """
  9.   if file_name is None or file_name == "":
  10.     file_name = str(datetime.now())
  11.   if file_type is None:
  12.     if "." in file_url:
  13.       file_type = file_url.split(".")[-1]
  14.     else:
  15.       file_type = "uknown"
  16.   file_name = file_name + "." + file_type
  17.   if headers is None:
  18.     headers = {
  19.       "User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B137 Safari/601.1"
  20.     }
  21.   if os.path.exists(save_path):
  22.     pass
  23.   else:
  24.     os.mkdir(save_path)
  25.   # 下载提示
  26.   if os.path.exists(f"{save_path}/{file_name}"):
  27.     print(f"\033[33m{file_name}已存在,不再下载!\033[0m")
  28.     return True
  29.   print(f"Downloading {file_name}")
  30.   try:
  31.     with requests.get(
  32.       file_url, headers=headers, stream=True, timeout=timeout
  33.     ) as rep:
  34.       file_size = int(rep.headers["Content-Length"])
  35.       if rep.status_code != 200:
  36.         print("\033[31m下载失败\033[0m")
  37.         return False
  38.       label = "{:.2f}MB".format(file_size / (1024 * 1024))
  39.       with click.progressbar(length=file_size, label=label) as progressbar:
  40.         with open(f"{save_path}/{file_name}", "wb") as f:
  41.           for chunk in rep.iter_content(chunk_size=1024):
  42.             if chunk:
  43.               f.write(chunk)
  44.               progressbar.update(1024)
  45.       print(f"\033[32m{file_name}下载成功\033[0m")
  46.   except Exception as e:
  47.     print("下载失败: ", e)
  48.   return True
复制代码
实行代码下载:
  1. import os, sys
  2. import re
  3. import click
  4. import requests
  5. from datetime import datetime
  6. def get(url: str) -> list:
  7.   #见上文
  8.   ...
  9. def download( file_url, file_name=None, file_type=None, save_path="download", headers=None, timeout=15,):
  10.   #见上文
  11.   ...
  12. if __name__ == "__main__":
  13.   videos = get(sys.argv[1])
  14.   for video in videos:
  15.     download(file_url = video['url'],file_name= video['title'] ,file_type= video['format'],save_path='./download')
复制代码
实行效果如下图所示:

最后的话


网站可能会发生变更,因此本文的代码可能随着时间变革而无法使用,请自行调治一些正则表达式和参数。爬取的思路是通用的,无非就是找到视频的流式数据,举行生存。思路有了,编写代码就是体力活了。
此外,假如你只是想要一些酷炫、搞笑、可爱的视频资源,玩一下微信 8.0 的状态,请在公众号「Python七号」回复「视频」,即可获取微信 8.0 的状态视频合集的下载链接:


答复泉源


有没有微信8.0状态沙雕又可爱的视频或图片?: https://www.zhihu.com/question/441253090
以上就是python 爬取知乎答复下的微信8.0状态视频的具体内容,更多关于python 爬取知乎视频的资料请关注草根技术分享别的相干文章!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x

帖子地址: 

回复

使用道具 举报

分享
推广
火星云矿 | 预约S19Pro,享500抵1000!
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

草根技术分享(草根吧)是全球知名中文IT技术交流平台,创建于2021年,包含原创博客、精品问答、职业培训、技术社区、资源下载等产品服务,提供原创、优质、完整内容的专业IT技术开发社区。
  • 官方手机版

  • 微信公众号

  • 商务合作