• 售前

  • 售后

热门帖子
入门百科

Python爬虫UA伪装爬取的实例讲解

[复制链接]
成圣 显示全部楼层 发表于 2021-10-25 19:07:36 |阅读模式 打印 上一主题 下一主题
在使用python爬取网站信息时,检察爬取完后的数据发现,数据并没有被爬取下来,这是由于网站中有UA这种请求载体的身份标识,假如不是基于某一款浏览器爬取则是不正常的请求,以是会爬取失败。本文先容Python爬虫接纳UA伪装爬取实例。
一、python爬取失败缘故原由如下:
UA检测是流派网站的服务器会检测对应请求的载体身份标识,假如检测到请求的载体身份标识为某一款浏览器,阐明该请求是一个正常的请求。假如检测到请求的载体身份标识不是基于某一款浏览器的。则表示该请求为不正常的请求,则服务器端就很有大概会拒绝该次请求。
二、办理方法:接纳UA伪装
让爬虫对应的请求载体身份标识伪装成某一款浏览器,这里接纳的伪装成Chrome浏览器。
接纳UA伪装爬取实例
  1. import requests
  2. if __name__=="__main__":
  3.   headers={
  4.     "User-Agent":"Mozilla/5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko)
  5.     Chrome / 88.0.4324.150 Safari / 537.36"
  6.   }
  7.   url="https://www.sogou.com/web"
  8.   queryword=input("输出关键字")
  9.   param={
  10.     "query":queryword
  11.   }
  12.   res=requests.get(url=url,params=param,headers=headers)
  13.   res.encoding="utf-8"
  14.   page_text=res.text
  15.   fileName=queryword+".html"
  16.   with open(fileName,"w",encoding="utf-8") as fs:
  17.     fs.write(page_text)
  18.   print(page_text+"爬取结束")
复制代码
知识点扩展:
接纳UA伪装:让爬虫对应的请求载体身份标识伪装成某一款浏览器,这里接纳的伪装成Chrome浏览器

代码如下:
  1. import requests
  2. #UA:User—Agent(请求载体的身份标识)
  3. # UA检测:门户网站的服务器会检测对应请求的载体身份标识,如果检测到请求的载体身份标识为某一款浏览器,说明该请求是一个正常的请求。
  4. # 如果检测到请求的载体身份标识不是基于某一款浏览器的。则表示该请求为不正常的请求,则服务器端就很有可能会拒绝该次请求
  5. if __name__=="__main__":
  6.   headers={
  7.     "User-Agent":"Mozilla/5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 88.0.4324.150 Safari / 537.36"
  8.   }
  9.   url="https://www.sogou.com/web"
  10.   queryword=input("输出关键字")
  11.   param={
  12.     "query":queryword
  13.   }
  14.   res=requests.get(url=url,params=param,headers=headers)
  15.   res.encoding="utf-8"
  16.   page_text=res.text
  17.   fileName=queryword+".html"
  18.   with open(fileName,"w",encoding="utf-8") as fs:
  19.     fs.write(page_text)
  20.   print(page_text+"爬取结束")
复制代码
到此这篇关于Python爬虫UA伪装爬取的实例解说的文章就先容到这了,更多相干Python爬虫如何UA伪装爬取内容请搜刮脚本之家以前的文章或继续浏览下面的相干文章希望各人以后多多支持脚本之家!

帖子地址: 

回复

使用道具 举报

分享
推广
火星云矿 | 预约S19Pro,享500抵1000!
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

草根技术分享(草根吧)是全球知名中文IT技术交流平台,创建于2021年,包含原创博客、精品问答、职业培训、技术社区、资源下载等产品服务,提供原创、优质、完整内容的专业IT技术开发社区。
  • 官方手机版

  • 微信公众号

  • 商务合作