2025澳门特马今晚开奖,澳门六开奖结果2025开奖记录查询,2025澳门六开彩开奖资料查询,2025澳门六今晚开奖结果出来,2025澳门天天开好彩大全,今天香港开什么特马

如何爬取动态ip?

如何抓取代理ip?当我们使用网络编写脚本从指定的网站抓取数据时,网站总是不可避免的会屏蔽IP,所以这个时候我们需要一些代理IP。当我们打开网页的时候,很容易就能找到很多提供免费代理IP做IP抓取的网站,这里介绍的是国内匿名代理IP。
 
 
第一步:HTML页面获取
 
通过观察,我们可以发现我们需要的信息的页面的url有这样一个规律:www.xxxxxx.com/nn/+页码。但是,如果您通过get方法直接访问它,您将发现500个错误。原因是在这个规则下,虽然URL通过get方法获取数据,但是它们都有cookie认证。那么问题来了——你怎么得到你需要的饼干?我们第一次通过浏览器访问网站首页,是可以打开的,网站的所有子模块都可以打开。在一定时间内,我们的浏览器得到了这个网站设置的cookie。清除浏览器cookie,重新打开网站主页,通过开发者工具,我们可以发现打开主页时,网站会发出cookie,而不是上传cookie。然后打开上面我们找到的常规url页面,对比一下,发现我们上传的cookie就是首页发布的cookie。这就是解决方案——编写脚本时,首先访问主页获取cookie,然后将cookie添加到后续请求中。
 
第二步:分析html结构,用BS4提取信息。
 
上面简单介绍了如何抓取代理IP,具体代码需要自己搜索。
 
主站蜘蛛池模板: 乳山市| 邵东县| 沈丘县| 汤阴县| 中山市| 大姚县| 无极县| 邹城市| 秦安县| 抚远县| 梨树县| 临汾市| 凉山| 西和县| 苍梧县| 偃师市| 中西区| 湟中县| 乡城县| 当阳市| 新平| 仙居县| 青川县| 乐亭县| 望城县| 武山县| 探索| 大洼县| 潞城市| 平阴县| 常宁市| 平乐县| 苍溪县| 沂源县| 曲周县| 普兰店市| 云安县| 城固县| 彰化市| 成安县| 芷江|