2025澳门特马今晚开奖,澳门六开奖结果2025开奖记录查询,2025澳门六开彩开奖资料查询,2025澳门六今晚开奖结果出来,2025澳门天天开好彩大全,今天香港开什么特马

爬虫有哪些分类?常见的几种网络爬虫

虽然爬虫可以爬取网页,获取大量数据,但并不是所有的爬虫都能实现这些功能。 爬虫也有分类。 不同的爬虫可以实现的功能是不一样的,那么爬虫有哪些分类呢? 这些不同的爬虫能爬取什么? 下面通过IP模拟器代理来了解爬虫的分类。  
 
根据授权情况
 
1。 恶意爬虫
 
通过自行分析构造参数,爬取或提交数据到非公共接口,获取对方不愿意被大量获取的数据,可能对性能造成极大损失 对方的服务器。 爬虫类和反爬虫类之间通常会发生激烈的对抗。  
 
2。 合法爬虫
 
对行为符合Robots协议规范的网页进行抓取,或抓取互联网公共接口,或购买接口授权进行抓取,均为合法爬虫。 这类爬虫通常不考虑反爬虫等对抗性工作。  
 
 
根据爬虫功能
 
1。 接口爬虫
 
通过准确构造特定的API接口数据信息,获取大量的请求数据。  
 
2。 网络爬虫
 
主要是搜索引擎爬虫,根据网页上的超链接进行遍历爬取。  
 
 爬虫分类 
 
根据爬取的网站数量 
 
1。增量爬虫 
 
 增量更新是指更新时,只有 改变的地方更新,不变的地方不更新。 仅抓取内容更改的网页或新生成的网页。 在一定程度上,它可以保证被爬取的网页尽可能是新的。  
 
2。 通用爬虫 
 
 抓取目标资源 在整个互联网中,抓取的目标数据是巨大的。 爬取性能要求非常高。 用于大型搜索引擎,具有非常高的应用价值。  
 
 爬行策略:有深度优先爬行策略和广度优先爬行策略。  
 
 基本组成:初始URL采集、URL队列、页面爬取???、页面分析模块、页面数据库、链接过滤??榈取?nbsp;
 
3. 深层网络爬虫 
 
 表面网页:无需提交表单即可使用静态链接访问的静态网页。  
 
深层网页:隐藏在表单后面,无法通过静态链接直接获取,是提交特定关键字后才能获取的网页。  
 
 深度网络爬虫最重要的部分是表单填写部分。  
 
 基本组成:URL列表、LVS列表(LVS指标签/值集合,即填写表单的数据源)爬虫控制器、解析器、LVS控制器、表单分析器、表单处理器、响应 
 
 深度网络爬虫表单填写有两种类型: 
 
 基于领域知识的表单填写(建立填写表单的关键词库,需要时选择对应的 关键根据语义分析词填写)。  
 
 基于网页结构分析的表单填写(通常在字段有限的情况下使用,该方法会分析网页结构并自动填写表单)。  
 
4。 专注于网络爬虫 
 
 将抓取目标定位在与主题相关的页面中,主要用于抓取特定信息,主要为某类特定人群服务。  
 
爬取策略:基于内容评价的爬取策略、基于链接评价的爬取策略、基于强化学习的爬取策略、基于上下文图的爬取策略、针对网络爬虫的具体爬取策略。  
 
 基本组成:初始URL、URL队列、页面抓取模块、页面分析??椤⒁趁媸菘狻⒘庸四??、内容评估???、链接评估??榈?。 
 
 关于分类 爬虫,上面介绍了三类爬虫。 它们根据授权、功能和抓取网站的数量进行分类。 不同的爬虫可以爬取不同的内容。 根据实际爬取需求,比如只爬取网页的某一部分。 
主站蜘蛛池模板: 许昌市| 桐梓县| 宿州市| 台北县| 兴化市| 林州市| 宜章县| 孝感市| 南陵县| 闻喜县| 岫岩| 泰州市| 金门县| 堆龙德庆县| 四川省| 任丘市| 永德县| 讷河市| 邹城市| 宿迁市| 铅山县| 德昌县| 平泉县| 丰镇市| 滕州市| 桂平市| 衡南县| 原阳县| 平度市| 大田县| 普兰店市| 利川市| 淄博市| 莱西市| 静乐县| 晋宁县| 阳谷县| 周至县| 南涧| 阳原县| 宁城县|