网络爬虫
- 章节名:网络爬虫
爬虫框架: // 阿敲字不如传图手机版笔记果然很必要....
选取一部分网页作为种子URL, 放入待抓取队列, 爬虫从此队列依次读取, 并将URL通过DNS解析, 将链接地址转换为IP, 然后将其和网页相对路径名称交给网页下载器, 网页下载器负责页面内容下载. 下载到本地的网页一方面将其存储到页面库中, 等待建立索引等后续处理, 另一方面将下载网页的URL放入已抓取URL队列中, 以避免重复抓取. 对于刚下载的网页, 从中抽取出所包含的所有链接信息. 并在已抓取URL队列中检查, 如发现链接还没有被抓取过, 则将其放入待抓取队列末尾. 在之后的抓取调度中会下载这个URL对应的网页. 循环直到待抓取URL队列为空 引自 网络爬虫 爬虫无法获取的 不可知网页集合 暗网 批量型爬虫 增量型爬虫 垂直型爬虫 垂直型爬虫为了节省系统资源在爬的过程中动态识别 高性能(以爬虫每秒能下载网页数量为性能指标, 注意设计时程序访问磁盘的操作方法, 具体实现时的数据结构) 可扩展性( 实用大型网络爬虫一定是分布式运行的, 多台服务器专做抓取, 每台服务器部署多个爬虫, 每个爬虫多线程运行, 通过多种方式增加并发性) 健壮性( 异常处理, 如果在抓取中死掉, 服务器挂了, 再次启动时应能恢复之前抓取的内容和数据结构)
友好性: 保护网站部分私密, 减少被抓取网站的网络负载 引自 网络爬虫 爬虫禁抓协议 Robot Exclusion Protocol 放在网站服务器根目录下robot.txt, 抓前先读txt user-agent:GoogleBot Disallow: /users/paranoid/ 这种方式整个目录下不能抓取 单个网页禁抓 在网页HTML代码中加入meta name="robots"标记 content字段指明不允许行为, 不允许索引 content="noindex" 不能抓取网站所包含链接content="nofollow" 未完
203人阅读
秋天的老酸奶对本书的所有笔记 · · · · · ·
-
搜索引擎及其技术架构
1995年是搜索引擎商业公司发展的重要起点, 其对应的背景是: 互联网上的Web站点数量首次超过10...
-
网络爬虫
> 查看全部2篇
说明 · · · · · ·
表示其中内容是对原文的摘抄