网络爬虫

秋天的老酸奶

章节名：网络爬虫
2012-02-24 23:39:19

爬虫框架: // 阿敲字不如传图手机版笔记果然很必要....

选取一部分网页作为种子URL, 放入待抓取队列, 爬虫从此队列依次读取, 并将URL通过DNS解析, 将链接地址转换为IP, 然后将其和网页相对路径名称交给网页下载器, 网页下载器负责页面内容下载. 下载到本地的网页一方面将其存储到页面库中, 等待建立索引等后续处理, 另一方面将下载网页的URL放入已抓取URL队列中, 以避免重复抓取. 对于刚下载的网页, 从中抽取出所包含的所有链接信息. 并在已抓取URL队列中检查, 如发现链接还没有被抓取过, 则将其放入待抓取队列末尾. 在之后的抓取调度中会下载这个URL对应的网页. 循环直到待抓取URL队列为空

引自网络爬虫

爬虫无法获取的不可知网页集合暗网批量型爬虫增量型爬虫垂直型爬虫垂直型爬虫为了节省系统资源在爬的过程中动态识别高性能(以爬虫每秒能下载网页数量为性能指标, 注意设计时程序访问磁盘的操作方法, 具体实现时的数据结构) 可扩展性( 实用大型网络爬虫一定是分布式运行的, 多台服务器专做抓取, 每台服务器部署多个爬虫, 每个爬虫多线程运行, 通过多种方式增加并发性) 健壮性( 异常处理, 如果在抓取中死掉, 服务器挂了, 再次启动时应能恢复之前抓取的内容和数据结构)

友好性: 保护网站部分私密, 减少被抓取网站的网络负载

引自网络爬虫

爬虫禁抓协议 Robot Exclusion Protocol 放在网站服务器根目录下robot.txt, 抓前先读txt user-agent:GoogleBot Disallow: /users/paranoid/ 这种方式整个目录下不能抓取单个网页禁抓在网页HTML代码中加入meta name="robots"标记 content字段指明不允许行为, 不允许索引 content="noindex" 不能抓取网站所包含链接content="nofollow" 未完

203人阅读

> 秋天的老酸奶的所有笔记（44篇）

秋天的老酸奶对本书的所有笔记 · · · · · ·

搜索引擎及其技术架构

1995年是搜索引擎商业公司发展的重要起点, 其对应的背景是: 互联网上的Web站点数量首次超过10...
网络爬虫

> 查看全部2篇

说明 · · · · · ·

表示其中内容是对原文的摘抄

网络爬虫

秋天的老酸奶

秋天的老酸奶对本书的所有笔记 · · · · · ·

搜索引擎及其技术架构

网络爬虫

说明 · · · · · ·