《网络爬虫全解析——技术、原理与实践》介绍了如何开发网络爬虫。内容主要包括开发网络爬虫所需要的Java语法基础和网络爬虫的工作原理,如何使用开源组件HttpClient和爬虫框架Crawler4j抓取网页信息,以及针对抓取到的文本进行有效信息的提取。为了扩展抓取能力,《网络爬虫全解析——技术、原理与实践》介绍了实现分布式网络爬虫的关键技术。
另外,《网络爬虫全解析——技术、原理与实践》介绍了从图像和语音等多媒体格式文件中提取文本信息,以及如何使用大数据技术存储抓取到的信息。最后,以实战为例,介绍了如何抓取微信和微博,以及在电商、医药、金融等领域的案例应用。其中,电商领域的应用介绍了使用网络爬虫抓取商品信息入库到网上商店的数据库表。医药领域的案例介绍了抓取PubMed医药论文库。金融领域的案例介绍了抓取股票信息,以及从年报PDF文档中提取表格等。
《网络爬虫全解析——技术、原理与实践》适用于对开发信息采集软件感兴趣的自学者。也可以供有Java或程序设计基础的开发人员参考。
0 有用 芥子须弥 2021-12-19 18:22:54
烂书中的烂书
4 有用 Chill Max 2017-08-10 09:03:22
我去~这书写的太他妈烂了,完全是源代码的叠加加上东拼西凑的知识点比如说1.7讲文本信息读取 1.8就讲折半查找 1.9讲图像处理 我去这作者什么逻辑吖 而且这折半查找莫名的出现你是没东西写吗 缺钱是吗 我严重怀疑作者有很强的社会哥背景 不然这么烂的书也不经过审核
0 有用 奥斯特法拉第 2021-04-10 16:12:32
写的啥也不是,毫无逻辑,感觉作者自己都不知道写的什么。
0 有用 秋山野客 2020-04-09 22:55:25
京东读书上,要付费,所以第三章之后就没读了。是讲的 Java 爬虫,感觉一般般。
0 有用 yohunl 2019-12-29 16:10:47
额,买错了,java的,我想看的是Python 的,这个书上的很多都是基础的内容