Name: Web Scraping with Python
ISBN: 9781491985571

作者: Ryan Mitchell
出版社: O'Reilly Media
副标题: Collecting More Data from the Modern Web, 2E
出版年: 2018-3-25
页数: 300
定价: USD 39.99
装帧: Paperback
ISBN: 9781491985571

豆瓣评分

8.2

16人评价

5星

31.3%
4星

50.0%
3星

18.8%
2星

0.0%
1星

0.0%

评价:

内容简介 · · · · · ·

不但涵盖网络爬虫基本原理，还包括分析原始数据、用网络爬虫测试网站等高级话题，教会读者如何使用Python脚本和网络API一次性采集并处理成千上万个网页上的数据。

Web Scraping with Python的创作者 · · · · · ·

玛格丽特·米切尔

作者简介 · · · · · ·

Ryan Mitchell是数据科学家、软件工程师，目前在波士顿LinkeDrive公司负责开发公司的API和数据分析工具。此前，曾在Abine公司构建网络爬虫和网络机器人。她经常做网络数据采集项目的咨询工作，主要面向金融和零售业。另著有Instant Web Scraping with Java。

目录 · · · · · ·

Learn how to parse complicated HTML pages
Traverse multiple pages and sites
Get a general overview of APIs and how they work
Learn several methods for storing the data you scrape
Download, read, and extract data from documents
Use tools and techniques to clean badly formatted data
· · · · · · (更多)

原文摘录 · · · · · · ( 全部 )

谷歌在 1994 年成立的时候，就是两个斯坦福大学的毕业生用一个陈旧的服务器和一个Python 网络爬虫。现在你应该知道了，你已经正式拥有了成为下一个科技亿万富翁需要的工具了！ (查看原文)

九识澪 1赞 2018-04-23 15:08:46

—— 引自第34页
用 Python 发一封邮件只要 9 行代码： import smtplib from email.mime.text import MIMEText msg = MIMEText("The body of the email is here")、 msg['Subject'] = "An Email Alert" msg['From'] = "ryan@pythonscraping.com" msg['To'] = "webmaster@pythonscraping.com" s = smtplib.SMTP('localhost') s.send_message(msg) s.quit() (查看原文)

九识澪 1赞 2018-04-24 23:09:21

—— 引自第78页

> 全部原文摘录

我来说两句

短评 · · · · · · ( 全部 5 条 )

Web Scraping with Python的书评 · · · · · · ( 全部 12 条 )

热门只看本版本的评论

水冰玲 2016-03-04 10:08:15 O'Reilly Media2015版

人生苦短，快用Python

这篇书评可能有关键情节透露

开学没到2周，这本书已经读完，写的非常细致，也很基础，只有英文版本的，但是写的很口语化，其中还有很多joke，如果你想入门爬虫，推荐这本书。略去安装的细节，此书使用的是Py3. 第一，二章直接推荐大家使用BeautifulSoup来解析网页，个人觉得最好用的还是lxml，但是本书并... (展开)

1 7回应

Brucie 2016-06-05 18:15:37 人民邮电出版社2016版

似乎所有的“分号”都应该是“冒号”

第三章有好几个地方出现“分号”，但又实在不明白哪里有分号，只好查了原文。原文是 colons，也就是冒号。写在这里，给其他同学提个醒。：这是冒号；这是分号公平地说，原书中也有一些低级错误，比如第七章开始不久，有个函数里把 input 写成了content，中文版照抄了... (展开)

3回应

陌上嫣然 2016-04-25 14:13:51 人民邮电出版社2016版

很好的一本书

作者显然是此行达人，踩坑踩多了都是直接上经验。书里的代码很优美、正规并且很简洁，运用了大量的递归算法和正则表达式。但是有些地方译者翻译的有误，比如第31页，倒数第六行冒号翻译成了分号，显然运行了源码并且对比了wiki网站才会知道这是误翻译。另外，作者源码也有错... (展开)

1 2回应

directx9 2019-08-31 00:09:09 人民邮电出版社2016版

翻译勘误

5.3.2 基本命令第二段第一句话：除了用户自定义变量名（MySQL 5.x 版本是不区分大小写的，MySQL 5.0 之前的版本是不区分大小写的），MySQL 语句是不区分大小写的。（wtf ？？？？？？？ 5.4 Email 查询圣诞节的代码缩进错误（sendMail函数和while都错了，会造成死循环！ 8.2... (展开)

0回应

黑胖子不说话 2019-07-25 10:16:00 人民邮电出版社2019版

能不能用点心啊

第177页的代码从逻辑上就不对啊，import的pytesseract就没用，而是通过subprocess调用，这应该是第一版的思路，不过我也搞不清这是作者还是译者的锅，把代码改成如下更合理 import time from urllib.request import urlretrieve from PIL import Image import pytesseract from... (展开)

0回应

Anduril 2019-08-22 15:41:19 人民邮电出版社2016版

代码勘误

这篇书评可能有关键情节透露

chapter 3 crawlSite.py startingSite 参数没有在getRandomExternalLink方法中执行，会导致死循环 def followExternalOnly(startingSite): externalLink = getRandomExternalLink(startingSite) print("Random external link is: "+externalLink) followExternalOnly(externa... (展开)

0回应

白色扉页 2016-12-12 12:22:01 人民邮电出版社2016版

真的很合适入门的同学

诚然，这本书里面提到的一些python库不一定是最好的，但是整个爬虫的思路，还是非常值得大家借鉴。其实python的语法，以及爬虫的代码段，都不难，就是写爬虫的过程中，需要注意的事项和有可能踩到的坑，是我比较看中的。书中提到了一点，就是修改浏览器的header，默认貌似... (展开)

0回应

说书人 2016-04-23 23:03:49 人民邮电出版社2016版

用python3讲一个完整的数据爬取和清洗的过程

最近刚学了python3，看了一些讲语法的书籍和练手的题目，感觉这本书是一个比较好的系统的利用python完成从数据爬取到数据清洗整个流程的实践过程。觉得自己很有必要实践一下。刚刚看了下试读章节，15年出的英文版，难得的用python3进行工程实践而不只是讲语法的书。 (展开)

0回应

豆肝儿 2019-09-23 23:02:02 人民邮电出版社2016版

学到的有用内容

1.可以尝试使用Google API 2.对于容易被封杀的站点使用tor来匿名 3.使用Tesseract识别验证码，可以训练特殊字体提高识别率 4.爬取整个网站的外链链接是件容易的事情 5.使用selenium作为测试网站的框架 6.注意cookie和request header的使用，努力让网站不把你当做爬虫对待 (展开)

0回应