作者: Toby Segaran
出版社: O'Reilly Media
出版年: 2007-8-23
页数: 368
定价: USD 39.99
装帧: Paperback
ISBN: 9780596529321
内容简介 · · · · · ·
作者简介 · · · · · ·
豆瓣成员常用的标签(共146个) · · · · · ·
喜欢读"Programming Collective Intelligence"的人也喜欢 · · · · · ·
按有用程度 按页码先后 最新笔记
-
第296页
总结书中提到的各种分类算法: 朴素贝叶斯(naïve Bayesian): 优点:速度快,支持增量训练,易于理解 缺点:无法解决特征组合的情况 The biggest downside to naïve Bayesian classifiers is their inability to deal with outcomes that change based on combinations of features. Imagine the following scenario in which you are trying to distinguish spam from nonspam email: let’s... (更多)总结书中提到的各种分类算法:朴素贝叶斯(naïve Bayesian):优点:速度快,支持增量训练,易于理解缺点:无法解决特征组合的情况
决策树(Decision Tree):优点:速度快,易于理解,接受数值型数据,可以回归,能够处理特征之间的相互影响缺点:不支持增量训练神经网络(Neural Network):优点:支持增量训练,接受数值型数据,能够处理特征之间的相互影响,能够处理复杂的非线性函数缺点:不易理解,训练数据比例难以控制支持向量机(Support-Vector Machines):优点:分类速度快,接受数值型数据缺点:不易理解,参数需要不断尝试K-最近邻(k-Nearest Neighbors):优点:能够利用复杂函数预测,易于理解,知道各个样本的重要程度,添加样本不需要重新训练缺点:低效,需要缩放特征值 (收起)The biggest downside to naïve Bayesian classifiers is their inability to deal with outcomes that change based on combinations of features. Imagine the following scenario in which you are trying to distinguish spam from nonspam email: let’s say your job is building web applications, so the word “online” frequently appears in your work-related email. Your best friend works at a pharmacy and likes sending you funny stories about things that happen to him at work. Also, like most people who haven’t closely guarded their email addresses, you occasionally receive spam containing the words “online pharmacy.” You can probably see the dilemma here already—the classifier is constantly being told that “online” and “pharmacy” exist in nonspam email messages, so their proba- bilities become higher for nonspam. When you tell the classifier that a certain email message with the words “online pharmacy” is spam, those words are adjusted slightly more toward spam, creating a constant battle. Since features are all given probabilities separately, the classifier can never learn about combinations. In document classification this is usually not a big deal, since an email message with the words “online pharmacy” probably contains other spam indicators, but in other problems, understanding feature combinations can be much more important.
2011-05-10 15:26:11 2人收藏 回应
-
CHAPTER2
根据人和人“趣味”的相似性将人聚类,然后给“趣味”相似的人们推荐电影·音乐等等。 Collaborative Filtering 目标:找到那些趣味和我相似的人们 Collecting Preference 取得人们对某样东西的喜好,将喜好的程度量化。 Finding Similar Users 目标:确定人和人之间“趣味”的相似性,并给这种相似性打分(similarity score)。 Euclidean distance 算人在preference space的欧几里德距离,距离小的相似度.. (更多)根据人和人“趣味”的相似性将人聚类,然后给“趣味”相似的人们推荐电影·音乐等等。Collaborative Filtering目标:找到那些趣味和我相似的人们Collecting Preference取得人们对某样东西的喜好,将喜好的程度量化。Finding Similar Users目标:确定人和人之间“趣味”的相似性,并给这种相似性打分(similarity score)。Euclidean distance算人在preference space的欧几里德距离,距离小的相似度高。Preference space的每一维代表一种物品。参考维基百科:相关。皮尔森相关系数两个变量的关系可以直观地用散点图表示,当其紧密地群聚于一条直线的周围时,变量间存在强相关。定义为两个变量协方差除以两个变量的标准差。Recommending Items生成推荐作品的过程中要解决好两个问题:1. 那些和你趣味最相似的人们并未都看过都看过同一部电影,这样的一部电影可能是部好电影,也要被公平的打分。2. 有部电影的分数被某个人打的很高,但是大家的意见和他相反。这种“例外”的影响要被削弱。 (收起)2011-09-06 20:21:15 回应
-
Chapter 1
jimmy (Kindle 3 !)
第一章前几节讲推荐,推荐的前提是要计算相似度,介绍了两种计算相似度的简单方法,Python代码不难看懂,总体感觉不错。 暂时还未见到公式,虽然看到公式大家都烦,但要承认一点,简单清晰的公式胜过巨细无遗的文字介绍。现在看代码,反而要反过来想公式是怎样的。作者的目的可能是便于读者理解,感觉稍有点过。 (更多)第一章前几节讲推荐,推荐的前提是要计算相似度,介绍了两种计算相似度的简单方法,Python代码不难看懂,总体感觉不错。暂时还未见到公式,虽然看到公式大家都烦,但要承认一点,简单清晰的公式胜过巨细无遗的文字介绍。现在看代码,反而要反过来想公式是怎样的。作者的目的可能是便于读者理解,感觉稍有点过。 (收起)2012-02-05 00:17:21 回应
-
第11页
Pearson Correlation Score A slightly more sophisticated way to determine the similarity between people’s inter- ests is to use a Pearson correlation coefficient. The correlation coefficient is a mea- sure of how well two sets of data fit on a straight line. The formula for this is more complicated than the Euclidean distance score, but it tends to give better results in situations where the ... (更多)
Pearson Correlation Score 在数据不是很规范的情况下(某人的评价准则明显比平均水平苛刻或是宽松),表现良好。 (收起)Pearson Correlation Score A slightly more sophisticated way to determine the similarity between people’s inter- ests is to use a Pearson correlation coefficient. The correlation coefficient is a mea- sure of how well two sets of data fit on a straight line. The formula for this is more complicated than the Euclidean distance score, but it tends to give better results in situations where the data isn’t well normalized—for example, if critics’ movie rank- ings are routinely more harsh than average.
2011-04-18 14:02:27 回应
-
第30页
crackcell (searching the web)
collaborative filtering: 1. collect users' preferences 2. cluster users, find a small set similar to yourself - euclidean distance - person correlation - and more & better ? 3. make recommendations from selected users (更多)collaborative filtering:1. collect users' preferences2. cluster users, find a small set similar to yourself - euclidean distance - person correlation - and more & better ?3. make recommendations from selected users (收起)2011-03-12 15:05:02 回应
-
第46页
/代码内容已省略/ items=[re.sub(chare,'',a.contents[0].lower()).strip() for a in td('a')] 这句代码中用到了Python的re模块的sub函数,该函数说明如下: re.sub(pattern, repl, string[, count, flags]) Return the string obtained by replacing the leftmost non-overlapping occurrences of pattern in string by the replacement repl. If the pattern isn’t found, string is re... (更多)from BeautifulSoup import BeautifulSoup import urllib2 import re chare=re.compile(r'[!-\.&]') itemowners={} # Words to remove dropwords=['a','new','some','more','my','own','the','many','other','another'] currentuser=0 for i in range(1,51): # URL for the want search page c=urllib2.urlopen( 'http://member.zebo.com/Main?event_key=USERSEARCH&wiowiw=wiw&keyword=car&page=%d' % (i)) soup=BeautifulSoup(c.read()) for td in soup('td'): # Find table cells of bgverdanasmall class if ('class' in dict(td.attrs) and td['class']=='bgverdanasmall'): items=[re.sub(chare,'',a.contents[0].lower()).strip() for a in td('a')] for item in items: # Remove extra words txt=' '.join([t for t in item.split(' ') if t not in dropwords]) if len(txt)<2: continue itemowners.setdefault(txt,{}) itemowners[txt][currentuser]=1 currentuser+=1items=[re.sub(chare,'',a.contents[0].lower()).strip() for a in td('a')]这句代码中用到了Python的re模块的sub函数,该函数说明如下:re.sub(pattern, repl, string[, count, flags])Return the string obtained by replacing the leftmost non-overlapping occurrences of pattern in string by the replacement repl. If the pattern isn’t found, string is returned unchanged. repl can be a string or a function; if it is a string, any backslash escapes in it are processed. That is, \n is converted to a single newline character, \r is converted to a linefeed, and so forth. Unknown escapes such as \j are left alone. Backreferences, such as \6, are replaced with the substring matched by group 6 in the pattern. (收起)2011-04-06 17:11:09 回应
-
Chapter 1
jimmy (Kindle 3 !)
第一章前几节讲推荐,推荐的前提是要计算相似度,介绍了两种计算相似度的简单方法,Python代码不难看懂,总体感觉不错。 暂时还未见到公式,虽然看到公式大家都烦,但要承认一点,简单清晰的公式胜过巨细无遗的文字介绍。现在看代码,反而要反过来想公式是怎样的。作者的目的可能是便于读者理解,感觉稍有点过。 (更多)第一章前几节讲推荐,推荐的前提是要计算相似度,介绍了两种计算相似度的简单方法,Python代码不难看懂,总体感觉不错。暂时还未见到公式,虽然看到公式大家都烦,但要承认一点,简单清晰的公式胜过巨细无遗的文字介绍。现在看代码,反而要反过来想公式是怎样的。作者的目的可能是便于读者理解,感觉稍有点过。 (收起)2012-02-05 00:17:21 回应
-
CHAPTER2
根据人和人“趣味”的相似性将人聚类,然后给“趣味”相似的人们推荐电影·音乐等等。 Collaborative Filtering 目标:找到那些趣味和我相似的人们 Collecting Preference 取得人们对某样东西的喜好,将喜好的程度量化。 Finding Similar Users 目标:确定人和人之间“趣味”的相似性,并给这种相似性打分(similarity score)。 Euclidean distance 算人在preference space的欧几里德距离,距离小的相似度.. (更多)根据人和人“趣味”的相似性将人聚类,然后给“趣味”相似的人们推荐电影·音乐等等。Collaborative Filtering目标:找到那些趣味和我相似的人们Collecting Preference取得人们对某样东西的喜好,将喜好的程度量化。Finding Similar Users目标:确定人和人之间“趣味”的相似性,并给这种相似性打分(similarity score)。Euclidean distance算人在preference space的欧几里德距离,距离小的相似度高。Preference space的每一维代表一种物品。参考维基百科:相关。皮尔森相关系数两个变量的关系可以直观地用散点图表示,当其紧密地群聚于一条直线的周围时,变量间存在强相关。定义为两个变量协方差除以两个变量的标准差。Recommending Items生成推荐作品的过程中要解决好两个问题:1. 那些和你趣味最相似的人们并未都看过都看过同一部电影,这样的一部电影可能是部好电影,也要被公平的打分。2. 有部电影的分数被某个人打的很高,但是大家的意见和他相反。这种“例外”的影响要被削弱。 (收起)2011-09-06 20:21:15 回应
-
第307页
优化算法总结: 模拟退火(Simulated Annealing): 由一个随机推测开始,初始阶段容易接受更差的解,随着迭代次数的增加,越来越不能接受,在这里接受的概率即温度,当温度为0时迭代结束 由一组随机推测开始,将最优的推测进行改变或组合,在达到某个阈值后结束 (更多)优化算法总结:模拟退火(Simulated Annealing):由一个随机推测开始,初始阶段容易接受更差的解,随着迭代次数的增加,越来越不能接受,在这里接受的概率即温度,当温度为0时迭代结束由一组随机推测开始,将最优的推测进行改变或组合,在达到某个阈值后结束 (收起)2011-05-10 16:23:19 回应
书评 · · · · · · (共29条) 我来评论这本书
热门评论 最新评论
实战性极强
-
- clickstone(http://hyb.im) 中国有句老话,叫做“知易行难”。 作算法的朋友应该更有体会,想把 paper 上的公式转变为可以运行的代码,这是件考验功力的事情。 Toby Segaran 写的这本《Programming Collective Intelligence》,是修炼此种功力的武林秘笈之一。 这本书最显著的特点是,实战性极强! ...... (13回应)2008-08-25 39/40有用
夸的人太多了,我来中和以下
-
- Chen_1st(民科(闭关中,请通过邮件联系)) 这本书还不错的,很适合数学基础不算太好(当然也还是要一定的数学基础),又想了解数据挖掘这个领域的读者。或者有实际的项目需求,但又没有足够的时间去深入了解这个领域的实践者。 不过我每次看到有人说它把艰涩的数学讲的很通俗、进而认为那些写满数学公式的书是故弄玄虚这样的说法时就觉得很反胃口。但这种说法很普遍,不论是在这里...... (31回应)2010-11-22 36/36有用来自 东南大学出版社2008版
把这些算法用熟,就能开发出非常好的应用程序来
-
- 叶卡(真诚恻怛,无欲则刚。) 好书,介绍一些常用算法的使用方法,如神经网络,支持向量机,模拟退火,遗传算法等.对普通读者已经够了.能将这些算法用熟,就能开发出非常好的应用程序来。 缺少当今最流行的小波和独立分量分析,当然不可能有最新的变分贝叶斯理论.对研究算法且用于应用开发的人来说可以是一个好实际东西,因算法书上和文章上都没有应用实例.从...... (9回应)2009-01-09 12/12有用来自 电子工业出版社2009版
集体智慧*人工智能
-
- catsky 上周50周年系庆的时候 张钹 院士说了这样一句话:”人工智能以前大多基于经验和领域知识,直到上万上亿的数据出现时,基于数据的人工智能更有了广阔的天空。”《集体智慧》就是这样一本告诉你如何从数据中挖掘金矿的经典之作。 由于现在所从事的是信息检索,文本挖掘方面的研究工作,有时候成堆的数据让我不知所措。我也常常看一些个......2008-12-03 9/10有用来自 电子工业出版社2009版
书中网站del.icio.us数据实例指导
-
- zhou jimin 为了更好地学习本书,我从学习python开始到后来调试书中的网站实例。花了不少功夫,希望朋友们不要走弯路。这里提供了图文并茂的指导过程。请参考: http://blog.csdn.net/zjmwqx/article/details/7007438...... (1回应)2011-11-24 3/3有用来自 电子工业出版社2009版
不错的入门书籍
-
- onewaystreet(一切都莫不是……) 如果你从没接触过挖掘,推荐,搜索引擎的书,确实值得一读。 如果你懂python,那就更好了,还可以练练手。 不过理论上也没有太多的深入,比如搜索引擎一块,基本就是个小例子,前沿的东西是没有的,毕竟篇幅有限。......2012-02-11 来自 电子工业出版社2009版
一本好的导论书
-
- 刘想说(目前很好.) 这本书当做导论来看才比较适合。里面理论性的实在是很浅,价值大多都体现在实现上。 搞过数学建模的同学看到此书肯定特别亲切,好多理论都接触过,不少内容还用MATLAB实现过,而且还比书里边的研究得更为深入。 因此该书的意义绝不是在于对某某算法的深入研究。而是告诉你,在工程领域的具体实现上应该运用哪类算法。权当更......2011-12-21 来自 电子工业出版社2009版
安装python ide环境和执行书中实践网站del.icio.us...
-
- zhou jimin 为了更好地学习本书,我从学习python开始到后来调试书中的网站实例。花了不少功夫,希望朋友们不要走弯路。这里提供了图文并茂的指导过程。请参考: http://blog.csdn.net/zjmwqx/article/details/7007438......2011-11-24
客观评价一下
-
- 幻想廃人(知道的太多以至于什么都不知道) 在前头那些来自业界的赞誉,还是没有夸大的。 这个领域也就这么些话题,而这本书的确把这些话题一个个整理出来,并评价他们的应用场景和优缺点。我不知道阅读此书前没看过学院派书籍的人感觉如何,要是我一上手看这书,也只是知其然不知其所以然的程度。 这本书的示例代码用python,也是挺讨巧的,python的代码可读性很强,尤......2011-10-05 来自 东南大学出版社2008版
读吧,好书
-
- martin 的确是本实用,有深度,又浅显易懂的书。能够把复杂的问题写得如此简单的人肯定是位绝顶高手。特别是原来感觉比较深奥的问题,比如: 核方法(Kernal Trick)、模拟退火(Simulated Annealing)等这些困扰多年的问题。想当年为了弄清SVM的核方法,看了不少参考资料,有的厚厚的像块砖。几次一头扎进水......2011-08-21 来自 电子工业出版社2009版
"Programming Collective Intelligence"的论坛 · · · · · ·
- > 点这儿转让 有764人想读,手里有一本闲着?
这本书的其他版本 · · · · · · ( 全部3 )
以下豆列推荐 · · · · · · (全部)
- 『只读经典』机器学习与人工智能书籍资源导引 (刘未鹏(pongba))
- 五本/六本信息架构师必读书 (updated) (小容OliverDing)
- 网站架构设计 (红眼睛阿义)
- O'Reilly 之动物书 (leafduo)
- 止读经典(计算机科学) (pattern)
谁读这本书?
喜欢这本书的人常去的小组 · · · · · ·

- 个性化推荐 (393)

- Python编程 (19001)

- 数据挖掘 (5000)

- 机器学习与模式识别 Readi... (1255)

- KanRSS.com (480)

- MongoDB (2148)

- Erlang (1032)

- 分布式技术与系统软件 (677)
喜欢这本书的人关注的活动 · · · · · ·
订阅关于Programming Collective Intelligence的评论:
feed: rss 2.0











