大数据的笔记(16)

>我来写笔记

按有用程度 按页码先后 最新笔记

  • Stefanie

    Stefanie (理智和情感的灰色)

    数据挖掘是数据模型的发现过程,统计学家认为数据挖掘就是统计模型的构建过程,而这个统计模型指的是可见数据所遵循的总体分布。 机器学习擅长的典型场景是人们对数据中的寻找目标几乎一无所知。当挖掘的目标能够更直接的描述,机器学习方法并不成功。 数据建模方法可以描述为下面两种:对数据进行简洁的近似汇总描述,从数据中抽取出最突出的特性来代替数据并将剩余内容忽略。 贝叶斯网络可以利用寻找对象间的最强统一依...

    2012-10-12 11:21   2人喜欢

  • hacder

    hacder

    map-reduce

    2013-07-11 00:29

  • roky

    roky

    collaborative fitering as similary-set problem: moving ratings(liked and hated) and on-line purchases (purchasesd ) can use intersection

    2013-02-27 22:42

  • roky

    roky

    file system can enable to done,need tod solve solution to this problems have two forms: 1、 the files can been duplicate at serveral computer nodes. if one node failed ,the node can be work on other computer. the files must be back up ,if one coumpter crash,the other computers can even work .or the files would be lost forever. 2、must be divided into tasks ,if one task failed to execute to com...

    2013-02-25 21:54

  • roky

    roky

    the DFS is typically use as follows: 1、the files are enomorous. if you have only small files,their is no point in using DFS for them 2、 the data is raraly updated

    2013-02-25 21:51

  • iasc

    iasc

    这本书读了一段,感觉很多东西都没讲透,一团雾水。难道是我基础太差?需要找原文看看?

    2013-02-11 22:23

  • 目冬

    目冬

    可以把关联规则I->j的兴趣度定义为其可信度及包含j的购物篮比率之间的差值 若一条规则的兴趣度很高或者是很大的负值,前者说明购物篮I中的存在在某种程度上促进j。后者则是抑制。 比如 购买尿布中购买啤酒的比例高于所有顾客中购买啤酒的比率说明很高的兴趣度。

    2013-01-31 11:22

  • 河流拐弯的地方

    河流拐弯的地方 (你要相信幸福是一道不灭的微光)

    相比正文,我更加喜欢CS345A关于这个章节的slides, http://infolab.stanford.edu/~ullman/mining/2009/RecommendationSystems.pdf 回到问题的开始,什么是推荐系统。 用文字描述是“用户对选项的喜好进行预测”,也就是说这是Data Analysis中的Predictive analysis, 关于predictive analysis, 有两个重要的特征 1. Accurate prediction depends heavily on measuring the right variables 2. Although there are better an...

    2013-01-29 11:57

  • 目冬

    目冬

    集合S和T的jaccard相似度为 集合S和T的交集和集合并集之间的比率。记为SIM(S,T)。 有时候,个人兴趣的相似度只要百分之20。 以下的处理是可选做法: 1,忽略低评用户,电影对 2,用户比较时,每个电影可以有喜欢或者讨厌标签。 3,评级是5星的话,则重复放n次 注意包和集合的概念 如 集合{1,2,3,4}和集合{2,3,5,7}则相似度为 2/6=1/3;包的话就是2/8=1/4。 在k-shingle大小的选择中,如果文档是邮件..

    2013-01-25 10:14

  • 目冬

    目冬

    TF.IDF: 词项i在文档j中的词项频率归一化结果。 归一化通过Fij除以同文档出现最多的词项的频率来计算。 假定词项i在文档集ni篇文档中出现,那么词项i的IDF定义如下: IDFi=log2 N/ni 于是词项i的文档j中的得分被定义为TFij*IDFi 具有最高得分的为最佳词项! 幂函数: log y=b+a log x y=c x^a 习题 h=x mod 15; c取多少,h最合适。 哈希函数这块 再认真阅读 p8

    2013-01-15 14:35

<前页 1 2 后页>

笔记是你写在书页留白边上的内容;是你阅读中的批注、摘抄及随感。

笔记必须是自己所写,不欢迎转载。摘抄原文的部分应该进行特殊标明。

大数据

>大数据