《智能Web算法》的原文摘录

  • the similarity matrix is symmetrical. This simply means that if user A is similarity to user B with a similarity value X then user B will be similar to user A with a similarity value equal to X. (查看原文)
    现实与实现 5回复 4赞 2011-01-27 00:26:54
    —— 引自第84页
  • Bell and Keorren are leading the Netflix prize competitioin (at the time of this writing), and their assessment was the following: "we found no perfect models. Instead, our best results came from combining predictions of models that complemented each other." (查看原文)
    现实与实现 3回复 2011-01-28 09:49:48
    —— 引自第118页
  • 推荐引擎的核心功能在于计算任意两个用户或两个条目之间的相似程度。 (查看原文)
    Once 1回复 2011-08-03 22:51:43
    —— 引自第74页
  • 智能Web应用所必须的基本元素: 内容集合(数据),与具体应用有关的大量数据; 参考架构(结构化和语义化),为内容提供了结构化,语义化的解释; 算法:对数据中的结构化和语义化的内容进行分析; Mashup是一种激动人心的交互式Web应用,它从外部数据源获取内容,然后创建出全新的富有创意的服务。 (查看原文)
    Stefanie 2012-10-03 12:54:52
    —— 引自第21页
  • 如何构建智能Web应用: 1. 审查应用的功能:分析user case和实际的商业价值 2. 了解你需要和拥有的数据 爬虫Crawler也被成为spider,是用于从互联网上获取公开内容的程序,爬虫通常会访问一份URL列表,然后跟踪其中的每个链接,这个过程会不断的重复,重复的次数被成为爬虫深度。 AI的目标是极具野心的,试图开发出像人类一样思考的机器。机器学习,数据挖掘,软计算都是其中最基础的一些探索。 机器学习是指软件系统能从已有的经验中抽象出普遍的规则,然后利用这些规则回答各种问题,包括曾经遇到过的或者没有遇到过的问题。 智能Web应用需要考虑的8个误区: 1. 数据不可靠 2. 计算需要时间,应用需要快速的反馈时间 3. 考虑数据的规模,大数据带来数据处理的效率和准确率的问题 4. 不是所有算法都可以扩展 5. 解决方案往往不是万能的 6. 算法的参数对执行时间和效率有很大的影响 7. 不是复杂的模型就是最好,KISS:Keep It simple, stupid尤其是最好的选择 8. 选择模型用于训练算法的时候我们都会引入偏见 (查看原文)
    Stefanie 2012-10-03 12:54:52
    —— 引自第21页