搜索引擎的笔记(22)

按有用程度 按页码先后 最新笔记

  • Andy (一定要多读书,遇见最好的自己~)

    主要包括四个方面: 关键词的提取; “镜像网页”(网页的内容完全相同,未加任何修改)或“转载网页”(near-replicas,主题内容基本相同但可能有一些额外的编辑信息等,转载网页也称为“近似镜像网页”)的消除; 链接分析; 网页重要程度的计算。

    2013-09-28 16:44:55   1人喜欢

  • Andy (一定要多读书,遇见最好的自己~)

    返回一个可能和用户输入内容相关的信息列表(常常会是很长一个列表,例如包含1万个条目)。这个列表中的每一条目代表一篇网页,至少有3个元素: 标题:以某种方式得到的网页内容的标题。最简单的方式就是从网页的 <TITLE></TITLE>标签中提取的内容。(尽管在一些情况下并不真正反映网页的 内容)。本书第七章会介绍其他形成“标题”的方法。 URL:该网页对应的“访问地址”。有经验的Web用户常常可以通过这个元 素...

    2013-09-26 20:55:14

  • talon (试着定义自己)

    Lazy Learning,在训练是仅仅是保存样本集的信息,并不通过样本分析出结构或者曲线,一切都会等到处理测试样本时才会进行算法过程。 常见的有KNN,Lazy Decision Tree。这种算法对训练集合的要求很高,但也能比较好的拟合局部的样本特性。 例如用KNN来做文本分类,在训练集合比较好的情况下,效果比Native bayes要好很多。   (1回应)

    2013-09-08 00:13:40

  • talon (试着定义自己)

    文本分类的方法记录:   (2回应)

    2013-09-03 22:19:27

  • talon (试着定义自己)

    搜索引擎目前使用到的rank技术,1、基于网页本身的。2、基于链接关系的。3、基于用户信息。4、基于人工编辑。其中基于用户点击反馈,召回和正确率都很高,而基于网页本身的召回很高,但正确率很低,基于人工编辑的正确率很高,但召回非常底。

    2013-08-29 23:10:41

  • talon (试着定义自己)

    考虑下镜像网页怎么计算,利用词的向量,计算cos夹角。那是否查询也可以一样,计算cos夹角呢?不行的原因有这么几个,第一也是最重要的一个,用户输入的query都非常短,与doc的词汇数目完全不是一个数量级别;第二,网页的种类太多,而且质量参差不齐,噪声对cos夹角的影响是非常大的。

    2013-08-28 00:12:23

  • talon (试着定义自己)

    来看看网页的种类: 1、导航网站,它专门指向外网址 2、内容页面,他们有文档,下载页面,图片,视频,但被转载的比较少 3、索引页面,他们只指向本站内部的内容页面 4、主页,既有超链接指向外网,又有被超链接指向。 绝大部分用户的查询时针对内容页面的。少部分针对主页和导航站点,其实查询需求是网站地址。

    2013-08-27 01:29:46

  • talon (试着定义自己)

    为什么缓存是有效的? 在不同的存储介质的io速度不同时,缓存总是有效的。拿磁盘和内存来说,磁盘的访问时间是内存的几十倍。如果内存访问时间为Tm,磁盘访问时间为Td,命中率为p。则使用缓存的时间变为原来的n倍,见公式 n =(p*Tm+(1-p)*Td)/(Td) Td >> Tm时,趋向于(1-p),当p足够大时,利用缓存的时间会大大减少。   (1回应)

    2013-08-27 00:54:44

  • talon (试着定义自己)

    用户行为分析。 1、用户查询词分布 2、雷同查询词的衰减 3、相邻N项查询项的偏差分析 4、用户点击url的分布 5、用户再输出结果的翻页情况 通过这些用户行为分析,能有什么结论,什么优化方案?以及还有哪些其他的用户分析。   (3回应)

    2013-08-05 23:44:38

  • talon (试着定义自己)

    索引技术 索引压缩-由于cpu时间比内存io时间要快很多,所以索引压缩变的必要。组织倒排索引文件,可以把倒排项中的文档号和出现位置编号,都按递增序排列,把大整数序列变换成较小的整数序列,再选取 一种整数编码方案实现高效的倒排项数据压缩。 重要的词单独索引—Anchor text对网页的作用是非常大的,还有就是网页的title,keyword。 混排技术—比如“天安门广场”经过切词就变成天安门,广场,两个词,查询需要查两次,然后再...

    2013-08-04 01:49:50

<前页 1 2 3 后页>

笔记是你写在书页留白边上的内容;是你阅读中的批注、摘抄及随感。

笔记必须是自己所写,不欢迎转载。摘抄原文的部分应该进行特殊标明。

搜索引擎

>搜索引擎