很好的一本搜索引擎研发人员参考书
这是一本由搜索引擎研究和开发人员共同编写的搜索引擎原理与实现的参考书。
撇开市面上那些质量低劣的介绍开源搜索引擎代码的书不谈,关于搜索引擎原理的书籍基本可以分为两类,一类是教科书类型,如较老的《Modern Information Retrieval》 和 《Managing Gigabytes》 , 较新的是08年剑桥大学出版社出的《Introduction to information retrieval》,另一类是基于实际搜索引擎构建介绍涉及到的信息检索领域相关的理论,较老的是国内北大天网实验室出版的《搜索引擎:原理技术与系统》,比较新的就是这本Croft老爷写的《Search Engines -Information Retrieval in Practice》,第一类的特点是以理论介绍为主,涉及到大量的理论模型,面向的读者是信息检索领域的研究者,第二类主要介绍搜索引擎设计到的信息检索理论,面向的读者是搜索引擎的研究和开发者。
北大天网实验室的李晓明老师的《搜索引擎:原理技术与系统》,比较清楚地介绍了搜索引擎的基本构成,但感觉后面几章的理论部分介绍的比较杂乱,有明显的论文堆砌的痕迹。
Croft老爷的这边书非常系统的介绍了搜索引擎的各个主要模块及对应的最新研究进展,对于搜索引擎研发者来说,可以非常方便地切入具体的模块,了解主要的实现算法,每章后面的References and Further Reading 对算法进行了总结并给出最新的研究进展,作为参考书来说非常合适。唯一感觉不足之处是作为范例的Galago系统介绍得比较简单和随意,没有很好地展示理论在范例系统的应用。
撇开市面上那些质量低劣的介绍开源搜索引擎代码的书不谈,关于搜索引擎原理的书籍基本可以分为两类,一类是教科书类型,如较老的《Modern Information Retrieval》 和 《Managing Gigabytes》 , 较新的是08年剑桥大学出版社出的《Introduction to information retrieval》,另一类是基于实际搜索引擎构建介绍涉及到的信息检索领域相关的理论,较老的是国内北大天网实验室出版的《搜索引擎:原理技术与系统》,比较新的就是这本Croft老爷写的《Search Engines -Information Retrieval in Practice》,第一类的特点是以理论介绍为主,涉及到大量的理论模型,面向的读者是信息检索领域的研究者,第二类主要介绍搜索引擎设计到的信息检索理论,面向的读者是搜索引擎的研究和开发者。
北大天网实验室的李晓明老师的《搜索引擎:原理技术与系统》,比较清楚地介绍了搜索引擎的基本构成,但感觉后面几章的理论部分介绍的比较杂乱,有明显的论文堆砌的痕迹。
Croft老爷的这边书非常系统的介绍了搜索引擎的各个主要模块及对应的最新研究进展,对于搜索引擎研发者来说,可以非常方便地切入具体的模块,了解主要的实现算法,每章后面的References and Further Reading 对算法进行了总结并给出最新的研究进展,作为参考书来说非常合适。唯一感觉不足之处是作为范例的Galago系统介绍得比较简单和随意,没有很好地展示理论在范例系统的应用。
有关键情节透露