13.1 The text classification problem
- 章节名:13.1 The text classification problem
IR systems中有许多queries会被持续不断地执行,比如一些大众热点,这些information needs可以被当作standing queries包含在IR systems中并且实时更新。但是这些standing queries通常会有很多中表达方式,使用布尔表达式难以全面覆盖。因此就想到将文档进行分类,用其中的一类表示一种standing queries的集合,使用这种方法分类也被叫做routing或filtering。 13.1 分类有很重要的作用,因此自古有之,以前多采用人工的方法去进行分类。而目前我们多采用基于机器学习的方法来进行分类,当然人工的方法仍然有应用其中。首先需要人工找出training data,即每个类的样例文档,这一步需要靠人工去判断,被称为labeling。然后让计算机进行statistical text classification,基于统计学的方法去学习这些样例,最后再去判断document collection中的每一篇document属于哪些类。使用training data去得到区分类别的function,也就是classifier,而这些类别往往也是分层和结构化的。
小短手对本书的所有笔记 · · · · · ·
-
8 Evaluation in information retrieval
8.1 Information retrieval system evaluation 对一个特定系统进行评价需要三样东西: 1. doc...
-
14 Vector space classification
这一章描述了使用vector space model对documents进行分类的方法。 首先提到contiguity hypoth...
-
13.1 The text classification problem
-
15 Support vector machines and machine learning on documents
15.1 Support vector machines: The linearly separable case 确定classifier也就是class之间...
说明 · · · · · ·
表示其中内容是对原文的摘抄