《信息检索导论》的原文摘录

  • The term “unstructured data” refers to datawhich does not have clear, semantically overt, easy-for-a-computer structure. (查看原文)
    小短手 2回复 2011-10-16 16:07:09
    —— 引自章节:1.1 An example information ret
  • A proximity operator is a way of specifying that two terms in a query must occur close to each other in a document, where closeness may be measured by limiting the allowed number of intervening words or by reference to a structural unit such as a sentence or paragraph. (查看原文)
    小短手 2011-10-16 21:14:36
    —— 引自章节:1.4 The extended Boolean model
  • INTERSECTWITHSKIPS(p1, p2) 1 answer ← h i 2 while p1 = NIL and p2 = NIL 3 do if docID(p1) = docID(p2) 4 then ADD(answer, docID(p1)) 5 p1 ← next(p1) 6 p2 ← next(p2) 7 else if docID(p1) < docID(p2) 8 then if hasSkip(p1) and (docID(skip(p1)) ≤ docID(p2)) 9 then while hasSkip(p1) and (docID(skip(p1)) ≤ docID(p2)) 10 do p1 ← skip(p1) 11 else p1 ← next(p1) 12 else if hasSkip(p2) and (docID(skip(p2)) ≤ docID(p1)) 13 then while hasSkip(p2) and (docID(skip(p2)) ≤ docID(p1)) 14 do p2 ← skip(p2) 15 else p2 ← next(p2) 16 return answer (查看原文)
    小短手 2011-10-21 12:14:58
    —— 引自章节:2.3 Faster postings list inter
  • (1) How many keys are we likely to have? (2) Is the number likely to remain static, or change a lot, and in the case of changes, are we likely to only have new keys inserted, or to also have some keys in the dictionary be deleted? (3) What are the relative frequencies with which various keys will be accessed? (查看原文)
    小短手 2011-10-21 21:06:30
    —— 引自章节:3.1 Search structures for dict
  • 1. Retain the first letter of the term. 2. Change all occurrences of the following letters to ’0’ (zero): ’A’, E’, ’I’, ’O’, ’U’, ’H’, ’W’, ’Y’. 3. Change letters to digits as follows: B, F, P, V to 1. C, G, J, K, Q, S, X, Z to 2. D,T to 3. L to 4. M, N to 5. R to 6. 4. Repeatedly remove one out of each pair of consecutive identical digits. 5. Remove all zeros from the resulting string. Pad the resulting string with trailing zeros and return the first four positions, which will consist of a letter followed by three digits. (查看原文)
    小短手 2011-10-22 16:22:09
    —— 引自章节:3.4 Phonetic correction
  • BSBINDEXCONSTRUCTION() 1 n ← 0 2 while (all documents have not been processed) 3 do n ← n +1 4 block ← PARSENEXTBLOCK() 5 BSBI-INVERT(block) 6 WRITEBLOCKTODISK(block, fn) 7 MERGEBLOCKS( f1, . . . , fn; fmerged) (查看原文)
    小短手 2011-10-22 20:25:03
    —— 引自章节:4 Index construction
  • SPIMI-INVERT(token_stream) 1 output_ f ile = NEWFILE() 2 dictionary = NEWHASH() 3 while (free memory available) 4 do token ← next(token_stream) 5 if term(token) / ∈ dictionary 6 then postings_list = ADDTODICTIONARY(dictionary, term(token)) 7 else postings_list = GETPOSTINGSLIST(dictionary, term(token)) 8 if full(postings_list) 9 then postings_list = DOUBLEPOSTINGSLIST(dictionary, term(token)) 10 ADDTOPOSTINGSLIST(postings_list, docID(token)) 11 sorted_terms ← SORTTERMS(dictionary) 12 WRITEBLOCKTODISK(sorted_terms, dictionary, output_ file) 13 return output_ file (查看原文)
    小短手 2011-10-22 20:25:03
    —— 引自章节:4 Index construction
  • VBENCODENUMBER(n) 1 bytes ← hi 2 while true 3 do PREPEND(bytes, n mod 128) 4 if n < 128 5 then BREAK 6 n ← n div 128 7 bytes[LENGTH(bytes)] += 128 8 return bytes VBENCODE(numbers) 1 bytestream ← hi 2 for each n ∈ numbers 3 do bytes ← VBENCODENUMBER(n) 4 bytestream ← EXTEND(bytestream, bytes) 5 return bytestream VBDECODE(bytestream) 1 numbers ← hi 2 n ← 0 3 for i ← 1 to LENGTH(bytestream) 4 do if bytestream[i] < 128 5 then n ← 128× n + bytestream[i] 6 else n ← 128× n + (bytestream[i] − 128) 7 APPEND(numbers, n) 8 n ← 0 9 return numbers (查看原文)
    小短手 2011-10-23 12:07:26
    —— 引自章节:5 Index Compression
  • The representation of a set of documents as vectors in a common vector space is known as the vector space model ...the view of queries as vectors in the same vector space as the document collection. (查看原文)
    小短手 2011-10-27 21:07:13
    —— 引自章节:6.3 The vector space model for
  • The outermost loop beginning Step 3 repeats the updating of Scores, iterating over each query term t in turn. In Step 5 we calculate the weight in the query vector for term t. Steps 6-8 update the score of each document by adding in the contribution from term t. This process of adding in contributions one query term at a time is sometimes known as term-at-a-time scoring or accumulation, and the N elements of the array Scores are therefore known as accumulators. For this purpose, it would appear necessary to store, with each postings entry, the weight wf(t,d) of term t in document d (we have thus far used either tf or tf-idf for this weight, but leave open the possibility of other functions to be developed in Section 6.4). (查看原文)
    小短手 2011-10-27 21:07:13
    —— 引自章节:6.3 The vector space model for
  • (128)the average length of a term in english is about eight characters (查看原文)
    简体中文 1赞 2011-11-30 15:01:32
    —— 引自章节:5 index compression
  • 精确率指标在很多机器学习问题中的使用非常普遍,是一个非常适合这类问题的效果度量指标。 (查看原文)
    [已注销] 1回复 2012-06-14 15:48:05
    —— 引自第106页
  • 如果系统仅仅包含位置索引,那么便不容易从搜索引擎命中结果中抽取上下文来生成这样的动态摘要。在目前大容量硬盘成本低廉的情况下,解决上述问题的一个常规做法是,在构建索引时利用这些磁盘在本地缓存所有的文档(尽管这种做法会引起法律、信息安全和控制方面的目前还远远无法解决的问题)。 (查看原文)
    [已注销] 2回复 2012-06-15 14:28:36
    —— 引自第118页
  • 如果文档自上次爬虫和索引器处理之后已经被更新,那么这些变化既不会体现在缓存也不会体现在索引中。这种情况下,索引和摘要都不会精确地反映出当前文档的内容,但是摘要和实际文档内容之间的差异对用户感觉来说会更明显。 (查看原文)
    [已注销] 2回复 2012-06-15 14:28:36
    —— 引自第118页
  • 布尔检索模型接受布尔表达式查询,即通过AND、OR及NOT等逻辑操作符将词项连接起来的查询。在该模型下,每篇文档只被当成是一系列词的集合。 (查看原文)
    [已注销] 2019-08-28 20:35:03
    —— 引自第3页
  • 信息需求指的是用户想查找的信息主题,它和查询并不是一回事,后者由用户提交给系统以代表其信息需求。 (查看原文)
    [已注销] 2019-08-28 20:41:44
    —— 引自第4页
  • 对于内存中的一个倒排记录表,可以采用两种好的存储方法:一个是单链表,另一个是变长数组。单链表便于文档的插入和更新(比如,对更新的网页进行重新采集),因此通过增加指针的方式可以很自然地扩展到更高级的索引策略。而可变长数组的存储方式一方面可以节省指针消耗的空间,另一方面由于采用连续的内存存储,可以充分利用现代计算机的缓存技术来提高访问速度。额外的指针在实际中可以编码成偏移地址融入到表中。如果索引更新不是很频繁的话,变长数组的存储方式在空间上更紧凑,遍历也更快。另外,我们也可以采用另一种混合的方式,即采用定长数组的链表方式。当倒排记录婊存在磁盘上的时候,它们被连续存放并且没有显式的指针,这样可以在把倒排记录表读入内存时,将该倒排记录表的大小及磁盘寻道的次数降到最小。 (查看原文)
    [已注销] 2019-08-28 20:51:58
    —— 引自第6页
  • 对每个词项,我们必须取出其对应的倒排记录表,然后将它们合并。一个启发式的想法是,按照词项的文档频率(也就是倒排记录表的长度)从小到大依次进行处理,如果我们先合并两个最短的倒排记录表,那么所有中间结果的大小都不会超过最短的倒排记录表,这样处理所需要的工作量很可能最少。 对于任意的布尔查询,我们必须计算并临时保存中间表达式的结果。但是,在很多情况下,不论是由于查询语言本身的性质所决定,还是仅仅由于这是用户所提交的最普遍的查询类型,查询往往是由纯“与”操作构成的。在这种情况下,不是将倒排记录表合并看成两个输入加一个不同输出的函数,而是将每个返回的倒排记录表和当前内存中的中间结果进行合并,这样做的效率更高而最初的中间结果中可以调入最小文档频率的词项所对应的倒排记录表。 (查看原文)
    [已注销] 2019-08-28 21:07:43
    —— 引自第9页
  • 邻近操作符用于制定查询中的两个词应该在文档中相互靠近,靠近程度通常采用两者之间的词的个数或者是否在某个结构单元(如句子或段落)中出现来衡量。 (查看原文)
    [已注销] 2019-08-28 21:18:02
    —— 引自第11页
  • 逻辑与(AND)和逻辑或(OR)会导致检索结果在正确率和召回率这一对折中量上走向两个极端,但是很难达到合理均衡状态。 (查看原文)
    [已注销] 2019-08-28 21:27:15
    —— 引自第13页
<前页 1 2 后页>