第27页 统计语言模型
- 章节名:统计语言模型
- 页码:第27页
为了解决针对自然语言的上下文相关特性采用了统计语言模型。 统计语言模型: 就是分析一个句子中的词语,然后分析这些词语出现的概率然后由这些词所组成句子的概率。选取其中概率最大的句子为最后的结果。(大体上思路就是这样子的,当然每次词的概率都是依赖于前面词语出现的概率) 为了简化这个模型中关于概率的计算,采用了马尔科夫假设。即当前的词出现的概率只依赖于前一个词出现的概率。 因为这些词语的概率都是基于语言库而得来的,所以也有可能会出现概率为0的情况这个时候我们采用的方法是减少当前已有词语的概率将这些多出来的值赋给那些从来没有出现的词语作为其的概率。 因为语料直接影响着统计语言模型中的可靠性,所以在选取语料的时候我们需要进行如下的两个操作: 1.确保训练语料和模型应用领域相关 2.在可行的情况下对训练语料进行降噪处理
37人阅读
陈对本书的所有笔记 · · · · · ·
-
第1页 文字和语言 vs 数字和信息
在古代是先有了语言,然后伴随着信息过载导致了文字的出现。数字则是因为人们在日常生活中的...
-
第27页 统计语言模型
-
第42页 谈谈中文分词
对于西方拼音语言来讲,词语之间有明确的分界符对于中文这种类型的语言来说因为词之间没有明...
-
第49页 第5章 隐含马尔可夫模型
马尔可夫模型的原理是:St的概率分布只和它的前一个状态St-1有关。 隐形马尔可夫模型:是说St...
> 查看全部5篇
说明 · · · · · ·
表示其中内容是对原文的摘抄