第81页
- 页码:第81页
第一章叙述了,语言形成的过程与数学形成过程的相似性,都可以简述为编码到解码的过程,并且简述了过去编码校验的方法,并且在自然语言的编码解码过程中,主要处理的问题为语义消歧。应用的场景可以是搜索,语音理解,以及翻译。 第二部分,从NLP处理的历史过程,叙述了NLP基本方法的变化,从语义规则的理解(语法为基本语法逻辑整理)到语言词汇的统计的变化,后者的模型诞生意味着自然语言处理的开始。并通过词语和对应的上下文相关统计,引入二三元语义模型(词语条件概率),马尔科夫链,并通过概率的比较和相似性大小的估计来判断语言以及语句翻译的准确性。 在应用场景中,例如二三元语义模型中,引入了古德图灵算法,用于消除样本与训练集中的小概率事件和0概率事件的平滑方法。 第三部分,从中文语言以及分词库的角度,叙述了在消歧过程中,可以应用的工程方法,词库的复合结构,分词的颗粒度与层次。 第四部分,叙述随机化的马尔科夫链,即隐马尔科夫模型,马尔科夫链描述了随机状态的变化过程,即当前状态取决于之前有限个状态,并说明基于隐马尔科夫链的训练过程,可以基于监督学习以及非监督学习两种方法,两者的区别在于是否需要人工标注的方式介入,后者应用的场景是可以通过迭代不断找到凸函数极大值的过程。 第五部分,说明信息熵,条件熵,互信息以及相对熵。信息熵与信息的不确定性挂钩,当信息带有不确定性时,既可以通过xlogx的方式来衡量信息不确定的大小程度,而信息的丰富过程也是信息由不确定变为确定的过程。而条件熵可以判断为上下文条件下,或者在二三元模型中,信息发生的过程。互信息是基于条件概率下,事件最后确定的概率,而相对熵则是用于判断,两个信息本身相对覆盖的程度,可与基于主题作为也是TF-IDF模型判断的原型。
X对本书的所有笔记 · · · · · ·
-
第81页
-
第126页 第八九十十一章
从如何索引,如何抓取,如何排序以及如何判断相关性的角度分析了搜索引擎的基本技术 索引的问...
-
第128页
第十四章以及第十五章,分别阐述了两种分类的方法 其中粗糙的方法为奇异值分解矩阵,通过分解...
说明 · · · · · ·
表示其中内容是对原文的摘抄