卡卡君暴起伤人对《数学之美》的笔记(4)
-
第73页 贾里尼克和现代语言处理
1,小学生和中学生其实没有必要花那么多时间读书,而他们的社会经验、生活能力以及在那时树立起的志向会帮助他们一生 2,中学时花很多时间学习的课程,在大学里只要非常短的时间就可以读完,因为在大学期间人的理解能力会强很多 3,学习和教育是人一辈子的事情 4,书本的内容可以早学可以晚学,但是错过了成长阶段却是无法弥补回来的
-
第95页 图论和网络爬虫
如何构建一个网络爬虫,google中非常常用的一个面试题,需要考虑的细节非常多,其中大的方面有以下一些点: 1,用DFS还是BFS: 首先二者完成同一个任务大致时间是相同的,O(V+E),而搜索引擎的网络爬虫问题可以定义为“如何在有限的时间里最多的爬下最重要的网页”,这显然BFS效率高,事实上在搜索引擎的爬虫里,虽然不是简单的BFS,但是先爬哪个网页,后爬哪个网页的调度程序,原理上基本上是BFS。但DFS也并非不使用。所以总体而言的遍历顺序不是简单的BFS或DFS,而是一个相对复杂的下载优先级排序的办法。管理的子系统称为Scheduler,尚未下载的网页的url会存在一个Priority Queue里,在工程上更类似于BFS。 2,页面分析和url提取 现在很多页面中的url是写在js里的 3,记录哪些网页已经下载过得小本本——url表 哈希表记录,这个哈希表的存储服务器的通信成了整个爬虫系统的瓶颈,好的办法有这两个技术:首先明确每台下载服务器的分工,调度时一看到某个url就知道交给哪个服务器干,然后判断url是否可以批处理,比如向哈希发送一大批询问,或者每次更新一大批哈希内容
-
第139页 矩阵运算和文本处理中两个分类问题
奇异值分解Singular Value Decomposition, SVD 用一个大矩阵A表示文章和词语之间的关联性,
\begin{bmatrix} a_{11} & a_{12} & \ldots & a_{1n}\\ a_{21} & a_{22} & \ldots & a_{2n}\\ \vdots & \vdots & \ddots & \vdots\\ a_{m1} & a_{m2} &\ldots & a_{mn} \end{bmatrix}可以表示成三个矩阵的乘积,A=XBY 其中X表示对词进行分类的一个结果,每一行表示一个词,每一列表示一个语义相近的词类,或者简称为语义类 其中Y是对文本的分类结果,每一列对应一个文本,每一行对应一个主题,这一列中每个元素表示这篇文本在不同主题中的相关性 中间矩阵B表示词的类和文章的类之间的相关性
-
第175页 谈谈数学模型的重要性
1,一个正确的数学模型在形式上应该是简单的(托勒密的大圆套小圆的模型太复杂) 2,一个正确的模型一开始可能还不如一个精雕细琢过的错误模型来的准确,但是如果我们认定大方向是对的,就应该坚持下去(日心说开始并没有地心说来的准确,这就像我们处理数据时候的过拟合问题) 3,大量准确的数据对研发很重要 4,正确的模型也可能收到噪声干扰而显得不准确,这时候不应该用一种凑合的方法来修正弥补,而是要找到噪声来源,也许能通往重大的发现
卡卡君暴起伤人的其他笔记 · · · · · · ( 全部12条 )
- 香港简史(1840-1997)
- 1
- 剑指Offer
- 1
- 明朝那些事儿(陆)
- 1
- 三体
- 2