对洗地者的回应
许久没上豆瓣,不久前发现这个打五星的不满足于这个五星,还主动来劝我多读书。吓得我立刻把这本书又买来读了一遍。思量许久,今天得空了还是回复一下,以免更多的人被误导。困惑的是,我简直不知道你是想洗这本书还是借我的手黑它。
1. 对留言的回应
我出身生成与认知,入门是结构主义(这一点大家应该差不多),NLP不是专业,但好歹学过,知道一些,而且我的工作正与此相关。我一句句的回,然后说说这本书到底差在哪。
1. 你说,“这本书是刘海涛老师主编的”是想告诉我什么?刘老师主编的都是好东西?眼光不会差?还是暗示我你们认识?恕我眼拙,就这本书看,我没法理解他的眼光好在哪。(后文详述)
2. 你说,“自然语言处理其实根本不依赖于乔派语法”。是啊,但凡了解生成语法和NLP的人都知道。你想告诉我什么?暗示我说过“NLP依赖乔派语法”?我建议你再读读我的评论。另外,但凡你学过逻辑,就不至于搞这种“无效假定”的把戏混淆视听。况且,就算它不依赖乔派语法,难道依赖你所谓的依存语法?
3. 你说,“你看看刘海涛的背景以及研究方向就知道为什么要引进这本书了”。我看了一下,研究内容涉及11个领域——11个领域!11个领域啊!以前我觉得Chomsky这种创立生成语言学,横跨哲学与政治学的人是天才,现在看来天才真的不必去国外找了呢。倒是我看了编委会名单里一个顾问一个主编之后好像理解了点儿什么。BTW,这个名单里冯志伟这种天才人物(不是讽刺)才是有分量的。又BTW,冯先生的跨学科研究好像都是“自然语言处理”相关的呢。可能人家的天才还不足以横跨11个领域吧。
4. 你说,"传统语法学在NLP界的没落早已不是什么新鲜事了"。是啊,“无效假定”这种把戏不用玩两次吧?我难道说过“传统语法对NLP很重要”?
5. 你说,“或许了解下NLP中的通用语法范式和实际的语言处理模型,会让你重新思考传统语法的应用价值所在”。这就让我很矛盾了,你前面才说传统语法的没落不是啥新鲜事,转头又叫我重新思考它的价值,那它到底有没有价值?有没有没落?况且,就算它有价值,跟这本书什么关系?你是想告诉我这本书以及他的理论代表了传统语法的价值?
2. 对本书的分析
下面来说这本书的问题。
精力有限(主要是不值得),恕不能全部指出。
2.1 循环论证,理论无能,炒冷饭和学术不规范
第四行,“在joke book这样的词组中,提供了基本意义的那个词是词组的支配词,...,因此book是...支配词”。什么是 “基本意义” ?为什么book书是基本意义,而joke笑话不是基本意义?是不是因为我先理解了这个词组才知道谁是谁不是?这种循环论证的把戏你看不出来,难道欺负读者也看不出来?而且,我要是不理解呢?怎么判断谁是基本意义谁不是?你让我怎么处理 “I've got a joke books will never tell” 这样的句子?你让机器怎么用你的规则处理这个句子?
又或者,你想把 “基本意义” 定义为 “核心词” ?恕我直言,结构主义上世纪初就做过这事了,你剽窃人家的想法都不加注的?
又或者,你是想诉诸native speaker的直觉?那你好像也没比生成语法高明哦。
2.2 自相矛盾,标准飘忽和再一次炒冷饭
况且,按照你的理解,“my friend 我的朋友” 里面,friend为什么又不是基本意义了?为什么my反倒成了基本意义?笑话书是书,我的书就不是书?男朋友是朋友,我的朋友就不是朋友? 哈巴狗是狗(不要对号入座哈),我的狗就不是狗?
又或者,你在这里采用限定词支配规则?“my”必须有一个名词填充才是个完整的短语?生成语法上世纪80年代也早已做过这事。他们认为the book中,核心词不是book,而是the,因为the要求必须填充一个名词来完成这个词组。my book同理。且不论这个理论对错,无论如何人家的标准是一贯的。像本书这样怎么舒服怎么来完全不顾标准的一贯性也叫学术?
又或者,你想用非实意词支配实意词?这又是人家生成语法早干过的事。况且,joke book又怎么解释?
2.3 理论冗余和再一次理论无能
根据前文,my friend被分析为支配词,表明一个支配词需要另一个词来填充从而构成一个完整的短语,否则就不是完整的句子成分。看上图的例子,本书告诉我们came这个动作支配wearing a hat这个动作。问题是,she came in是完整的句子啊,它根本不需要“戴一顶帽子”。
再来,上面这个句子的理解就很吊诡了。你说know支配that,可以,它应该有个宾语;你说that支配arrived,可以,它引导一个句子;你说arrived支配after,可以,它可以接从句;你说after支配left,可以,它仍然可以接一个句子。事实上,如果你喜欢,这后面的句子可以无限接下去。巧了,这又是Chomsky上世纪五十年代就干过的事。
问题是,I know是个句子啊,它为什么非得支配一个从句?I know that是个句子啊,为什么要支配一个从句?I know that she arrived是个句子啊,为什么要支配一个从句?为什么为什么为什么?就因为这个句子已经写成这个样子了?
更吊诡还不在这。为什么这个句子的意思是 “我知道,她是在我离开后到达的” ?为什么不是 “我离开后才知道她到了”?根据时态规则,left在前用过去时,know在后用一般现在时不是更合理吗?为什么就要按你的想法来分析?而且,你宣称要搞自然语言处理,你的模型怎么处理这样的歧义?据我所知,恐怕目前还没有解决这个问题的语言学规则。
这些问题,你这个高学历的人才看出来没?如果看出来了,还打五星?如果没有,呵!
就看上面这些分析表现出的炒冷饭,循环论证,自相矛盾,学术不规范,理论无能和理论冗余,你不仅打五星误导读者还来教我读书?
3. 自然语言处理(即NLP)
最后来说说你似乎引以为傲的NLP。自然语言处理的路径无非两条,rule-based(基于规则)跟data-based(基于数据,或者叫基于算法)。前一条路早就被证明走不通了,现在通行的全部是基于算法。我仅举两例。1976年Jelinek在IBM率领团队把当时的语音识别准确率从70%提高到了90%以上,规模从几百词提高到两万多词,你以为人家靠的是语法规则?人家靠的是IBM的计算能力和统计学方法。2005年,Google把中文到英文的机器翻译结果一致性提高到了51.31%,第二名才34%。你以为是靠语法规则的完善?人家靠的是数据——比其他研究所大千倍乃至万倍的数据。
那么你告诉我,这本书于自然语言处理到底有何补益?你所谓的依存语法(且不说上面的诸多问题)对自然语言处理有何补益?
最后,我奉劝你,多读书少逞能。老师可以有,偶像也可以有,但批判思维不能丢哦。