文法推断在计算语言学中的应用:以状态归并算法为例



报告人王佳骏
报告时间2020-03-17
讨论组语法理论与语言工程
关键词文法推断,非监督学习,状态归并,有限状态自动机
摘要或简介

本次报告介绍了文法推断的目标和途径,对2015年出版的Grammatical Inference for Computational Linguistics一书的内容进行了简单介绍,并通过词重音结构的抽取这一任务展示了文法推断中的状态归并算法在计算语言学中的应用。

发布人王佳骏
发布范围全网
讨论记录

1 报告以正则文法的归纳推导(简化)为例,说明了文法推导的一般模式和方法。

2 Chomsky提出形式文法的层级体系后,有学者从数学上论证过,上下文无关文法无法通过有限实例归纳得到。这个结论成为Chomsky“语法自主”“语法先天论”的一个支持证据。

3 既然语法(文法)无法从实例自动归纳得到,那么,就让我们先植树造林,描画一个理论上存在的文法的现实子集的样子吧。这是Treebank工程的动因。

4 从Treebank实例的基础上,可以抽取出一个CFG文法,然后再对这个CFG文法进行压缩(简化),使得其中包含的规则条数变少,而覆盖的语言现象不变。实际上,这其中压缩(同时基本保真)的基本原理,就是乔姆斯基范式所揭示的:任意CFG规则向乔姆斯基范式变化的操作,不影响规则对语言的生成能力。

5 原则上,规则数量越多,对语言(句子)的刻画越精细,即倾向于过度概括,这会导致分析的精确率上升而召回率下降;规则数量越少,对句子的刻画越粗,即倾向于概括不足,这会导致分析的歧义上升,精确率下降。

6 如果文法推导的作用是在规则数量上做文章,并且声称数量更少的规则,可以跟数量多的规则一样,保持同样的分析性能,那么,这个作用主要还是在工程意义上的,可以归入规则的管理工作。它对于发现语句的模式,解释语句的意义,没有作用。这可以解释:为什么即便在规则主导的所谓理性主义范式的计算语言学研究中,人们也不太关注文法推导的研究。换句话说,单纯的文法数量上的差异,对于文法的解释力,意义不大。文法是1000条规则,还是10000条规则,对一个句法分析系统来说,主要只是知识管理方面的问题,而在对语言的解释能力方面,并没有差异,即不是文法知识本身的问题。

“如果文法推导的作用是在规则数量上做文章,并且声称数量更少的规则,可以跟数量多的规则一样,保持同样的分析性能,那么,这个作用主要还是在工程意义上的,可以归入规则的管理工作。”

从语言学研究和NLP的角度来看,这个确实只是一个降低模型规模的工程手段。不过从数学的角度看,这也是一种试图从无限的现象中总结有限的模式,用有限的模式去概括和把握无限的现象的方法,体现了数学研究的核心追求,即“抽象”。除了报告里讲的由状态归并得到更简单的等价自动机外,命题逻辑里的主合取/析取范式(由n个命题q1~qn组成的命题的数量是无限的,但是其主合取/析取范式是唯一的,可以用这唯一的范式对无限的命题进行等价刻画)也体现了这种以简驭繁,以有限刻画无限的思想。

7 我的个人经验:有关形式文法的研究,目前主要是帮助我理解语法的局限性,而不是去开拓新的语法。当我们认识到语法的局限性的时候,也就同时加强了对自然语言的创造性的认识。对我来说,这是很重要的一个经验。

8 形式语言(来源于人工设计)是确定的对象。用形式文法去描述形式语言的时候,形式文法只是一个确定对象的另一种表达形式。二者是严格等价的。
自然语言本身是不确定的对象。用形式文法去描述自然语言,是想通过一种手段,把自然语言“确定”(定义)下来,这种模式,即便能成功,最多也是“部分成功”(想象中的自然语言的一个子集),而不可能是100%的成功。

为了缓解这种尴尬,语言学家发明了语言系统是分层的模型:句法语义层(核心、内部语言) + 语用层(外围、外部言语)

把形式文法的作用限定在描述抽象的语言(即内部语言)上,效果就是:如果文法实际上描述不了某个语句,那也不是形式文法的问题,而是“语用太灵活”,是语言系统外化为外部言语的时候,各种因素影响的结果。比如文化的影响,人类社会各种活动的影响,个体语言使用者的各种影响,等等。

下载次数6360
浏览次数5618

下载文献(4.8 MB) 查看幻灯片(2.3 MB)  登录后可执行更多操作


© CCL of   Peking University  2019