“计算语言学概论”课程期末作业选题

任课教师:詹卫东  

单位:北京大学中文系

 

请在下面题目中任选一个,完成期末报告。

注意:鼓励使用大语言模型来辅助完成期末报告(也包括课程平时作业)。如果在完成作业和报告过程中使用了大语言模型,请在报告正文之后附上简要说明:交代具体使用方式,以及大语言模型起到了什么样的作用,对大语言模型的辅助能力进行简要评价。

 

选题1:词汇语义分析

请选择一定数量的有某种语义共性的动词(也可以是一组形容词、名词、或者副词等),讨论这些词语的语义共性和特性与其句法表现之间的关系,并说明你所做的词汇语义分析在计算机自然语言处理中有哪些可能的应用。

有某种语义共性的动词示例:

(1) 跟“言说”有关的动词: 告诉、通知、埋怨、抱怨、……

(2) 跟“交互”有关的动词: 商量、讨论、交流、吵架、顶嘴、……

(3) 跟“制作”有关的动词:写、画、烤、炸、建造、……

 …… 

 

选题2:句式对比分析

选择两个有潜在变换关系的句式(记作A和B),给出A和B之间能够变换与不能变换的实例,讨论制约变换的条件是什么,并尝试将判断条件以形式化规则的形式进行表示。

有变换关系的句式示例:

(例1) A = “把”字句       B = “被”字句

a. 张三把李四打伤了   李四被张三打伤了  (能变换)

b. 他把脚撞伤了   脚被他撞伤了    (不能变换)

c.昨天把张三吓坏了 →  张三被昨天吓坏了  (不能变换)

d.张三只把作文写完了 → 作文只被张三写完了 (不能变换)


(例2) A = N1 的 X + 比 + N2 的 X + VP       B = N1 + 比 + N2 + X + VP

       a.张三 的 脾气 比 李四 的 脾气 大 -> 张三 比 李四 脾气 大 (能变换)

       b.张三 的 汽车 比 李四 的 汽车 贵 ->  张三  比 李四 汽车 贵 (不能变换)

……

 

选题3:歧义格式分析

选择一个歧义格式,并例举一定数量的歧义实例(大约50个句对,100句左右的语料规模),构造相应的CFG规则集以及合一约束,讨论计算机消解该格式歧义的方法以及可能达到的消歧水平。

 

选题4:面向计算应用构建的语言知识库资源调研

选择一个有代表性的计算机可用的语言知识库或者标注语料库,阐述其设计理念、构建方法、应用案例,并加以分析和评论。 

 

选题5:语言信息处理技术应用的实例分析

选择一个有代表性的自然语言处理任务(如机器翻译),阐述其实现方法和应用示例,并结合具体的自然语言现象,分析在该任务上,计算机的处理能力跟人类处理能力相比,有哪些不同特点?存在什么样的困难?请加以分析和评论。 

 

选题6

跟本学期课程中介绍的知识和讨论主题相关的其他选题。(具体选题需要跟任课教师沟通后得到许可)

 

要求:

(1)参照一般学术论文的格式完成期末报告(包含题目、摘要、关键词、按层级划分章节的正文、参考文献等)。

(2)报告篇幅一般不少于5000字(或A4纸5号字8页)。

(3)报告文件名格式为:学号_姓名_文章标题。

(4)报告文件通过电子邮件附件(word文件和pdf文件格式)提交。