课程名称:计算语言学概论    詹卫东            返回主页

电子邮件:zwd@pku.edu.cn    电话:62765810 (办公室)     2011年秋季学期上课地点由三教307改到老化学楼207(中国语言学研究中心会议室)
有关本课程的任何问题和建议,都欢迎与我联系     更多与课程相关的资料  

课程讲义下载.  (请使用Acrobat Reader阅读)   

序号  内容提要  讲义下载(文件格式:pdf) 参考资料 备注
1 前言, 课程安排, 参考文献, 等等. Chapter_0   语言学(理论)基础
2 第1讲

什么是计算语言学?

Chapter_1  

Eliza 

计算语言学与中文信息处理近年来发展综述(2004-2008) 

自然语言处理的支撑科学是什么?

 

3 第2讲

语言知识的形式化表达, 形式语言, 自动机/有限状态转移网络, 特征结构, 合一 

Chapter_2

 

一次作业:构造汉语自然数表达式的CFG文法

Chapter_2_appendix_1
(有限状态自动机补充材料)

Chapter_2_appendix_2
(有限状态自动机的抽吸引理)

从形式文法看语法理论的“简约”

一个识别整数、实数、科学记数法表达式的程序,可以了解有限状态自动机(FSM)的工作方法

阿拉伯数字与汉字数字转换程序

特征结构合一练习

 

4 第3讲

短语结构语法体系, 基于语类(category)的语法,基于合一的语法,等等

 

Chapter_3_1

Chapter_3_2

第二次作业:汉语句法结构歧义的分析

 

歧义格式统计程序

语序共性与歧义结构(刘丹青,1999) 

词类三问(詹卫东2009) 

5 基于词的语法,树邻接语法, 依存语法, 等等.

 

 

Chapter_3_appendix
[当代形式语法体系简介]

  一种短语结构制导的范畴表达式演算(白硕,1998)

6 第4讲

语义知识的表达

Chapter_04  

Chapter_04_appendix_1
[语义特征分析示例]

Chapter_04_appendix_2
[汉语格/配价/论元分类系统1]

Chapter_04_appendix_3
[汉语格/配价/论元分类系统2]

Chapter_04_appendix_4
[动词词汇语义与句法特征分析示例]

Chapter_04_appendix_5
[述补结构的配价性质分析]

述结式配价分析汇总

从复合事件结构的角度看述结式

Chapter_04_appendix_6
[名词性成分指称义分析]

论元结构与句式变换

 

7 语义知识库介绍: WordNet, FrameNet, MindNet, EDR,等等.   语义知识库简介

WordNet专题介绍

WordNet2.0对WordNet1.7.1的改进

面向NLP的语义知识库述要

8 第5讲

篇章结构与篇章连贯分析

Chapter_5
(2009-12-1 updated)
分段式语篇表示理论介绍
9 第6讲

语料库

Chapter_6

中文树库的建设及其应用

中国语料库研究的历史与现状

语料库研究与应用综述

 

10 第7讲

词汇分析(1): 自动分词

Chapter_7_1  

条件概率

动态规划

最小编辑距离算法

 

算法(技术)基础
11 词汇分析(2): 词性标注 Chapter_7_2

 

汉语词性标记集比较 

 一个词性标注示例程序
(采用北大计算语言所1个月人民日报标注文本作为训练语料。在产生标注结果文件的同时,将标注过程记录下来并保存在文件中)
压缩文件约4MB

 

12 词汇分析(3): 词义标注 Chapter_7_3   
13 第8讲

句法分析(1): 自顶向下的分析方法

Chapter_8_1   合一算法

基于合一的Earley算法

14 句法分析(2): 自底向上的分析方法 Chapter_8_2   
15 句法分析(3): 概率分析法, 浅层分析 Chapter_8_3   
16 第9讲

机器翻译

Chapter_9 机器翻译与语言研究


机器翻译的困难

应用领域
17  第10讲

信息检索

Chapter_10   
18 信息提取     
19 文本分类    
20  

期末报告

  

 

 

致谢:

俞士汶教授, 常宝宝博士,于江生博士,孙斌博士,胡俊峰博士,张化瑞先生 (北大计算语言所) 

刘群副研究员,王斌副研究员,白硕研究员(中科院计算所软件室) 

周强博士、刘颖博士 (清华大学)

感谢他们为本课程提供的资料与帮助