课程名称:计算语言学概论  任课教师: 詹卫东 返回主页
电子邮件:zwd@pku.edu.cn  电话:62765810 (办公室)

 

有关本课程的任何问题和建议,都欢迎与我联系                       更多与课程相关的资料

课程讲义下载.  (请使用Acrobat Reader阅读)         期末论文(2008.2.10前提交)

序号  内容提要  讲义下载(文件格式:pdf) 参考资料 备注
1 前言, 课程安排, 参考文献, 等等. Chapter_0 语言学(理论)基础
2 什么是计算语言学? Chapter_1  Eliza  
3 语言知识的形式化表达, 形式语言, 自动机/有限状态转移网络, 特征结构, 合一  Chapter_2 一个识别整数、实数、科学记数法表达式的程序,可以了解有限状态自动机(FSM)的工作方法

一个构造有限状态转移网络的例子

练习自然数CFG规则的程序

4 短语结构语法体系, 基于语类(category)的语法,基于合一的语法,等等 Chapter_3_1

Chapter_3_1_ambiguity

歧义格式统计程序   

BottomUpParser
测试规则

5 基于词的语法,树邻接语法, 依存语法, 等等. Chapter_3_2   一种短语结构制导的范畴表达式演算(白硕,1998)
6 语义知识的表达 Chapter_4_1 汉语述结式的组配约束及“v+a+n”歧义格式分析

论元结构与句式变换

 

7 语义知识库介绍: WordNet, FrameNet, MindNet, EDR,等等. Chapter_4_2 WordNet专题介绍

WordNet2.0对WordNet1.7.1的改进

面向NLP的语义知识库述要

8 篇章结构与篇章连贯分析 Chapter_5 语义指向的形式模型

Centering Theory介绍 

基于CT的指代消解示例

9 语料库 Chapter_6 中国语料库研究的历史与现状

语料库研究与应用综述

动态规划

10 词汇分析(1): 自动分词 Chapter_7_1 条件概率   算法(技术)基础
11 词汇分析(2): 词性标注 Chapter_7_2

汉语词性标记集比较 

 一个词性标注示例程序
(采用北大计算语言所1个月人民日报标注文本作为训练语料。在产生标注结果文件的同时,将标注过程记录下来并保存在文件中)
压缩文件约4MB

 

12 词汇分析(3): 词义标注 Chapter_7_3   
13 句法分析(1): 自顶向下的分析方法 Chapter_8_1   
14 句法分析(2): 自底向上的分析方法 Chapter_8_2   
15 句法分析(3): 概率分析法, 浅层分析 Chapter_8_3   
16 机器翻译 Chapter_9 机器翻译与语言研究
机器翻译的困难

机器翻译讲义(新)

应用领域
17  信息检索 Chapter_10   
18 信息提取     
19 文本分类     

致谢:

俞士汶教授, 常宝宝博士,于江生博士,孙斌博士,胡俊峰博士,张化瑞先生 (北大计算语言所) 

刘群副研究员,王斌副研究员,白硕研究员(中科院计算所软件室) 

周强博士、刘颖博士 (清华大学)

感谢他们为本课程提供的资料与帮助