课程名称:语言工程与中文信息处理  开课时间:2015-2016学年第二学期 回到主页
教师姓名: 詹卫东、孙栩  授课对象:中文系应用语言学专业 本科生
电子邮件:zwd@pku.edu.cn  电话:62765810 (办公室)

更多课程资料下载(源代码,可执行程序,参考文献等)>>> ftp://ccl.pku.edu.cn/

# 日期 课程安排  主要内容  讲义下载
第01周

2.22

周一

课程简介

第一讲 VC编程环境简介

 CC++ 概要/回顾

   
第02周

2.29

(周一)

第二讲 文件处理

二进制文件与文本文件

文件打开、关闭、读、写

批量处理多个文件

批量处理一个文件夹下所有文件

 
03周

3.7

(周一)

第三讲 字符编码 ASCII,GB,GBK,Big5,Unicode,Utf8

内码转换

简繁转换

文件的内码识别

 
第04周 3.14 第四讲 字频与串频统计 单字字频统计

双字字频统计

Ngram串频统计 

 
第05周

3.21

第五讲 语料库 语料库的构建、管理、查询

树库标注工具的开发

基于树库的汉语句法结构考察 

 
第06周

3.28

第六讲 词库 词库管理

现代汉语语法信息词典

WordNet,FrameNet,HowNet,CCD,...

 

 
第07周

4.4

第七讲 中文分词 最大匹配

最大概率

人名识别

基于字序列标注的分词方法

 
第08周

 

4.11

第八讲 词性标注 HMM模型

Viterbi算法

将分词和词性标注融合为一个过程

 

 
第09周

4.18

第九讲 句法分析( I ) Chart-parsing

PCFG

 
第10周

4.25

第九讲 句法分析( II ) 基于合一的句法分析器及知识库调试环境  
第11周

5.2

第十讲 机器翻译(选讲) 基于规则的汉英机器翻译系统

基于统计的机器翻译系统

 
第12周

 

5.9

上机实践    
第13周

 

5.16

上机实践    
第14周

5.23

上机实践    
第15周

 

5.30

课堂报告    
第16周

 

6.6

课堂报告    
第17周

6.13

考试周    
第18

6.20

考试周 本课程考核要求  

 

教学参考书

陈小荷(2000)《现代汉语自动分析 —— Visual C++实现》,北京语言文化大学出版社2000年版。

参考资料

[1] Herbert Schildt 著,杨长虹 徐碚 等译(1994)《C++语言大全》,电子工业出版社1994年版。

[2] David J.Kruglinski 著,潘爱民、王国印 译《Visual C++技术内幕》(第四版),清华大学出版社1999年版。

[3] Harvey M.Deitel,Paul James Deitel 著 邱仲潘等译<C++大学教程》(第二版),电子工业出版社2001年版。

[4] Steven Bird, Ewan Klein and Edward Loper. 2009. Natural Language Processing with Python. O’Reilly Media.

[5] Mark Lutz 著 侯靖 等译,2009,Python 学习手册,机械工业出版社2009年版。

网上资源

http://www.codeproject.com

http://www.cplusplus.com/

http://www.codeguru.com/

http://msdn.microsoft.com/visualc/

http://www.csdn.net/