课程名称:语言工程与中文信息处理  开课时间:2011-2012学年第一学期 回到主页
教师姓名: 詹卫东  授课对象:中文系应用语言学专业本科生 研究生
电子邮件:zwd@pku.edu.cn  电话:62765810 (办公室)

更多课程资料下载(源代码,可执行程序,参考文献等)>>> ftp://ccl.pku.edu.cn/

# 课程安排  主要内容  讲义下载
01

2011.2.13

课程简介

第一讲 VC编程环境简介

   
02

2011.2.20

第二讲 文件处理

二进制文件与文本文件

文件打开、关闭、读、写

批量处理多个文件

批量处理一个文件夹下所有文件

 
03

2011.2.27

上机实践    
04

2011.3.5

第三讲 字符编码 ASCII,GB,GBK,Big5,Unicode,Utf8

内码转换

简繁转换

文件的内码识别

 
05

2011.3.12

第四讲 字频与串频统计 单字字频统计

双字字频统计

Ngram串频统计

 
06

2011.3.19

上机实践    
07

2011.3.26

第五讲 语料库 (I) 语料库的构建、管理、查询

树库标注工具的开发

 
08

2011.4.2

第五讲 语料库 (II) 基于树库的汉语句法结构考察  
09

2011.4.9

第六讲 词库 词库管理

现代汉语语法信息词典

WordNet,FrameNet,HowNet,CCD,...

 
10

2011.4.16

第七讲 中文分词 最大匹配

最大概率

人名识别

基于字序列标注的分词方法

 
11

2011.4.23

第八讲 词性标注 HMM模型

Viterbi算法

将分词和词性标注融合为一个过程

 
12

2011.4.30

上机实践    
13

2011.5.7

第九讲 句法分析( I ) Chart-parsing

PCFG

 
14

2011.5.14

第九讲 句法分析( II ) 基于合一的句法分析器及知识库调试环境  
15

2011.5.21

上机实践    
16

2011.5.28

上机实践    
17

2011.6.4

课堂报告、交流    
18

2011.6.11 

考试周开始 本课程考核要求  

 

教学参考书

陈小荷(2000)《现代汉语自动分析 —— Visual C++实现》,北京语言文化大学出版社2000年版。

参考文献

[1] Herbert Schildt 著,杨长虹 徐碚 等译(1994)《C++语言大全》,电子工业出版社1994年版。

[2] David J.Kruglinski 著,潘爱民、王国印 译《Visual C++技术内幕》(第四版),清华大学出版社1999年版。

 

网上资源

http://www.codeproject.com

http://www.cplusplus.com/

http://www.codeguru.com/

http://msdn.microsoft.com/visualc/

http://www.csdn.net/