| 课程名称:语言工程与中文信息处理 | 开课时间:2011-2012学年第一学期 | 回到主页 |
| 教师姓名: 詹卫东 | 授课对象:中文系应用语言学专业本科生 研究生 | |
| 电子邮件:zwd@pku.edu.cn | 电话:62765810 (办公室) |
更多课程资料下载(源代码,可执行程序,参考文献等)>>> ftp://ccl.pku.edu.cn/
| # | 课程安排 | 主要内容 | 讲义下载 |
| 01 2011.2.13 |
课程简介
第一讲 VC编程环境简介 |
||
| 02 2011.2.20 |
第二讲 文件处理 | 二进制文件与文本文件 文件打开、关闭、读、写 批量处理多个文件 批量处理一个文件夹下所有文件 |
|
| 03 2011.2.27 |
上机实践 | ||
| 04 2011.3.5 |
第三讲 字符编码 | ASCII,GB,GBK,Big5,Unicode,Utf8 内码转换 简繁转换 文件的内码识别 |
|
| 05 2011.3.12 |
第四讲 字频与串频统计 | 单字字频统计 双字字频统计 Ngram串频统计 |
|
| 06 2011.3.19 |
上机实践 | ||
| 07 2011.3.26 |
第五讲 语料库 (I) | 语料库的构建、管理、查询 树库标注工具的开发 |
|
| 08 2011.4.2 |
第五讲 语料库 (II) | 基于树库的汉语句法结构考察 | |
| 09 2011.4.9 |
第六讲 词库 | 词库管理 现代汉语语法信息词典 WordNet,FrameNet,HowNet,CCD,... |
|
| 10 2011.4.16 |
第七讲 中文分词 | 最大匹配 最大概率 人名识别 基于字序列标注的分词方法 |
|
| 11 2011.4.23 |
第八讲 词性标注 |
HMM模型 Viterbi算法 将分词和词性标注融合为一个过程 |
|
| 12 2011.4.30 |
上机实践 | ||
| 13 2011.5.7 |
第九讲 句法分析( I ) | Chart-parsing PCFG |
|
| 14 2011.5.14 |
第九讲 句法分析( II ) | 基于合一的句法分析器及知识库调试环境 | |
| 15 2011.5.21 |
上机实践 | ||
| 16 2011.5.28 |
上机实践 | ||
| 17 2011.6.4 |
课堂报告、交流 | ||
| 18
2011.6.11 |
考试周开始 | 本课程考核要求 |
|
教学参考书 |
陈小荷(2000)《现代汉语自动分析 —— Visual C++实现》,北京语言文化大学出版社2000年版。
|
参考文献 |
[1] Herbert Schildt 著,杨长虹 徐碚 等译(1994)《C++语言大全》,电子工业出版社1994年版。
[2] David J.Kruglinski 著,潘爱民、王国印 译《Visual C++技术内幕》(第四版),清华大学出版社1999年版。
网上资源
http://msdn.microsoft.com/visualc/