课程名称: 自然语言处理导论 课程讨论区
任课教师: 詹卫东刘扬 王厚峰 常宝宝** * 北京大学中文系  ** 北京大学信息科学技术学院
电子邮件: zwd@pku.edu.cn (詹卫东) liuyang@pku.edu.cn (刘扬)
办公电话: 62765810 62765835-205(分机)

有关本课程的任何问题和建议,都欢迎与我们联系

2011-2012学年第二学期上课时间:2012年2月13日~6月8日( 5~6节 地点:教206考试时间

教学参考资料

Steven Bird, Ewan Klein and Edward Loper. 2009. Natural Language Processing with Python. O’Reilly Media.

Christopher D. Manning and Hinrich Schutze. 1999. Foundations of Statistical Natural Language Processing. MIT Press.

Daniel Jurafsky and James H. Martin. 2000. Speech and Language Processing. Pearson Education.

复习提纲(课程上半部分内容)

课程进度安排                 

   

 

序号  内容提要  讲义 参考资料
第1周

2012.2.13

课程概述:课程安排, 参考文献 说明, 等等.

绪论:什么是自然语言处理?

课程安排

Chapter 01

把字句和被字句的转换

汉语歧义例子

问答系统:ElizaIBM Watson,……

机器翻译系统:GoogleWorldLingo,……

自然语言处理的支撑科学是什么?(Author:Shuly Wintner)

计算语言学与中文信息处理近年来发展综述(2004-2008)

漫话人工智能 (顾森)

 

第2周

2012.2.20

理论基础:

中文文本的自动分词

Chapter 02 汉语自动分词研究述评

中文分词十年回顾

 

第3周

2012.2.27

理论基础:

词性标注方法

Chapter_03 

 

VOLSUNGA

HMM Tutorial

Transformation-based Error-driven learning

汉语若干词性标记集对照表

 

第4周

2012.3.5

理论基础:

汉语的句法结构分析(上)

Chapter_04(I)

简单句法分析方法示例
(自底向上,自顶向下,左角分析法)

 

Earley's Parsing Algorithm

Tomita's Parsing Algorithm

Tomita算法示例

第5周

2012.3.12

理论基础:

汉语的句法结构分析(下)

Chapter_04(II)

带合一的Earley算法

 

句法结构歧义的程度
第6周

2012.3.19

理论基础:

语义分析

 

Chapter_05  
第7周2012.3.26

 

理论基础:

语篇分析 (王厚峰)

Chapter_06

 

第8周

2012.4.2

讨论课(第一次大作业)

作业要求:

汉语歧义结构分析

 

>>> 第一次作业提交情况记录(2012.4.27)

 

现代汉语歧义现象举例

  • 根据选课人数情况,采用分组报告形式在课堂上进行交流。
  • 所有选课同学均需提交书面报告。
  • 报告文件名请采用统一格式:
     学号_姓名_文章名.doc/pdf
  • 可以合作完成,但人数不得超过3人。合作完成的报告,要详细注明各人的分工情况。
  • 作业电子版(word或pdf文件)发至 zwd@pku.edu.cn
  • 请在2012.4.16(含)之前提交作业。如果需要延期提交,请给出理由。但不应晚于4.23日提交。晚于4.23日提交的作业将罚分。
 
第9周

2012.4.9

工程实践:

Python及NLTK包的应用 —— 访问语言资源

教材下载:NLP with Python

Chapter_07

要求:熟悉教材第1章第1、2、3、4节;熟悉教材第2章第2、3节,了解第1、4节。

python-2.5.4

python25

nltk-2.0b5.win32

nltk_data

numpy-1.3.0-win32-superpack-python2.5

matplotlib-0.98.5.2.win32-py2.5

第10周

2012.4.16

工程实践:

Python及NLTK包的应用 —— 文本处理基础

Chapter_08

要求:熟悉教材第3章第1、2、8、9节,了解第3、4、5、6、7节。

第11周

2012.4.23

工程实践:

Python及NLTK包的应用 —— 程序设计进阶

Chapter_09

要求:熟悉教材第4章1、2、3、4节,了解第5、6节。

第12周

2012.4.30

工程实践:

Python及NLTK包的应用 —— 分词和词性标注

Chapter_10

要求:熟悉教材第5章第1、2、3节,了解第4、5节。

第13周

2012.5.7

工程实践:

Python及NLTK包的应用 —— 句法分析实现

Chapter_11

要求:了解教材第8章第1、2、3、4节。[特别说明,期末考试第8章第1、2、3、4节不作要求]

第14周

2012.5.14

工程实践:

Python及NLTK包的应用 —— 信息抽取

Chapter_12

要求:熟悉教材第7章第1、2、3、4、5、6节。

第15周

2012.5.21

工程实践:

Python及NLTK包的应用 —— 文本分类

Chapter_13

要求:熟悉教材第6章第1、2、3节,了解第4、5、6节。[特别说明,期末考试第6章第4、5、6节不作要求]

第16周

2012.5.28

机器翻译 (常宝宝)

   
第17周

2012.6.4

 

讨论课 (第二次大作业)

汉语自动分词与词性标注

 

 
  • 根据选课人数情况,采用分组报告形式在课堂上进行交流。
  • 所有选课同学均需提交书面报告。
  • 可以合作完成,但人数不得超过3人。合作完成的报告,要详细注明各人的分工情况。
  • 在6月11日(个别情况需要延期,须给出理由,但不迟于6月25日)前,请将所有程序源码、数据文件及实验报告(限pdf格式)打包压缩为“学号_姓名.rar”,将其作为附件发送至liuyang@pku.edu.cn(我收到后会有回复,注意确认)。
 

第18周

2012.6.11 

考试    

 

 

北京大学中国语言学研究中心    北京大学计算语言学研究所