讲座:從詞彙庫到領域知識本體研究兩例(黄居仁教授)

应北京大学计算语言学研究所邀请,台湾中研院著名计算语言学专家黄居仁教授将于2004-11-2日在北大举办讲座。

标题: 從詞彙庫到領域知識本體:研究兩例
报告人: 黃居仁教授 (台湾中研院語言學研究所)
时间: 2004-11-2(星期二) 上午10:10—12:00
地点: 北京大学 理科1号楼一层 1131 房间

敬请大家关注,同时也欢迎校外专家学者参加。

内容摘要:

「信息有了語言所賦予的結構,才成為知識。」

如何由語言資料中抽取信息,建立知識架構,在理論與應用上均有重大意義。但是時空與領域的變異,往往造成知識運用的鴻溝。不同的時空與領域,分別代表不同的知識體系。唯有運用正確的知識體系,才能正確解讀知識的內容。我們最近的兩個研究,正是探討如何由詞彙庫著手,建立參考知識體系。

首先要決定的問題是找到正確的知識體系。領域階層詞彙庫(Domain Lexico-Taxonomy, Huang et al. 2004a)的構想,就是要運用常用的詞彙來判定資料與信息的領域。這個研究的基本構想,是領域特殊詞彙的分佈不但不均勻,新領域的詞彙更經常是尚未收錄到辭典中的。因此要靠這些詞來判定資料或文本的領域,並不可靠。我們提議標記通用詞彙的領域用法。當通用詞彙庫中詞彙的領域用法標記完成,就成了許多小領域詞彙庫的聯集。這個資料不但可作為領域詞彙庫的種子詞彙庫更可作為判定新文本領域的參考。

其次,確定了正確的知識體系後,需要知道體系內知識表達的架構,以及這個知識體系與使用者熟悉的知識體系間的對比與關係為何。我們研究的樣本是唐詩知識本體之初步構建(Huang et al. 2004b). 這個研究從唐詩三百首的領域詞彙庫出發,在SUMO 的架構上建立了唐詩的動物與植物知識本體。藉著這個專屬知識本體的建構,唐詩的知識概念有了系統性的表達,更可以協助對唐代的文化與知識的背景深入比較研究。
Huang, Chu-Ren, Li, Xiang-Bing, Hong, Jia-Fei. 2004. Domain Lexico-Taxonomy:An Approach Towards Multi-domain Language Processing. Proceedings of the Asian Symposium on Natural Language Processing to Overcome Language Barriers. pp. 54-60. March 25-26, 2004. Hainan Island.
Huang, Chu-Ren, Feng-ju Lo, Ru-Yng Chang, Sueming Chang. 2004. Sinica BOW and 300 Tang Poems: An overview of a bilingual ontological wordnet and its application to a small ontology of Tang poetry. Invited talk. Workshop on Possibilities of a Knowledgebase of Tang Civilization: Towards a new comprehensive digital archive of Tang China. Institute for Research in Humanities, Kyoto University. February 20-21.


发布者:doubtfire

发布时间:2004-10-30 18:10:38

返回