The Berkeley FrameNet Project ( 伯克利 FrameNet 工程 )
by Collin F.Baker, Charles J.Fillmore, John B.Lowe
Coling-ACL’98 p86-p90 (doubtfire 水平不高,草译出来,仅供参考)
了解更多有关FrameNet工程的详情,请访问:
http://www.icsi.berkeley.edu/~framenet/
欲了解“框架语义学”的理论背景,请看一篇译文:
摘 要
FrameNet工程计划三年完成,由美国国家科学基金NSF支持(NSF-IRI-9618838),是基于语料库的计算词典编纂工程。
该工程的关键特征包括:
a 提供语义和句法普遍化的语料证据。
b 目标词语(主要是名词、形容词、动词)的配价表示,其中语义部分主要利用了框架语义学。
结果数据库将包括:
(1)词语义项的语义框架描述。
(2)数千词和短语的配价表达(valence representation包括语义和句法)
上述(1)跟(2)都有下面(3)作为伴随信息:
(3)一个典型的带注释的语料库证据汇集。它对观察到的“框架元素”(frame elements)和它们的句法实现(例如语法功能、短语类型、以及其他句法特性)之间的连结共同加以示例。
壹 引 言
FrameNet工程对数千英语词语进行框架语义描述,并以带有语义标注信息的当 代英语语料库给以语料支持(用到的主要语料库是不列颠国家语料库BNC)。
框架语义描述基于对从大规模文本语料中抽取出来的例句进行了手工标注的语 义注释,以及由词汇专家和语言学家示例的对上述语义模式的系统分析。因 此,这个工程的首要重点就是,由人以机器可读的(machine-readable)形式 来对语义知识进行编码。词汇专家的语感受到利用高性能软件工具的基于语料 库的研究结果的指导和约束。
语义领域覆盖了:医疗保健卫生(HEALTH CARE)、机会(CHANCE)、感知 (PERCEPTION)、通信(COMMUNICATION)、交易(TRANSACTION)、时间(TIME)、空间(SPACE)、身体(身体构件和功能)、运动(MOTION)、生活阶段(LIFE STAGES)、社会语境(SOCIAL CONTEXT)、情绪(EMOTION)、认知(COGNITION)等。
1.1 FrameNet工程的范围(scope the project)
这项工程的结果将包括两部分内容:
(1) 词典资源,名称是FrameNet数据库。
(2) 相关软件工具。
其中数据库由三个主要部分组成。
i
词典(lexicon) :词典中的每个词条都由四部分内容组成:(1) 一些传统的词典类型数据,主要是面向人的。
(2) 规则(Formulas),记录各种形态句法方式(morphosyntactic ways), 在这些方式中,语义框架的各元素在围绕词语建立起来的短语和句 子中可以得到实现。
(3) 跟标注了语义信息的例句集的链接。例句可以说明在规则(Formulas) 中被标识的每一个潜在的实现模式。
(4) 跟框架数据库(Frame DATABASE)以及跟其他机器可读资源,诸如 WordNet和COMLEX的链接
ii 框架数据库(Frame Database)包含了每一个框架的基本概念结构的描述,并且给出参与到这些结构中的元素的名字和描述。下页表-1是几个相关的数据库记录。
表-1 框架示例: 一个子框架可以从父框架继承元素和语义
frame(TRANSPORTATION) |
frame(DRIVING) |
frame(RIDING_1) |
iii 标注例句集:标注过的例句,用以举例说明词典条目的语义和形态句法属 性。下面表-2是几个例子。这些句子提供在框架数据库和词条中进行词语分析 的经验支持。
表-2 框架元素组(Frame Element Group)和注释例句示例
FEG |
Annotated Example from BNC |
D,P |
[D Kate] drove [P home] in a stupor. |
V,D |
A pregnant woman lost her baby after she fainted as she waited for a bus and fell into the path of [V a lorry] driven [D by her uncle]. |
D,P |
And that was why [D I ] drove [P eastwards along Lake Geneva]. |
D,R,P |
Now[D Van Cheele] was driving [R his guest ] [P back to the station]. |
D,V,P |
[D Cumming] had a fascination with most forms of transpot, driving [V his Rolls] at high speed [P around thevstreets of London]. |
D+R,P |
[D We] drive [P home along miles of empty freeway]. |
V,P |
Over the next 4 days, [V the Rolls Royces] will drive [P down to Plymouth], following the route of the railway. |
/*说明: D=DRIVER, R=RIDER, P=PATH, V=VEHICLE */
上述三部分内容是高度相关的集成在一起的。数据库还包含了通过将手工标注 的例句中的意义和模式跟BNC语料库中的意义和模式进行匹配,计算得到的意 义的相对频率和互补模式(complementation patterns)。
1.2 FrameNet的概念模型
FrameNet在几个方面都跟描述词语的论元结构(argument structures),包括 格角色(case-roles)和theta-roles的工作有类似之处。但在FrameNet中,角 色名也叫框架元素,对个别的概念结构(frames)而言是局部的。其中有一些是 非常普遍的,另一些则对一个小词族适用。
例如,在“动作”MOTION这个域中,“运输”TRANSPORTATION框架,可以提供MOVERS(移动者)、MEANS of transportation(运输的方式),以及PATH(途径)等。跟个别词语联系的子框架可以继承母框架的元素和语义。
比如表-1中,“DRIVING”框架规定一个“DRIVER”(主要移动者),一个 “VEHICLE”(方式元素的个别化),和潜在的CARGO或RIDER(次要移动 者)。在这个框架中,DRIVER发动并控制VEHICLE的移动。对这个框架中的大 多数动词来说,DRIVER或VEHICLE可以实现为主语;VEHICLE,RIDER或CARGO可 以是直接宾语;PATH和VEHICLE可以作间接补语。
表-2是一些框架元素组合出现在真实语料句子中的情形。
RIDING_1框架有一个主要移动者角色“RIDER”,允许VEHICLE被其他人驱动。 在这个框架的实现上,RIDER可以是主语;VEHICLE可以是直接宾语或间接补 语;PATH一般是间接格。
每个动词的FrameNet表达应包含所有语义和语法组合可能性的规则,还要加上 语料库中的标注例句。跟词汇描写相关的句法位置包括那些目标词语的最大投 射(VP、AP、NP对应V、A、N)。
FrameNet数据库应该可以做到,在一个文本中发现一个包含配价的词条,确定 它的各个论元最可能出现在什么位置上。例如,一旦一个分析器发现了 “drive”和它的直接宾语NP,指向DRIVING框架的链接将建议该NP应该具有一 些语义性质,例如如果是一个人作直接宾语,可能意味着它是RIDER,而一个 非人的合适名词则可能意味着VEHICLE。
对实际的词典编纂而言,FrameNet数据库的贡献在于它关于各个词语的广泛的 使用可能性的呈现,并且有语料库数据支持,以及每种应用的模式例子和相关 频率的统计信息。
贰 工程组织和工作流程
2.1 综述
FrameNet工程的计算方面,主要目标是有效地把人的理解捕获到语义结构中。 这项工程的主要工作是进行语义标记,手工标明框架的结构以供处理,基于标 注结果和先验描述(priori description),编写词典风格的词条。支持上述工 作的软件都是高度交互式并且满足用户的界面需要。大多数功能都是以PERL语 言写的基于WWW的程序提供的。
要得到FrameNet数据库,有四步工作要做:
(1) 生成一个用于语料库查询和注释的语义和句法模型的初步描述(“Preparation”);
(2) 抽取好的例句(“Subcorpus Extraction” 子语料库抽取);
(3) 手工标记constituents of interest / 兴趣成分? (“Annotation”注释);
(4) 建立一个基于注释和其他数据的词汇语义表示数据库(“Entry Writing”编写词条);
2.2 工作流程和人员配备
工作人员角色安排: 前锋(vanguard) 注释人员(annotators) 后卫(rearguard)流程:
(1) 准备工作:前锋准备框架的初始描述,包括框架和框架元素的清单,并把 这些增加到框架数据库(Frame Database)中(利用框架描述工具)。此外前锋还 要为框架选择主要的词汇条目(目标词语target words)以及需要为词库中的每 一个单词进行检查的句法模式(利用词库工具Lexical Database Tool);
(2) 子语料库提取:基于前锋的工作,子语料库提取工具生成一个有代表性的 包含这些单词的句子集合。
这些例句的选择通过一个混合(hybrid)的过程(部分地被每一个词条的初步词 典描述控制)完成。包含了该词条的句子从一个语料库中提取出来,并通过语 法模式(syntactic pattern)被分类到子语料库中(利用一个CASCADE FILTER层 叠过滤器,表达了一个在词性标注之上的部分的英语正则文法)。如果这些启 发式的抽取方法失败,就使用一个交互的选择工具进行例句的选取。
(3) 注释: 使用注释软件和从框架数据库中导出的标记集(tagsets),注释者 在提取的语料库中根据他们了解的框架元素标记选中的成分要素(constituents),并辨识规范的例句、异常的模式和有问题的句子。
(4) 编写词条:后卫评估由前锋给出的骨架词条记录和注释的例句,以及从中抽取的框架元素组(FEGs),在词典数据库中建立词条,在框架数据库中建立框 架描述(利用词条编写工具Entry Writing Tool)。
叁 实 现
3.1 数据模型
数据结构是用SGML语言实现的。每一个都由一个DTD描述,这些DTD被组织起来 提供组成成分间必要的连接。
3.2 软件
基于PERL/CGI的“glue”。
(1) Frame Description Tool 交互式的基于Web的软件;
(2) Lexical Descrption Tool 交互式的基于Web的软件;
(3) CQP 高性能语料库查询处理器(Corpus Query Processor),由IMS Stuttgart开发。
(4) XKWIC 是一个X-Windows交互式工具,来自IMS
(5)Subcorpora
(6)Alembic
(7)Sgmlnorm
(8)Entry Writing Tools
(9)Database management tools
肆 结 语
目前已经做的工作:
200个词条下——近1万个例句——已经有了注释标记——例句中的框架元素标 记(frame element tokens)超过2万个。大约一打的框架已经被详细说明了, 这些框架指向47个命名了的框架元素。
将来:
总量迅速增加。
最终达到5000词条,25万注释标记的例句,超过50万的框架元素实例(tokens of frame elements)。