WordNet中的名词

三 WordNet中的名词

* 在WordNet 1.5版中包含了差不多80000名词 -- 60000词汇化的概念；其中许多都是collocation（搭配型词）。

* WordNet跟其他传统词典的差别，主要不是在词义以及覆盖面方面，还是信息的组织方式的创新方面。

* 传统的词典包括：拼写、发音、屈折变化形式、词源、派生形式、词性、定义以及不同意义的举例说明、同义词和反义词、特殊用法说明、临时用法等；

* WordNet不包括发音、派生形态、词源信息、用法说明、图示举例等。WordNet尽量使词义之间的关系明晰并易于使用。

* WordNet中的基础语义关系是synonymy（同义关系）。同义词集合（synset）构成了WordNet的基本建筑单位（building block）。Ravin（1992）已经开发了一些程序用于从同义词词林中抽取同义词集合。但WordNet的这类工作是手工进行的。

* WordNet中的同义概念并不是指在任何语境中都具有可替换性。如果以这样的标准来衡量同义关系，语言中的同义词就少得很了。

* {shot, pellet} 跟 {shot, injection} 之间没有同义关联，尽管两个synset中都有shot。

* 大多数同义词集合（synset）有说明性的注释（explanatory gloss）相伴。这跟传统的词典情况类似。不过一个synset不等于词典中的一个词条。尤其是词典中的一个词条可能是个多义词（polysemous word），它就会包含多个解释，而一个synset只包含一个注释。

1 词汇层级（lexical hierarchy）

{robin, redbreast} @ -> {animal, animate_being} @-> { organism, life_form, living_thing},

/* @-> 可以读作“is a”或“is a kind of”。 */
/* 跟@->相对的符号是“~->”，可以读作“subsume”包含。 */

* 一个名词通常只有一个直接上位词，因而编词典的人用这个上位词来定义该名词；一个名词通常不只一个下位词，因而编词典的人一般很少罗列这些下位词。

2 名词的25个基本类别为：

{act,activity}	{food}	{possession}	{animal,fauna}
动作行为	食物	所有物	动物

{group,grouping}	{process}	{artifact}	{location}
团体	过程	人工物	处所

{quantity,amout}	{attribute}	{motivation,motive}	{relation}
数量	属性	动机	关系

{body}	{natural_object}	{shape}	{cognition,knowledge}
身体	自然物	外形	认知，知识

{natural_phenomenon}	{state}	{communication}	{person,human_being}
自然现象	状态	通信	人类

{substance}	{event,happening}	{plant,flora}	{time}
物质	事件	植物	时间

{feeling,emotion}
情感

* 这25类也可进一步概括为11个基本类

* 由25个语义类形成的有关名词的25个元文件在语义层次上一般都是比较浅的。尽管对语义层次没有严格限制，但很少有超过10到12层的语义树，通常层次比较深的情况是由于专业词汇造成的，而不是日常语言中的用词。比如：

shetland pony @-> pony @-> horse @-> equid @-> odd-toed ungulate @-> placental mammal @-> mammal @-> vertebrate @-> chordate @-> animal @-> organism @-> entity
（共12层，其中6个层次是专业词汇，而非日常用词）

3 一些心理学假设（some psycholinguistic assumptions）

* 尽管名词层级的一般结构是由上下位关系（hyponymy/hypernymy）产生的，但这些知识在人脑的词库中如何表示并不清楚。我们不妨假设概念的细节是由区别特征来刻画的。例如，知更鸟（robin）是一种鸟，有颜色，会唱歌，等等；显然，我们不仅要在robin和bird之间建立起上下位关系，还需要将“颜色”（color），歌唱（singing），飞（flying）等特征跟robin关联起来。此外，robin还需要从bird那里继承一些特征，比如恒温脊椎动物（warm-blooded vertebrate），有喙（beak），翅膀（wings），羽毛（feathers），孵蛋（lay eggs），等等。为了达到上述目的，至少要考虑以下三方面的特征：

（1）属性（attributes）: 是知更鸟属（redbreasted），恒温脊椎动物，

（2）部件（Parts）：beak, feathers, wings

（3）功能（functions）: sings, flies, lays eggs

尽管不同的区别特征应该被分别对待（比如attribute是形容词，部件是名词，功能是动词等），但大多数认知理论以同样的方式处理上述特征。给每个同义词集合（synset）配上诸如此类的特征集，就可以得到下面这样一种简单的对下位关系进行定义的方式：

如果同义词集合{ A }的所有特征被包含在同义词集合 { B }的特征集中，而不是相反，那么，{ B } 是 { A } 的下位概念（hyponym）。

* 如果上下位关系依靠特征来定义，那么特征就成为非常重要的概念。对任何给定的同义词集合，用来定义它的特征必须是特定的，同时又必须是足够的。许多认知学家怀疑所有的词是否能如此容易地依靠定义性的特征来加以刻画。

* 尽管大多数词汇学家和计算机科学家认为词汇层级是表示名词意义（nominal meaning）的一种自然的方式，但许多认知科学家对此表示怀疑。当然认知学者们并不是怀疑概念之间客观存在的上下位关系，而是对人脑词库中如何识别这些关系的认知过程表示疑惑。当人们去寻找不同的特征集合（list of feature）之间存在包含关系（inclusion relation）的经验证据时，上述问题就出现了。

* 1969年，Collins 和 Quillian 报告说，人们证实句子 “ A robin is a bird ”所需要的时间，比证实句子 “ A robin is an animal ” 所需要的时间短。于是他们主张，上述观察提供了心理学证据，证明词汇层级的距离的确对认知有影响：在词汇层级上距离越远，就需要更多的时间来思考。这一可能性刺激出数量上相当可观的研究工作，不过一系列的问题最终导致人们对词汇层级的认知现实性的严重质疑。

* 1981年，Smith 和 Medin非常谨慎地提出了反面意见。他们发现，感知“ a chicken is a bird ”所需的时间比感知 “ a robin is a bird ”所需的时间长，尽管 chicken 和 robin 跟bird的分类关系是一样的。这个差异不是 robin 出现的频率比 chicken 高造成的。而是作为鸟类的成员，robin比chicken更典型。在传统的经典分类理论中，典型性是没有地位的。

* 在1980年代中期，对词汇层级的经典解释的攻击如此有诱惑力，以至于当时WordNet一出现，就被设想为有可能从根本上揭示为何词汇层级系统不是一个好的揭示词语意义的框架。事实上，WordNet的作者们很快就使自己确信，动词，形容词，副词都是以不同的方式组织的。不过，名词的层级结构似乎可以适应语言事实，尽管缺少好的解释。

* 例如，句子“ A pistol is more dangerous than a rifle ”（手枪比步枪更危险）显示的意义是可以理解的。而“ A pistol is more dangerous than a gun ” （手枪比枪更危险）和“ A gun is more dangerous than a pistol ”就都不好理解（Bever and Rosenbaum 1970）。很显然，语言学上，比较句中两个比较项不能是上下位关系的两个词。而这条句法规则要发挥作用，必须基于给定的名词上下位关系知识基础上。

* 再看一个例子，“ I gave him a good novel, but the book bored him ”容易理解，但“ I gave him a good novel, but the catsup bored him ”就让人费解。因为词汇知识告诉我们，novel是book（有上下位关系），但不是catsup（番茄酱）。显然，要得出上述判断，也必须依赖名词之间的上下位关系。

* 再一个例子，一些动词的搭配选择限制也表明名词上下位关系的重要性。比如动词“drink”的直接宾语可以是 beverage （饮料）的任何一个下位词。这也暗示有关名词的上下位关系的知识应该以一种人们能够快速访问和搜索到的方式存贮。

* 由此，名物概念的层级组织方式似乎是大脑中的心智词典的一个必然特征。尽管它遭到认知理论的强烈攻击，但层级原则对名词词典来说确实重要。那么又如何看待典型性（typicality）呢？也许，典型性跟层级型二者可以并存。这就说，在名词的层级系统上，应该存贮更多的信息。除了一个名词在词汇层级系统上的位置，我们还需要知道更多有关这个名词的信息，但这并不意味着层级系统本身就不重要了。

* WordNet的组织方式是提供语义关系的指针，而不是罗列特征。WordNet中的名词由同义词集合（synset）组成，synset之间有指针指示它们的语义关系（上下位关系）。在WordNet中，特征信息并不是以明确的显性形式来定义上下位关系或名词的层级关系。

4 WordNet中不包含的东西（some things not in WordNet）

* WordNet中不包含这样的描述：企鹅不是会飞的鸟。蜘蛛不是昆虫。……等。
即不包含“is not a (kind of)”这样的关系。

* @->实际代表了不止一种语义关系，至少包括“is a kind of”和“is used as a kind of”两种关系。{chicken} @-> {bird} 是前者；{chicken} @-> {food}是后者。遗憾的是，WordNet中没有对上述区别加以描述。

5 整体部分关系（meronymy）包括三种情况：（WordNet中包含了这三种关系）

A是B的组成部分； beak / wing -> bird
A是B的成员； tree -> forest
A是B的构成材料。 aluminum -> plane

* 在WordNet中，整体部分关系主要是在noun.body（身体部件名词）, noun.artifact（人工物），noun.quantity（数量名词）三个文件中。

* 有时候，整体部分关系跟上下位关系会出现一些纠缠的现象。比如，{beak,bill,neb,nib}不仅是{bird}的部件，同时也是{jaw}的下位概念。而{jaw}又是{skull}的部件，是{skeletal_structure}的下位概念。在下位关系和整体部分关系之间建立适合关系常常会产生的问题是，会有将部件名词放在名词层级系统中过高位置的倾向。比如，如果{wheel}是{vehicle}的部件，那么{sled}（雪橇）就不是vehicle了。在WordNet中，为此创建了一个中间概念，{wheeled_vehicle}（带轮子的交通工具）。

* 另一个重要的值得说明的问题是，“is a part of”通常用来测试整体部分关系，但这种测试方式并不总是可靠。比如，在许多例子中，传递性（transitivity）是受到限制的。Lyons(1977)注意到，“handle”是“door”的部件，“door”是“house”的部件，但如果我们说，“handle”是“house”的部件，就比较奇怪。Winston, Chaffin, Hermann(1987)举的例子更极端，我们可以说，“the branch is a part of the tree” 以及 “ the tree is a part of the forest ”，但不能因此导出，“the branch is a part of the forest ”，因为 “branch / tree ”之间的关系跟 “ tree / forest ”之间的关系不同。

6 Antonymy（反义关系）

* 两个词构成反义关系的最强烈的心理学指示是，当给出其中一个词时，它的反义词（另一个词）通常就是那个最容易联想到的词。比如，当人们听到“victory”（胜利）时，最容易想到的就是“defeat”（失败），反之亦然。

* 上述反义关系通常出现在所谓的降格形容词性名词(deadjectival noun)之间。比如名词“happiness”和“unhappiness”之间的反义关系来自反义形容词“happy”和“unhappy”之间的反义关系。这些 deadjectival noun都是{attribute}（属性）的下位概念。

* 语义相反不是名词之间的基本组织关系，但这种关系确实存在，在WordNet中也有所反映。例如 [ { man } !-> { woman } ] 和 [ { woman } ! -> { man } ]都在源文件中存在。但这种反义关系不能被 { man } 和 { woman } 的下位概念继承。也许关于名词之间反义关系最有趣的是，两个反义名词一般总是有共同的直接上位概念。

7 属性和修饰语（attribute and modification）

* 属性的值由形容词表达。例如，“size”和“color”是 “robin”（知更鸟）的两个属性。而知更鸟的size则由形容词“small”（小）来描述；color则由形容词“red”来描述。名词由此可以看作是属性词的论元。例如 SIZE (robin) = small, COLOR (robin) = red

* 在WordNet中，{robin}和{red}之间不直接发生关联，而是通过{color}跟{red}之间发生关联。

* friendliness（友好性）是dog的一个属性，因此我们可以说“ a dog can be friendly or unfriendly ”，但 “ stingy dog ”或“ shallow dog ”就只能解释为比喻用法。因为 generosity 和 depth 都不是 dog 的正常属性。

* 形容词修饰成分在WordNet中扮演的主要角色可能是在搭配词或合成词中。比如 easy chair , electric chair, straight chair, high chair等，都比基本概念层级的名词 chair 更详细地刻画了 chair。

8 多义名词的相似意义/近义 similar meanings of polysemous nouns

* Philip N. Johnson-Larid提出，如果一个词的两个意义是相似的，那么它们的下位词的意义也应该以同样的方式相似。例如：fish的两个意义，一个是动物（fish1），一个是食物（fish2）。fish的下位词perch,sole,bass等也都是如此。

* 不过也有不同于上面情况的例外，比如 coral （珊瑚虫）是 animal 的下位概念之一。coral最后会形成 ocean reef （珊瑚）；同时， coral 还有一个意思也是 food 的下位概念，是指 lobster roe （龙虾卵）。显然，这里的animal 和 food的下位概念之间的关系不是动物和它的可食的肉之间的关系。因此，需要对这种例外情况加以特别说明。

* 近义是最近才加入到WordNet中的关系。而且只在名词中得到了实施，这方面的工作仍在继续。

* WordNet中区分了三种不同的近义情况：

（1） cousins （堂兄弟节点）比如上面例子 fish 的两个意思（概念）之间就是。
（2） sisters （姊妹节点）比如 flounder 可以指不同的扁平鱼（比目鱼），在两种不同的指称意义下，它们的直接上位词是一样的（都是 flatfish ）。这种情况下，flounder的两个意义就是 sisters 近义。
（3） twins （孪生节点）这是指两个同义词集合（synset）共享同样的词形式（word form），这两个同义词集合中的词形式应该有3个以上是共同的。比如，duo的一个意思是 musical group （二人音乐小组，或二重唱组合），另一个意思是 musical composition （音乐作品，二重唱音乐作品）。跟这两个意思相关的同义词集合中都包含{ duo, duet, duette }。

9 小结

* 在有关WordNet的更早期描述（Beckwith et al. 1991; Miller et.al, 1990）中，研究人员曾经主张WordNet是基于心理语言学原则的，就如同牛津英语词典基于历史原则一样。不过这个主张并没有结出一如当初人们期望的那样的果实。事实上，WordNet在很大程度上被心理语言学家忽视了。相反，计算语言学家则对它表示出更大的兴趣。

* 不过，WordNet中有关名词概念的层级描述，以及关于名词间同义，反义，上下位关系，整体部分关系等的描述，确实在解释语言行为方面发挥着作用。但心理语言学家并不把WordNet中的这些描写看作是可以用来揭示人类语言心理基础的基本原则。也许他们认为更为重要的是解释更为基本的认知过程。

* 计算语言学家当然不这么看，只要有助于处理自然语言，甚至在某种程度上达到理解的水平，一棵关于词义概念的层级树就是有用的（心理语言学家关心的恰恰是词汇层级树上不那么明显的那些关系）。

* WordNet中的名词库的开发因此更多的是受到计算语言学方面的潜在应用的推动，胜过来自认知心理学理论的推动。也许，这个结果是应该能够预见到的。正如一个基于历史原则编纂的词典，实际上对历史研究的贡献微乎其微一样。

附：一个名词语义网络的示例