发信人: walt@ncicbbs (瓦尔特), 信区: chinese
标  题: 语言实用主义(修改稿)
发信站: 国家智能机中心曙光站 (Thu May 23 17:43:00 1996)
转信站: ncicbbs

                              (一)


    语言是一个充分复杂的信息系统.

    语言与我们的日常生活关系极其密切, 密切到了我们难得去注意它自身的内在规
律的程度. 越是习以为常的东西, 越容易存在被我们忽略的盲点. 只有当社会的需要
迫使我们不得不去关心一些关键性的区别的时候, 这些盲点才可能引起我们的注意.

    语言又是一个充分复杂的信息系统, 非单个或少数学者凭人力所能驾驭. 只要看
一看语言学家的工作就可以知道, 语言学无法避免例外, 无法避免近似. 很多人的著
作里只举对自己有利的证据, 不举对自己不利的证据. 很多语言学知识的陈述只能是
存在命题而不是全称命题 (例如在汉语中, 说动词"能作主语", 名词"能作谓语", 但
无法由此判断动词作主语的条件下名词能不能作谓语).这样就使语言学知识长期处于
实证化水平比较低的状况. 这种状况的产生, 决不是因为语言学家无能, 而是因为语
言实在太复杂. 直到现在, 写一部关于某一种自然语言的具有all and only(Chomsky
语) 能力的语法仍然是语言学家力所不能及的.   

    由于以上两方面的原因, 在相当长的一段时期内, 关于语言的各种知识的评价密
切地依赖于当时的参照物.

    参照物决定检验语言学知识的"硬"标准. 有些现在看来含糊其词的语言学知识,
在一定的历史阶段中曾被认为是天经地义的, 因为那时语言学可用的参照物十分有限.
随着新的社会需要的不断产生, 语言学可用的参照物也逐渐丰富起来, 曾被认为是天
经地义的那些含糊其词的语言学知识在新的参照物的检验下逐渐暴露出自己的弱点.
有检验才有语言学的进步.

    参照物决定截取语言现象中可驾驭的部分的阈值. 语言本身虽然十分复杂, 但对
语言的观察、对语言事实的整理和对语言规律的陈述都是有选择的, 是与人类认识语
言的当前能力和手段相关的. 不难设想一个旧式的语言学家如果知道一门语言居然写
了上千条语法规则, 即使它在今天来看更准确地刻画了一种语言规律, 更有利于计算
机处理该语言, 在当时也一定会被骂为"烦琐哲学", 因为毕竟一个有上千条语法规则
的语法理论体系是很不方便教学和学术交流的.

                              (二)

    我们所接触的第一个参照物是说本族语言的人. 由于本族语言教学的需要, 诞生
了最初的语言学. 可是, 本族语言的学习主要地不是在课堂上完成的, 语言学在这方
面的作用十分有限. 再加上说本族语言的人之间在语言方面有太多的相似性以致很难
对自己的母语作较深层次的反省. 这一切决定了以说本族语言的人为参照物的最初语
言学必定是在今天的观点看来不完善和过于简化的.

    后来, 随着各民族各国家的交往, 说非本族语言的人进入了语言学的视野. 翻译
和非本族语言教学的需要促进了语言学的大发展. 语言学能够在这种情况下大发展的
主要原因就是说非本族语言的人引进了新的参照物. 说本族语言的人习以为常的语言
现象在说非本族语言的人看来是不那么习以为常的.  (实际上, 直到今天, 说英语的
人对于汉语中如何表达反事实条件关系仍然没有统一的认识).  语言的交融促进了对
本族语言的反思和不同语言之间的对比, 使语言学知识从量到质都有了明显的提高.

    然而, 说非本族语言的人和说本族语言的人既然都是人, 就会有人自己观察语言
的盲点. 可以设想, 如果有一种非人的事物也能处理语言, 那人类观察语言的视角会
再一次拓宽, 被人忽略掉的重要语言现象和规律会在这种事物的参照下揭示出来. 这
种事物是有的, 那就是我们会议讨论的一个核心词语----计算机.

    计算机只能处理形式化的知识. 要想让计算机处理语言, 首要的任务是把语言学
知识形式化. 正是在把语言学知识形式化的过程中, 人们认识到了一些没有计算机的
参照就很难揭示出来的语言现象和规律. 例如, 刻画某一自然语言的一个句法规则系
统在人看来已经看不出毛病了, 用计算机随机按这套规则经过复杂的递归过程后生成
的句子仍然有不合法的, 这样的句子就可以帮助我们改进该句法规则系统使之更好地
描述这一自然语言. 搞机器翻译的人有一句经验之谈, 说句法规则系统"三分在写,七
分在调",意在强调人放入计算机的初始的规则系统是很不完善的, 又是光凭人力很难
发现其中的错误的, 这时候, 计算机的反馈信息就显得格外重要.   
    同时, 在计算机处理语言的各个不同层次和不同应用背景下, 需要用到不同层次
和不同颗粒度的语言学知识. 举例来说, 许多自然语言处理系统里都用到词库. 关于
什么是词什么不是词以至于要不要词这个语言单位, 语言学里还有许多悬而未决的争
论, 比如有人主张"鸭蛋"是词, "鸡蛋"不是词, 理由是前者不可扩展, 后者可以扩展.
如果真的按这样的观点去构造实用的词库, 必将在一些应用中产生极大的不便. 实际
上, 词库里收录的不见得非得是语言学意义上的词, 可能是另一种语言单位, 用语言
学的教条来束缚这种单位是很不可取的, 而这种单位是很值得研究的, 也是目前研究
得很不够的. 音字转换中用到的语法知识显然用不着象机器翻译中用到的语法知识那
样庞大和精确. 用于分析的语法限制可以宽些, 但覆盖面也必须宽些, 因为输入是不
可控的; 而用于生成的语法限制要严得多, 但同时覆盖面可以稍窄, 因为输出是可控
的. 我们不能盲目认为越庞大越精确的才是越正确的. 正确与否的评价依赖于你的应
用背景, 依赖于你的参照物. 应用背景的多元化必然导致语言学知识的多元化和评价
标准的多元化.

                              (三)

    如果我们稍具前瞻性的话, 就会看到: 下一个参照物----INTERNET以及以它为雏
形的信息高速公路正在向我们走来. 随着使用计算机和网络的价格的不断下降, 会有
越来越多说各种不同语言的人参与进来. 在这场把千家万户跟这个世界连接起来的伟
大的信息革命运动中, 语言学扮演着重要的角色, 因为网上跑的很大一部分信息, 就
是我们的自然语言. 对这些信息的处理需要语言学. 它会给语言学提出新的课题, 也
会给语言学家提供看待语言的新视角, 新参照.

    例如, 以网络为依托的信息服务会有大的发展. 与此相配合, 诸如信息过滤、分
类、模糊检索、双语及多语浏览工具、基于自然语言理解的浏览指南和联机帮助、多
语混和文本的压缩和解压缩、简繁体汉字之间的转码、机器翻译等一大批与语言学有
关的技术将会有大的发展. 不同层次的语言学知识在这里都将大有用武之地, 停留在
纯属门户之间水平上的争论已经越来越没有意义. 我们国家智能计算机研究开发中心
正在开发与其国产曙光系列高性能计算机产品相配套的面向INTERNET的智能化工具产
品, 其中有很多很有意义的语言学课题有待研究.

    总而言之, 我主张: 现在还不是可以独立于参照物和应用背景来评价语言学知识
的正确性的时候. 在我们讨论一种语言学知识是否正确的时候, 千万别忘了问一句:
你要拿它干什么?


--
※ 来源:．国家智能中心曙光站 bbs.ncic.ac.cn．[FROM: jet]
[阅读文章]  回信 R │ 结束 Q,← │上一封 ↑│下一封 <Space>,↓│主题阅读 ^X或p