内容摘要:机器词典是汉语信息处理中最重要的语言资源。
关键词:机器词典;现代汉语;信息处理;词性;词典编纂;冯志伟
作者简介:
机器词典是最重要的语言资源。北京大学计算语言学研究所俞士汝、朱学锋等开发的现代汉语语法知识库,就是一种机器词典。这项研究与北京大学中文系密切合作进行,在现代汉语语法知识库的基础上,他们又编写了《现代汉语语法信息词典》。这部机器词典以语法一义项相结合的原则以及词典编纂的普遍原则,选取了5万多个词语,又根据语法功能分布的原则,建立了面向语言信息处理的现代汉语词语分类体系,完成了这5万多个词的归类.确定了每个词的词性。由于属于同一类的各个词语的语法属性仍然有很多差别,采用了关系数据库文件格式来描述每一个词语及其语法属性的二维关系.机器词典中共有犯个数据文件,其中包含全部词语的总库l个,各类词库23个。总库设21个属性字段,各类词库又分设若干属性字段,例如,名词库设27个属性字段,动词库设46个属性字段,等等。除此之外,某些类词库下面又设分库。例如,动词库下面设6个分库,代词库下面设2个分库,分别描述每一个子类的更细微的语法属性。所有的库都可以根据主关键字段(词语+词类十同形)进行连接。这样一来,32个数据库文件构成了有上位下位继承关系的“树”,在这样的树中,子结点可以继承父结点的全部信息,将父结点与子结点连接起来就可以得到关于每个词的更加全面的信息。如果把每个库所包含的词语数同该库的属性字段数的乘积定义为该库的“信息量”,那么,现在总库的信息量约为60万,32个库的信息量达250万。这些信息量所需的存储空间约为16兆字节。
这部语法信息词典已经为国内外不少计算语言学研究单位所采用,作为重要的语言资源。他们建立了一个比较完善的现代汉语词语的语法功能分类体系,把现代汉语的基本词类分为18类(括号内的英文字母是其代码):

这些基本词类可以合并成为较大的词类。名词、时间词、处所词、方位词、数词、量词统称体词,动词、形容词、状态词统称谓词。代词一部分属于体词,一部分属于谓词。体词、谓词、区别词、副词又合称实词。介词、连词、助词、语气词合称虚词。实词和虚词是汉语的两个最大的词类。此外,还有拟声词和叹词,它们被列在这两大词类之外。当然,这18个基本词类还可以再划分小类,这里不再细说。







