内容摘要:对中文非结构化文本中(半)自动获取学科术语的相关语义关系进行了探讨,以寻找行之有效的获取方法。
关键词:学科术语;相关语义关系;数据挖掘;关联规则;规则评价
作者简介:
作者简介:朱惠(1979- ),女,南京大学信息管理学院讲师,博士,江苏省数据工程与知识服务重点实验室,研究方向:信息智能处理与检索、知识本体构建及应用、数据挖掘;杨建林(1970- ),男,南京大学信息管理学院教授,江苏省数据工程与知识服务重点实验室,研究方向:信息智能处理与检索、信息分析评价、数据挖掘;王昊(1981- ),男,南京大学信息管理学院教授,江苏省数据工程与知识服务重点实验室,研究方向:信息智能处理与检索、知识本体构建及应用、科学评价和引文分析。南京 210023
内容提要:文章对中文非结构化文本中(半)自动获取学科术语的相关语义关系进行了探讨,以寻找行之有效的获取方法。从CNKI获取“数字图书馆”学科领域文献,通过术语抽取、动词抽取、向量空间模型构建、双重关联规则分析和规则评价获得了具有较强关联的术语对以及作为关联标签的动词,从而获取了学科术语的相关语义关系。该获取方法与其他方法相比,具有较高的可行性和有效性,并对术语的相关语义关系进行了有效性和实用性的评价,提高了获取的准确率。但文章也存在一定的局限性,在对术语相关语义关系的有效性和实用性进行评价时,指标的选择和阈值的确定存在人工干预,具有一定的主观性。
关 键 词:学科术语 相关语义关系 数据挖掘 关联规则 规则评价
标题注释:本文系江苏省社会科学基金一般项目“领域术语语义关系自动获取研究”(项目编号:15TQB009)与国家自然科学基金青年项目“面向学术资源的TSD与TDC测度及分析研究”(项目编号:71503121)的研究成果之一。
中图分类号:G202 文献标识码:A
1 引言
学科术语的语义关系总体上可分为两大类:分类语义关系(层次语义关系)和非分类语义关系,本文将非分类语义关系称为相关语义关系。层次语义关系和相关语义关系均是学科知识本体的重要组成部分,它们将学科术语按照语义关系进行组织,为学科知识的搜索、重用及进一步理解提供条件[1]。在文献[1]中,作者对如何借助知识自动获取方法和技术获得领域术语的层次语义关系进行了研究,本文将探讨如何从中文非结构化文本中(半)自动获得学科术语的相关语义关系。
相较于层次语义关系,相关语义关系的获取更为困难,目前国内外对此的研究也较少,常用的获取相关语义关系的方法之一是普通关联规则分析。该方法能获取术语的相关语义关系,但只能获得具有相关语义关系的术语对,而不能获得关系的标签[2]。
本文将术语的相关语义关系限定为<术语1—动词—术语2>的三元组关系,试图在建立句子—术语向量空间模型和句子—<术语,动词>向量空间模型的基础上,引入双重关联规则分析以及规则评价,由此形成一种从中文非结构化文本获取学科术语相关语义关系的具体方法。双重关联规则分析还没被发现应用在学科术语相关语义关系的获取中,因此,本文尝试引入该方法获得术语的相关语义关系,并借助相关指标来评价规则的有效性和实用性。
2 相关研究
国内外有学者对基于非结构化文本获取术语的相关语义关系进行了研究。如David等[3]提出了一个自动的、无监督的获取概念相关语义关系的方法,该方法从网络文本提取术语的相关语义关系,并通过与Wordnet进行比较验证方法的有效性:J.Villaverde等[4]对领域文本语料库进行分析,抽取连接概念对的动词,并将这一技术集成到了本体构建的过程中;Albert等[5]通过集成类似DBpedia这样的外部知识源到本体学习系统中获得相关语义关系的标签。该方法应用了语义推理和验证,使得获取的相关语义关系质量较高;Mei Kuan Wong等[6]提出基于一种多步骤相关研究框架从非结构化文本中获取术语的相关语义关系;Ivo Serra等[7]采用两个过程对获取概念相关语义关系的多种技术和方法进行了评价,并在生物学领域语料库和法律领域语料库中进行了验证;Martin等使用扩展的关联规则获取术语的相关语义关系以及给出了关系的标签,并且基于已有语义标注的语料库对方法进行了评估[8]。
董丽丽等[9]首先通过关联规则抽取特定领域术语对,接着抽取术语对之间的高频动词,将它们作为候选相关语义关系标签,然后运用VF×ICF度量方法确定相关语义关系的标签;古凌岚等[10]运用语义角色标注和依存语法分析获取文本句子的语义依存结构,提取出具有语义依存关系的动词框架,通过语义相似度计算发现动词框架中术语间的相关语义关系和关系标签;邱桃荣等[11]通过分析概念粒的上下文,构建了基于不同领域概念粒度空间的概念粒交叉关系学习模型,有利于实现领域本体相关语义关系的获取;王红等[12]提出了基于NNV(名词—名词—动词)的关联规则获取术语相关语义关系及其标签的方法;张立国等[13]对语料进行词性标注和语义分析,得到具有语义依存关系的动词框架,然后再计算句子的相似度,抽取出术语的相关语义关系并给出关系的标签;谷俊等[14]在关联规则中加入谓语动词进行相关计算,结合搜索引擎技术抽取候选相关语义关系,在此基础上对置信度和支持度进行对比分析,抽取出最终的相关语义关系。
综上可知,国内外学者尝试通过关联规则分析、语义依存分析等来获取术语的相关语义关系,而关联规则分析的应用又较多。作为相关语义关系标签的动词的获取还没有形成有效统一的方法。此外,上述方法对于所获规则的有效性和实用性并没有进行评价。
本文将构建句子×术语向量空间模型、句子×<术语,动词>向量空间模型,进行二重关联规则分析以获取具有相关语义关系的术语对以及语义关系的标签。在进行关联规则分析的过程中,引入一系列指标来控制规则的有效性和实用性,从而提高术语相关语义关系获取的质量。
3 学科术语相关语义关系获取方法
本文重点探讨基于双重关联规则分析和规则评价从非结构化文本获取术语相关语义关系的方法和过程,这里的非结构化文本由学科期刊论文的标题、摘要和关键词构成,获取思路和方法(见图1)。
图1 学科术语相关语义关系获取思路和方法







