内容摘要:实验采用领域学术文献语料集对所提出的方法进行验证,在概念抽取阶段抽取不同类型的术语,得到较高的准确率与召回率,并进行了等级关系概念对的抽取,最终生成了概念等级关系,实验证实了本文提出的方法的可行性与有效性。
关键词:本体构建;等级关系抽取;术语抽取
作者简介:
作者简介:蒋婷(1988- ),女,南京大学信息管理学院博士研究生,主要研究方向为本体学习,数据挖掘,自然语言处理,E-mail:jiangtinghaha@1216.com;孙建军(1962- ),男,南京大学信息管理学院博士,教授,博士生导师,主要研究方向为网络资源管理。南京 210093
内容提要:等级关系抽取是领域本体自动构建的必经阶段,目前研究主要集中在生物医学领域,此外还存在现有方法效率不高的问题。本文提出一种面向领域学术资源的概念等级关系抽取的方法。首先,从概念抽取阶段开始,将学术文献中的概念分为方法/任务/工具/资源类术语,采用层叠条件随机场与C-value和规则相结合的方法分别对各个术语类型进行抽取,得到初始的分类术语;其次,在已有的术语类别限定下,结合外部词库和基于Weh的方法抽取等级关系概念对;最后,采用基于图的方法将概念对生成图模型,再利用图剪枝方法生成概念等级关系。实验采用领域学术文献语料集对所提出的方法进行验证,在概念抽取阶段抽取不同类型的术语,得到较高的准确率与召回率,并进行了等级关系概念对的抽取,最终生成了概念等级关系,实验证实了本文提出的方法的可行性与有效性。
关 键 词:本体构建 等级关系抽取 术语抽取
标题注释:国家社会科学基金重大招标项目“面向学科领域的网络信息资源深度聚合与服务研究.”(12&ZD221)。
1 引言
学术文献的快速增长催生了文献速读的需求,这一需求与Renear等[1]提出的策略阅读(strategic reading)的概念一致,构建领域学术本体是解决这一问题的优质方案。由于学术本体的规范性及领域性,可用于对学术文献进行导航、索引及标注,从而实现文献速读的目标。也就是说,研究人员可以利用领域学术本体来组织和标注资源[2]。Gruber[3]认为本体等同于层次结构的类(概念),术语的获取通常是本体构建的第一步,具有较为广泛的研究,而概念等级关系(taxonomic relationship)是本体的重要组织结构,抽取概念等级关系是本体构建的必经阶段。目前本体构建的方式主要包括手工构建及(半)自动构建,但是手工构建效率极低,为了降低本体构建成本,通过机器学习、统计、自然语言处理等相关技术自动或半自动地从现有数据源中获取领域知识构建本体成为研究热点,这类技术称之为本体学习(ontology learning)技术。本文主要研究本体学习过程中的概念等级关系抽取阶段。
概念等级关系,又叫概念层级关系(concept hierarchies),是指具有上下位关系的概念关系,在英文中泛指“is-a”关系。概念的上位概念是指比该具体的概念具有更泛在的意义的概念,相对而言,概念的下位概念是指一个泛在意义的类别下的具体的概念。概念等级关系抽取阶段的任务主要是识别概念间的等级关系,即抽取概念间的上位/下位关系。通常这项工作依赖于领域专家来手工提取,是一项耗时耗力的工作,随着自然语言处理、信息检索以及机器学习的方法给信息抽取带来的优势,可借助这些技术来进行自动关系抽取以降低人力付出并节省时间成本。
概念等级关系抽取一直是一个尚未被很好解决的问题,一直以来,研究者都试图采用不同的方法解决这个问题。首先,目前概念等级关系抽取主要集中在生物医学领域,这一领域通常具有格式较为规范的文本,较为完备的术语集与本体库,这些条件均有利于领域概念等级关系的抽取,但是其他领域并不具备这种条件,不存在或只有很少的术语集或本体库,作为信息主要来源的学术文献文本内容格式并不规范。其次,传统的概念等级关系抽取方法主要有两种类型:基于语言学的方法以及基于统计的方法。基于语言学的方法主要是采用词典语义模板来获取文本中的等级关系概念对,具有准确率高的优点,但该方法的召回率高度依赖于所定义的语言学规则的数量和详细程度,而规则模板需要专家进行定义,过细化的规则也无法移植到其他领域中,因而该方法具有召回率低可移植性差的特点。基于统计的方法主要包括共现分析、术语包含以及聚类的方法,这些方法的主要思想是具有等级关系的概念对通常会同时出现,此类方法通常准确率较低,并且高度依赖于特征的选择以及数据集的大小及质量。
针对第一个问题,本文提出一种面向领域学术本体概念等级关系抽取的方法。由于学术文献是包含领域专业术语及关系的一种权威的原始数据来源,另外,学术文献作为一种特殊类型的文本,包含特定类型的术语及关系,因此,本文首先分析学术文献中术语和概念关系的类型,提出一种针对不同术语类型进行概念抽取的方法,初步获取学术文献中的不同类型的术语,这是本文的创新;然后再分析学术文献中的等级关系类型进而进行概念等级关系的获取。针对第二个问题,本文提出了一种结合语言学模板、基于Web的方法以及基于图的方法的概念等级关系抽取方法。
2 相关研究
概念间的等级关系抽取代表性的方法主要有:基于语言学模板的方法、基于统计的方法、基于图的方法以及混合方法。
2.1 基于语言学模板的方法
基于语言学的方法主要通过词形分析、句法分析、依存结构分析及语义分析等来识别等级关系,通过抽取和总结频繁的句法模式来识别关系,前提是文中有包含等级关系的句法模式。Hearst[4]手工定义了一些语义模板(例如,Aisa B)对等级关系进行抽取。这些模板除了可以采用手工定义[5]的方式获得,还可以采用bootstrapping算法[6]获取,或是采用机器学习(分类)[7]的方法进行识别。基于语言学模板的方法进行概念等级关系抽取的数据源可以来自于文本语料库或者Web,此外,有些研究从Wikipedia获取[8]或者从WordNet等词典中获取[9]。
基于语言学模板的方法所识别出的概念间等级关系的准确率高,缺点是基于语言学模板的方法中,手工定义的方式通常需要专家知识来制定模板,一般召回率较低。只有针对领域语料制定详细的规则才能够获取更多的关系对,但在模板的制定过程中需要耗费大量的成本。另外这些详细的规则也不适用于其他领域,可移植性较差。而现有的无论是采用bootstrapping进行模板扩展还是采用分类的方法识别虽可以降低人工成本,这些方法并不成熟,在降低准确率的同时仍然具有较差的召回率。

