内容摘要:根据项目内容和预期目标,该项目分为五个子课题协同推进,分别是:面向事件的本体结构资源建设、面向事件的语义网表示和推理机制、基于知识发现的本体演化机制研究、事件语义的自动标注研究和基于事件的语义查询与推理研究。子课题四为事件语义的自动标注研究,本课题旨在基于人工标注的一定数量语料实例和概念本体的基础上,遵照人工标注事件语义规范,利用机器学习方法,进行事件结构学习和事件关系抽取,为未标注Web页面自动进行事件语义标注,并在事件语义自动标注软件的帮助下。目前,我们探讨了原子事件语义角色,形成了包括3个主体语义角色、4个客体语义角色、2个时空语义角色、5个附加语义角色以及否定、模态、时态等事件语义算子在内的事件语义角色规范。
关键词:语义;研究;词汇;推理;语言;教授;应用;查询;学术;文本
作者简介:
(一)研究计划总体执行情况及各子课题进展情况
本项目旨在探讨面向事件结构基于本体动力学的语义网模型,通过事件和事件链的标注,奠定计算机进行文本理解和查询推理的基础,并通过本体演化实现领域本体结构的构建,从而实现对文本内容的语义理解。根据项目内容和预期目标,该项目分为五个子课题协同推进,分别是:面向事件的本体结构资源建设、面向事件的语义网表示和推理机制、基于知识发现的本体演化机制研究、事件语义的自动标注研究和基于事件的语义查询与推理研究。
项目开展以来,项目组整合了武汉大学、中南财经政法大学和武汉科技大学等多所大学和单位的多学科研究力量及相关学院的资源,分子课题或集中研讨,协同推进,现各子课题基本完成预期时间节点任务要求,确保了整个项目正常推进。
子课题一为面向事件的本体结构资源建设,旨在建立涵盖实体、属性、性质、事件及其上下位关系的基础本体结构,建立涵盖事件和事件链的语义标注资源,为文本的深度语义标注、上下文理解和语义查询及推理奠定基础。
本体结构方面,我们用近年新创的“词群-词位变体理论”和“基元结构理论”构建了移动类事件和言说类事件的局域系统,其创新点是:事件触发词具有伸缩性的类系统,同类事件的本体结构可通过本体自动创建,为篇章事件的理解标注和机器自学习,提供了新的语言资源。
事件资源方面,在总结和研究多学科相关成果的基础上,根据语言信息处理和人工智能的需要,把事件定位为话题结构的语义及其结构。结合语言的功能和信息特点,构建了适用于语言信息处理的事件理论系统。现阶段我们集中对叙述类和描述类事件篇章的事件链进行标注。
目前我们确定了语料标注的具体步骤,包括语料的选择、语料的预处理、词汇链标注、事件及事件链标注,并对数据进行了部分标注。事件结构表示为谓词及其论元结构,为篇章事件链的标注奠定了基础。与以往的事件结构研究只是局限在句法层面所不同的是,本项目提出,篇章的基本构成单位是事件,每个事件内部存在一个语义结构,同时,篇章内部事件之间也存在相互关系,这些事件本体之间的相互关系构成了篇章语义关系的雏形---事件链。篇章的语义分析通过实践和事件链的分析实现。
在事件链标注中,从篇章中的词汇链入手,根据这些词汇链所覆盖的最长名词短语所触发的谓词形成的链条来确定篇章的语义结构。本子课题的创新之处在于引进词汇链上词汇所在的最长名词短语(NP链),保证了词汇链上名词短语的中心词、名词短语的修饰语甚至谓词都能跟事件触发词通过NP链取得联系,确定与不同语法位置的体词紧密联系的谓词。在词汇链标注环节,严格按照同形、同指、同义三原则,以跨句两次及以上的重复为判别标准;在从词汇链到NP链标注环节,按照句法关系将词汇链上词汇扩展到其所在名词短语的最大投射;从NP链到事件链环节,事件触发词是其自身与直接论元所在NP链在当句中覆盖词汇链最多的那一个谓词,通过比较计算词汇链词汇数量的方式推导出事件触发词。标注的各个环节尽可能确保客观操作性和可重复性,由此提取出来的主干事件链既直接反映篇章连贯,又以精简形式概括了文章主旨。
子课题二为面向事件的语义网表示和推理机制,此课题旨在研究大规模的事件语义描述及其推理模型和引入统计推理,以支持面向事件的语义查询和实时自然语言查询,并从逻辑基础的角度来验证这种表示机制的可满足性和可判定性。目前,对于事件表示机制,我们分析了事件表示机制时间、角色等基础属性,在综合分析RDF、OWL等语言表示机制的基础上,探讨了一种基于Named Graph的事件语义表示机制,它以RDF表示语言为基础,扩展其Endpoint机制,支持基于图的语言表示,符合事件表示的需求。另外,在现有SPARQL语言基于Pattern Tree的代数表示语言的基础上,设计了一种支持事件语义的SPARQL Algebra,并在Raptor SPARQL查询语言实现机制的基础上,实现了相应的原型。在事件语义方面,主要完成了三个方面的研究:①设计了支持事件的中文开放医学链接数据,将其中的重要事件如手术、病状变化、用药等采用事件语义进行表示,并在此基础上与武汉协和医院、中南医院进行广泛合作,开展了抗菌药物合理用药监管的研究。②针对设备管理中存在知识管理方式不足的问题,设计了一种基于事件语义的新型设备知识管理、绩效评价等机制。目前已经实现了相应的原型系统,并在整理设备管理相关开放链接数据库。③针对消防信息系统中信息异构、多样性的特点,以事件语义表示机制为基础,设计了消防开放链接数据,采用事件语义表示其中的状态变化等方面的问题。目前已经完成了一个具体项目的研发(武汉钢铁集团消防综合信息管理系统和指挥决策系统),在开放链接数据方面,已经完成了消防总体开放链接库的设计,并完成了目前国内所有危化品知识库的设计。
本子课题在以下方面有所创新:1)从逻辑的角度对事件语义进行了形式化的定义,将事件定义为一个具有时间、角色等多种属性的元素,并具体采用Named Graph描述事件语义;从查询的角度,定义了事件查询的算子;2)首次从事件的角度描述手术、病情变化等用常规方法无法准确描述的医学信息资源。并以此为基础进行了临床应用尝试;3)建立了医学、消域等专业领域的中文开放链接数据,丰富了中文开放链接数据库的内容,并为相关应用奠定基础。
子课题三为基于知识发现的本体演化机制研究,旨在研究在大规模文本的作用下,基础本体到领域本体以及领域本体间的演化机制。这方面的主要进展在于:1)设计并开发了从文本中抽取关键词和概念的机制,能自动发现特定领域中涌现的新概念;2)设计并开发了概念属性及属性值的发现机制,能确定新概念的属性及属性值;3)自动发现领域文本中的事件触发词及其论元。这些工作的创新性在于:第一,利用无指导的方法发现新关键词和概念;第二,利用复杂网络的办法发现新的社团,其中包含事件触发词和可能的论元。下一步的工作集中在基于复杂网络技术探讨本体结构的演化规律,以及结合描述复杂性理论探讨领域本体的收敛性问题。
子课题四为事件语义的自动标注研究,本课题旨在基于人工标注的一定数量语料实例和概念本体的基础上,遵照人工标注事件语义规范,利用机器学习方法,进行事件结构学习和事件关系抽取,为未标注Web页面自动进行事件语义标注,并在事件语义自动标注软件的帮助下,获得更多的标注了事件语义的语料实例,扩展事件本体资源的规模。目前,我们探讨了原子事件语义角色,形成了包括3个主体语义角色、4个客体语义角色、2个时空语义角色、5个附加语义角色以及否定、模态、时态等事件语义算子在内的事件语义角色规范;深入了解了成篇七原则中的衔接与连贯,探讨了(原子)事件语义关系,形成了包括3个平行类型、4个偏正类型在内的事件语义关系规范;设计并实现了人工辅助事件语义标注工具,针对NTCIR-9 RITE任务的语料,进行了人工事件语义标注,对人工标注过程中的问题进行了深入讨论;设计并实现了新闻门户网站(网易)的网络爬虫,通过预处理模块获取所爬取的网页内容。







