内容摘要:话题的自动发现与跟踪技术,无论是在政治经济、军事国防还是在社会文化等方面,都具有深远意义和研究价值。
关键词:话题;决策参考;探测器;研究;海量信息
作者简介:
【核心提示】对教育管理和研究者来说,如何有效利用互联网的海量信息,通过计算机技术手段对信息进行加工整理,为教育主管部门提供参考信息和决策依据,是一个值得研究的课题。
教育领域中的热点问题一直是各大网站的热门话题。对教育管理和研究者来说,如何有效利用互联网的海量信息,通过计算机技术手段对信息进行加工整理,为教育主管部门提供参考信息和决策依据,是一个值得研究的课题。
话题发现技术:国内研究待深化
目前,搜索引擎技术能解决海量信息检索的难题,但并不能将有效信息聚类形成话题返回给用户。话题发现技术能自动将分散的网络信息高效地搜集起来,并加以整理和分析,从而帮助相关人员及时了解一个话题的全部细节及发展脉络。
话题发现技术来自话题发现与跟踪(Topic Detection and Tracking,TDT)技术。TDT的基本思想由美国国防高级研究计划委员会和国家标准技术局于1996年提出,当时的主要目的是为了帮助人们解决信息爆炸的难题。TDT的研究对象是新闻语音信息流,如:新闻专线、广播、电视等媒体。其主要任务是将这些信息流分割为不同的新闻报道,同时监测新话题的首篇报道、自动整理和组织与某个话题相关的所有报道。TDT的研究目标是自动发现话题,并线索化与该话题相关的各种新闻语音信息流。
对于TDT技术的研究,国内起步较晚,处理对象通常为文本信息流,没有报道切分任务。而话题发现技术研究则呈现出三个特点:一是研究仍处于实验评测阶段,未实用化;二是其研究对象是所有领域,没有专门应用于教育领域;三是语料规模小。针对这些特点,我们认为,应在三方面做出改进:第一,强调语言学理论知识和话题发现技术的结合,将该研究实用化;第二,针对教育领域新闻文本的特点,采取相应策略改进话题发现方法;第三,基于大规模语料,提出计算热点话题的方法。
发现并量化教育热点话题
教育话题发现是教育热点话题发现的前提,只有识别出教育领域的话题,才能对这些话题排序,检测出热点话题。这是一个通过计算报道与报道、报道与话题间的相似度,依据相似度的阈值,不断更新老话题或建立新话题的过程。
我们可以采用语言学与统计学相结合的方法,对报道和话题进行初次特征筛选;再采用信息增益原则对筛选结果进行二次筛选,即将对话题和文本领域指向性弱的、没有实在意义和对反映文本构成重要程度小的词语去除。
发现话题后,如何量化热点话题?一个话题是否为热点主要由如下三个因素决定:话题报道数量、报道时长、报道广度。所以,话题热度的计算方法应该是,在某段时间内,某话题报道的出现频率、话题被报道的时间频率和话题被媒体转载的频率对数之积再求和。
总的来说,TDT国际评测正在促使话题发现技术研究日臻完善,但我们认为,今后还有许多可拓展的地方。比如,可采用多文档自动文摘技术描述热点话题。目前我们的研究只采用关键词和命名实体描述热点话题的框架结构,而没有形成一个话题的摘要,今后的研究重点将采用多文档自动文摘技术处理各热点话题,形成分析报告。
通过计算机自动发现的热点话题更客观公正,最大限度地减少了人工干预。同时,热点话题发现技术拓展性强,具有重大的实用价值。因此,今后可根据其他领域文本的特征,将该技术移植于其他领域。话题的自动发现与跟踪技术,无论是在政治经济、军事国防还是在社会文化等方面,都具有深远意义和研究价值。
(作者分别系教育部语言文字应用研究所副所长;中国社会科学院语言文字应用系研究生)







