首页 >> 评论 >> 学海观潮
话题发现技术:决策参考的“探测器”
2014年06月04日 07:06 来源:《中国社会科学报》2014年6月4日第603期 作者:靳光瑾 易江燕 字号

内容摘要:话题的自动发现与跟踪技术,无论是在政治经济、军事国防还是在社会文化等方面,都具有深远意义和研究价值。

关键词:话题;决策参考;探测器;研究;海量信息

作者简介:

  【核心提示】对教育管理和研究者来说,如何有效利用互联网的海量信息,通过计算机技术手段对信息进行加工整理,为教育主管部门提供参考信息和决策依据,是一个值得研究的课题。

  教育领域中的热点问题一直是各大网站的热门话题。对教育管理和研究者来说,如何有效利用互联网的海量信息,通过计算机技术手段对信息进行加工整理,为教育主管部门提供参考信息和决策依据,是一个值得研究的课题。

  话题发现技术:国内研究待深化

  目前,搜索引擎技术能解决海量信息检索的难题,但并不能将有效信息聚类形成话题返回给用户。话题发现技术能自动将分散的网络信息高效地搜集起来,并加以整理和分析,从而帮助相关人员及时了解一个话题的全部细节及发展脉络。

  话题发现技术来自话题发现与跟踪(Topic Detection and Tracking,TDT)技术。TDT的基本思想由美国国防高级研究计划委员会和国家标准技术局于1996年提出,当时的主要目的是为了帮助人们解决信息爆炸的难题。TDT的研究对象是新闻语音信息流,如:新闻专线、广播、电视等媒体。其主要任务是将这些信息流分割为不同的新闻报道,同时监测新话题的首篇报道、自动整理和组织与某个话题相关的所有报道。TDT的研究目标是自动发现话题,并线索化与该话题相关的各种新闻语音信息流。

  对于TDT技术的研究,国内起步较晚,处理对象通常为文本信息流,没有报道切分任务。而话题发现技术研究则呈现出三个特点:一是研究仍处于实验评测阶段,未实用化;二是其研究对象是所有领域,没有专门应用于教育领域;三是语料规模小。针对这些特点,我们认为,应在三方面做出改进:第一,强调语言学理论知识和话题发现技术的结合,将该研究实用化;第二,针对教育领域新闻文本的特点,采取相应策略改进话题发现方法;第三,基于大规模语料,提出计算热点话题的方法。

  发现并量化教育热点话题

  教育话题发现是教育热点话题发现的前提,只有识别出教育领域的话题,才能对这些话题排序,检测出热点话题。这是一个通过计算报道与报道、报道与话题间的相似度,依据相似度的阈值,不断更新老话题或建立新话题的过程。

  我们可以采用语言学与统计学相结合的方法,对报道和话题进行初次特征筛选;再采用信息增益原则对筛选结果进行二次筛选,即将对话题和文本领域指向性弱的、没有实在意义和对反映文本构成重要程度小的词语去除。

  发现话题后,如何量化热点话题?一个话题是否为热点主要由如下三个因素决定:话题报道数量、报道时长、报道广度。所以,话题热度的计算方法应该是,在某段时间内,某话题报道的出现频率、话题被报道的时间频率和话题被媒体转载的频率对数之积再求和。

  总的来说,TDT国际评测正在促使话题发现技术研究日臻完善,但我们认为,今后还有许多可拓展的地方。比如,可采用多文档自动文摘技术描述热点话题。目前我们的研究只采用关键词和命名实体描述热点话题的框架结构,而没有形成一个话题的摘要,今后的研究重点将采用多文档自动文摘技术处理各热点话题,形成分析报告。

  通过计算机自动发现的热点话题更客观公正,最大限度地减少了人工干预。同时,热点话题发现技术拓展性强,具有重大的实用价值。因此,今后可根据其他领域文本的特征,将该技术移植于其他领域。话题的自动发现与跟踪技术,无论是在政治经济、军事国防还是在社会文化等方面,都具有深远意义和研究价值。

  (作者分别系教育部语言文字应用研究所副所长;中国社会科学院语言文字应用系研究生)

分享到: 0 转载请注明来源:中国社会科学网 (责编:奚祺海)
W020180116412817190956.jpg
用户昵称:  (您填写的昵称将出现在评论列表中)  匿名
 验证码 
所有评论仅代表网友意见
最新发表的评论0条,总共0 查看全部评论

回到频道首页
QQ图片20180105134100.jpg
jrtt.jpg
wxgzh.jpg
777.jpg
内文页广告3(手机版).jpg
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们