首页 >> 专题 >> 学科专题 >> 语言学专题 >> 当汉语研究遇到人工智能 >> 汉语信息处理主要成就
情报检索系统
2015年09月28日 14:28 来源:《当代语言学》第3卷2001年第1期 作者:冯志伟 字号

内容摘要:我国从1963年开始进行机械情报检索的研究工作。1965年进行了机械情报检索试验。70年代以来开始研究计算机情报检索。1975年进行了首次计算机情报检索试验。1977年进行了计算机联机检索试验。1983年在中国科学技术信息研究所建立了连接美国和欧洲主要国家的数据库联机检索系统。

关键词:情报检索;机械情报;数据库;联机检索;信息处理;汉语;冯志伟

作者简介:

  我国从1963年开始进行机械情报检索的研究工作。1965年进行了机械情报检索试验。70年代以来开始研究计算机情报检索。1975年进行了首次计算机情报检索试验。1977年进行了计算机联机检索试验。1983年在中国科学技术信息研究所建立了连接美国和欧洲主要国家的数据库联机检索系统,这个系统通过意大利的ITALCABLE分组交换中心,连接到欧洲空间组织的ESAIRS系统,并由数据交换网转接美国的DIALOGORBIT系统,这样,我国就可以在北京利用通信卫星检索到欧美200多个数据库的几十万篇文献。目前,不少单位在建立各种中文文献库,有的单位在研究自动标引和自动做文摘的问题。全国的科技情报部门已配备大中小型计算机120台以上,已建立各种科技文献数据库、事实数据库、数值数据库400多个,其中,中文科技文献数据库累计记录量约为150万条。我国的计算机情报检索已经取得了令人瞩目的进步。 

  我国从70年代末期开始探讨汉语文献的自动标引问题,“七五”期间先后建立了一批试验性的自动标引系统,如上海交通大学王永成等研制的基于汉字部件词典的中文篇名自动标引系统,北京大学图书馆情报学系研制的基于规则和词典的中文文献自动标引系统,中国软件技术服务总公司吴蔚天等研制的基于非用字后缀表法的中文文献自动切词标引系统(“非用字”是指那些不能做标引词的字,如“其、起、且、首”等。而“用字”是指那些可以做标引词的字,抽词时,如果为用字则取,如果为非用字则舍) 

  在自动文摘方面,上海交通大学计算中心在IBM5550微机上初步开发出一个自动编制中文科技文献文摘的试验性系统。该系统根据“大多数反映文献主要内容的句子往往出现在段首或段尾”以及“文献的篇名基本上能反映其主题内容”的统计性结论,把包含预置关键词与标题关键词的句子从文献的某些重要部分中选出,作为文摘的句子,然后再适当地把这些句子组织成文献的文摘。 

  我国的全文检索研究开始于八十年代中期。1986,武汉大学开始接受国家教委文科博士点科研项目“湖北省地方志全文检索系统”,建立了“湖北省地方志大事记”和“中国人民解放军大事记”两个全文数据库。接着,北京文献服务处(BDS)研制了“基于自然语言处理的中文情报检索和处理系统CIRPON,用于BDS的文献自动标引和文摘自动处理,文献标引的查全率和查准率大体上相当于手工标引的质量。1990年初,北京信息工程学院与《人民日报》社合作开发了全文检索系统Biti FTRS(full text retrieval system的简称),在人民日报开始使用,并已实现了商品化。山西大学计算机科学系刘开瑛等使用自动切词、自动分类、自动词性标注等自然语言处理技术,1991年研制了“中文全文检索软件系统”,现已被南京金陵石化总公司精细石化文献检索系统和山西省政府办公厅和太原市政府办公厅信息处理系统所采用。电子部计算机与微电子技术发展研究中心(CCID)中文信息处理开放实验室(CIPOL)张潮生等研制了中文全文检索系统ITR,该系统可以对各种文本型资料和某些数据库的文件进行操作,避免了传统检索系统只能检索主题词,而对主题词之外的信息无能为力的局限。该系统现在能够检索一切输入文本,对原始文献里的字符无特别限制,可以处理各种通用的字符。此外,上海交通大学建立了“法律条目全文数据库”,陕西省中医研究院建立了中医经典古籍《素问》《灵枢》《甲乙》《难经》的全文数据库,江苏省中医研究所建立了《伤寒论》《金匾要略》《脾胃论》等20余本中医占籍的全文数据库,深圳大学建立了古典文学名著《红楼梦》的全文数据库。所有这些全文数据库都为用户提供了有效的检索服务,也为汉字全文检索系统的进一步发展奠定了基础。 

  全文文本检索是西文情报检索软件普遍实现的基本功能。瑞典的PROLOG公司研制的TRIP全文检索软件具有全面的全文文本检索功能1988,中国科技信息研究所与该公司合作,实现了TRIP系统的汉化。汉化TRIP系统的特点是:以每个汉字单字切分(最简单的汉语朽面语自动切分)实现全文检索功能,可按字段(作者、标题、分类、日期、标引词等)检索,可用命令方式和菜单方式检索,可在主题词控制下进行检索。这一系统的缺点是空间开销偏高,不能自动抽出关键词。目前这一系统只能在VAX/VMS计算机上运行,有一定的局限性。该系统已在中国科技信息研究所用于建立“中国学术会议论文数据库”和“中文科技期刊联合目录系统”,又被北方交通大学用来为《经济日报》建立了“《经济日报》新闻资料检索系统”。汉化TRIP全文检索系统的开发和应用,为中文全文文本的检索提供了可行的技术途径和有益的实践经验。如果以汉化TRIP全文文本检索系统为基础,在系统的存贮部分适当地增加关键词自动抽词功能,在系统的检索部分适当增加后控主题词表的管理和检索功能,将大大地提高这一软件对中文全文检索的适应能力。 

  (本文摘自冯志伟(2001)“汉字和汉语的计算机处理”) 

分享到: 0 转载请注明来源:中国社会科学网 (责编:王婷婷)
W020180116412817190956.jpg
用户昵称:  (您填写的昵称将出现在评论列表中)  匿名
 验证码 
所有评论仅代表网友意见
最新发表的评论0条,总共0 查看全部评论

回到频道首页
QQ图片20180105134100.jpg
jrtt.jpg
wxgzh.jpg
777.jpg
内文页广告3(手机版).jpg
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们