内容摘要:语言监测是一项以语言学和应用语言学以及相关理论为指导、信息处理技术为主要手段、田野调查为基本方法的多学科学者参与的大规模的社会性语言工程,目的是及时反映语言生活状况,描述语言使用实态,以便对语言这种资源进行更好的开发和利用。这些反映语言生活的语言资源是语言监测的基础,是语言监测的生命所在。二实践与成果在大规模语料库的基础上,我们做了一系列语言使用实态的调查,包括通用语媒体用字用语调查、新词语调查、字母词调查、网络新媒体语言调查、教材语言调查、少数民族语言调查,获得了很多宝贵的语言数据,发现了一些语言使用的规律。语言监测框架体系将语言监测分为自底向上、前后衔接的四个模块:语言资源—技术平台—监测数据—实现服务。
关键词:语言;监测;词语;语料;使用;媒体;教材;调查;汉语;汉字
作者简介:
内容提要:
语言监测是一项以语言学和应用语言学以及相关理论为指导、信息处理技术为主要手段、田野调查为基本方法的多学科学者参与的大规模的社会性语言工程。作为语言工程的中国语言监测研究已经走过了十年的历程。语言监测主要包括“语言+计量+社会”三个基本元素:运用计量手段,描述语言,反映社会。本文从机构与资源、实践与成果、理论与技术、语言服务四个方面简要介绍十年来中国语言监测研究的状况。
Language monitoring is a large-scale social language engineering with scholars in multi disciplines involved,guided by linguistics,applied linguistics and related theories,and assisted by information processing technology and field survey as the main research method.It has been 10 years since the language monitoring research started as language engineering.Language monitoring mainly includes three basic elements,namely language,measurement and society,and uses measurement tools to descript language and reflect the society.This paper reviews language monitoring in China in the past ten years from the four aspects,i.e.,institutions and resources,practices and outcomes,theory and technology,language services.
关 键 词:
语言监测/语言资源/语言调查/语言服务 language monitoring/language resources/language survey/language service
作者简介:
侯敏,中国传媒大学教授,博士生导师,主要研究计算语言学、语言监测(北京 100024);杨尔弘,北京语言大学教授,主要研究计算语言学、语言资源建设与语言监测(北京 100083)。
语言监测是一项以语言学和应用语言学以及相关理论为指导、信息处理技术为主要手段、田野调查为基本方法的多学科学者参与的大规模的社会性语言工程,目的是及时反映语言生活状况,描述语言使用实态,以便对语言这种资源进行更好的开发和利用,实现保护语言生态、创建和谐语言生活的目标。中国的语言监测工程实施是从2005年开始的,迄今为止已经走过了十年。
一 机构和资源
中国的语言监测是在政府的支持和指导下开展工作的。2004年在教育部语言文字信息管理司的指导下,成立了国家语言资源监测与研究中心,教育部语信司分别与北京语言大学、中国传媒大学、华中师范大学、厦门大学、中央民族大学、暨南大学共建了平面媒体、有声媒体、网络媒体、教育教材、少数民族语言、海外华语六个分中心①。语言监测对象涵盖了最能代表大众语感的大众媒体和对一个民族语言发展影响最大的基础教育,既包括国家通用语言,也包括少数民族语言。
语言监测工作主要是在国家语言监测语料库上展开。国家语言监测语料库包括三个子库:通用语媒体语料库、教育教材语料库和少数民族语言语料库。教育教材语料库已搜集了1900万字的教材语料;少数民族语料目前包含藏语、维吾尔语、哈萨克语、柯尔克孜语、蒙古语等语种,各语种的语料以每年2亿字词的规模增长;通用语媒体语料库分为平面媒体、有声媒体、网络媒体三个子库,每年以10亿字次的规模滚动建设,根据流通度来选择那些具有典型性和代表性的不同媒体中的语料。这些具有动态、流通特性的语料,记录了大众传媒的语言实态,反映了语言生活,是实施语言监测各项任务的基础资源。
这些反映语言生活的语言资源是语言监测的基础,是语言监测的生命所在。正是在国家语言监测语料库的基础上,我们完成了一个又一个语言监测项目,获得了语言监测的成果。







