欢迎来到天天文库
浏览记录
ID:34275460
大小:2.37 MB
页数:6页
时间:2019-03-04
《国家语言资源监测与研究中心络媒体语言分中心》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、国家语言资源监测与研究中心网络媒体语言分中心NationalLanguageResourcesMonitoringandResearchCenter(CNLR)NetworkMediaLanguageBranchhttp://pop.clr.org.cn/分中心简介国家语言资源监测与研究中心网络媒体语言分中心成立于2005年2月,由教育部语言文字信息管理司与华中师范大学共建。建设目标:形成网络媒体语言资源监测的常态机制,构建动态、实时的超大规模网络媒体监测语料库,及时跟踪分析国家网络媒体语言生活实态,开展基于内容的信息检索
2、及内容服务研究、服务于国家网络文化安全、国家语言政策制定、中文信息处理、语言教学与语言研究、数字化学习行为监测等。主要工作1.年度汉语盘点“汉语盘点-用一个字、一个词描述中国和世界”网络征集活动由国家语言资源监测与研究中心网络媒体语言分中心、商务印书馆、新浪网联合主办。该活动自2006年启动实施,已成功举行了五届。u2006年,“炒”、“和谐”与“乱”、“石油”分别当选中国和世界的关键字、词。u2007年,“涨”、“民生”与“油”、“全球变暖”分别当选中国和世界的关键字、词u2008年,“和”、“改革开放30年”与“争”、
3、“华尔街风暴”分别当选中国和世界的关键字、词u2009年,“被”、“民生”与“浮”、“金融危机”分别当选中国和世界的关键字、词u2010年,涨”、“给力”与“乱”、“军演”分别当选中国和世界的关键字、词。2.网络舆情监测(1)网络媒体监测语料库建设本中心从2005年开始建设汉语网络媒体语料库,提出了面向论坛、博客、及新闻语料的适应性采集策略,实现了异构网络媒体语料的有效获取。目前语料库规模已超过两千万篇,超过187亿字符次,且每年以近200万篇的速度增加。(2)网络媒体监测分析系统该系统提供模板化的信息采集定制方式,可以用
4、户指定的网站作为信息来源,并可根据用户自定义的主题采集信息。同时,该系统提供基于自然语言处理技术的深层次数据挖掘及监测方式,可依据不同主题内容进行深度分析、挖掘,并支持实时的信息检索、分析、过滤,以及支持历时的信息对比、趋势分析,为政府政策的制定及企业决策提供更加全面客观的依据。网络媒体监测系统话题定制与分析网络热点事件自动跟踪网络新词和流行词发现(3)网络媒体语言统计分析调查基于网络媒体监测语料库,对网络语言进行定量的统计与定性的分析,参与撰写《中国语言生活状况报告》,已发布的一系列报告反映了网络媒体语言的最新变化。u《
5、中国语言生活状况报告2005》“高校网络媒体BBS用字用语调查报告”u《中国语言生活状况报告2006》“中文网络用字用语调查报告”“中文博客用字用语专项调查报告”“中文BBS用字用语专项调查报告”参与汉语年度新词语的调查报告u《中国语言生活状况报告2007》“中文网络用字用语调查报告”“年度关键、词语及解读”参与年度流行语与新词语的调查报告u《中国语言生活状况报告2008》“中文网络用字用语专项调查报告”参与年度流行语与年新词语的调查报告u《中国语言生活状况报告2009》“中文网络用字用语调查报告”“中文博客专项调查”参与
6、年度流行语与年新词语的调查报告(4)校园网络内容监测开发了校园网络安全监测与管理系统,能够自动识别、阻断色情网页,根据校园BBS和学生访问的网页信息,分析学生关注的热点,维护校园和谐稳定。主要成果1.科研项目国家十一五科技支撑计划课题国家自然科学基金项目5项国家社会科学基金项目4项教育部、外国专家局111创新引智计划教育部科学技术研究重点项目国家语言文字应用科研项目3项国家“973”项目子课题教育部人文社科项目教育部社科重大招标课题3项霍英东青年基金湖北省创新团队计划湖北省自然科学基金武汉市晨光计划项目2.软件成果开发了中
7、文信息处理构件工具包,包含中文自动分词、术语抽取、词义消歧、文本分类等工具软件,开展了命名实体语义关系自动抽取、特定领域本体自动构造、自动文摘、自动问答、信息检索、情感计算等方面的研究,形成了一系列具有自主知识产权的成果。u专利一种基于神经网络的中文问答系统u软件著作权中文信息处理构件工具包社区论坛通用爬虫系统监测语料库建立系统热点事件查询系统基于检索的英文自动摘要系统基于热点事件的中文文摘系统面向查询的多模式自动文摘系统基于中心概念的文本聚类系统生物医学类缩写词典自动生成系统u软件系统自动分词、术语抽取、词义消歧、文本分
8、类工具自动文摘、智能问答、全文检索系统
此文档下载收益归作者所有