基于web的大规模语料库构建方法

基于web的大规模语料库构建方法

ID:33938979

大小:1.20 MB

页数:4页

时间:2019-02-28

基于web的大规模语料库构建方法_第1页
基于web的大规模语料库构建方法_第2页
基于web的大规模语料库构建方法_第3页
基于web的大规模语料库构建方法_第4页
资源描述:

《基于web的大规模语料库构建方法》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第34卷第7期计算机工程2008年4月Vol.34No.7ComputerEngineeringApril2008·博士论文·文章编号:1000—3428(2008)07—0041—03文献标识码:A中图分类号:TP391.1基于Web的大规模语料库构建方法李培峰,朱巧明,钱培德(苏州大学计算机科学和技术学院,苏州215006)摘要:低成本、短周期构建大规模语料库是目前研究工作的难点之一。该文提出一种建设大规模语料库的新方法,主要解决如何基于Web构建大规模的语料库及对语料库纠错,从而提高其质量。该方法利用网格技术的大规模计算能力与Wiki的开放编辑环境去收集和处理语料,根据

2、可信度模型挑选出不可信的语料并由人工进行校对,计算校对后结果的可信度,选择出最可信的结果作为正确语料存储到语料库中。关键词:大规模语料库;网格;可信度ConstructionApproachofLarge-scaleCorpusBasedonWebLIPei-feng,ZHUQiao-ming,QIANPei-de(SchoolofComputerScienceandTechnology,SoochowUniversity,Suzhou215006)【Abstract】Nowadays,it’shardtobuildalarge-scalecorpuswithlowcosta

3、ndshortperiod.AnewapproachisprovidedtobuildthatonWeb.Itmainlyfocusesonhowtobuildalarge-scalecorpusonWebandthenhowtocorrectthemistakesinthecorpus.ThelanguagematerialsarecollectedandprocessedbasedongridandWiki.TheuntrustworthylanguagematerialsinthecorpusarepickedouttobecheckedmanuallyonWikiac

4、cordingtotheirtrustworthiness.Afterthecheckfinishes,theapproachcalculatesthetrustworthinessofeachcheckedresultandselectsoneswithhighesttrustworthinessasthecorrectresult.【Keywords】largescalecorpus;grid;trustworthiness利用计算机来搜集、整理和加工语料从而形成语料建设提供计算和存储能力。生语料首先来自于Web网页,利库(corpus)是对语言文字进行研究的常用方法。语

5、料库是自然用网格技术,可以很方便地使多台计算机同时下载网页,从语言处理的关键技术之一,对它的研究始于20世纪70年代。而快速建设生语料库。该方法还可以结合自然语言处理技术到目前为止,国内外已经建设了大量的语料库,如Brown、对语料进行预处理,并利用网格的强大计算能力把生语料转[1]LOB、COBUILD、LONGMAN、BNC和ICE等。大多数语换成熟预料。另外还可以利用网格面向服务的理念,通过服料库所采用的建设方法是集中一批专家,花费大量的人力和务的形式指导具体应用对语料的访问。物力来搜集、整理和加工语料,最终形成语料库。所以,目Wiki实际上是一个开放的协作环境,基于W

6、iki来收集前语料库的构建普遍存在以下缺陷:人工参与过多,自动化语料和校对语料是语料库建设的一种较好的方法。首先这种程度不高;规模有限,代表性不够;成本大,周期长;灵活方法具有成本低、周期短、更新及时的特点。其次利用Wiki性差,对语料库的更新困难;适应性差,不能随着时间变化,可以使各国的用户都参与到语料库的建设中,从而可以建设自动适应当前的环境;不能实现个性化,语料库不能体现具多文种语料库。Wikipedia和WikiXMLCorpus就是两个成功体用户使用语言的特点等。的例子。目前,语料库研究的重点是在语料库内容、表达方式、利用前面的2种方法收集到的语料存在质量不高,错误

7、[2-3]组织结构和具体应用等方面,而对如何高效地构建大规模较多的缺陷。为此本文设计了一个计算模型,利用可信度来[6]语料库的研究却很少。但是大规模语料库是自然语言处理的进一步获得可靠的语料。[4]基础,因此,如何构建大规模语料库实际上是语料库建设2基于网格的语料库建设和发布模型中的一个核心问题,是语料库是否能低成本、短周期建设的本文设计了一个基于网格的大规模语料库建设和发布模关键。型,如图1所示。利用该模型不仅可以从多种途径收集语料1基本设计思想并进行并行化处理,还可以基于网格提供一个语料信息的发半自

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。