让中文信息处理与世界同步

让中文信息处理与世界同步

ID:38039858

大小:19.70 KB

页数:5页

时间:2019-05-24

让中文信息处理与世界同步_第1页
让中文信息处理与世界同步_第2页
让中文信息处理与世界同步_第3页
让中文信息处理与世界同步_第4页
让中文信息处理与世界同步_第5页
资源描述:

《让中文信息处理与世界同步》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、让中文信息处理与世界同步-专访海量科技前言:四十人的公司中有近十人从事基础研究,他们研究的汉语自动分词技术取得突破性进展,在北大人民日报一千多万汉字的人工语料上测试,分词准确率达到99.5%以上。原美国朗讯科技总公司副总裁叶祖禹博士以个人身份投资入股并出任公司董事,原Intel中国研究中心周富秋博士出任公司董事。这些都来自于一家天津的软件公司-海量科技。“如果中文能像英文一样词之间也有空格,那我们公司也就不存在了。”海量科技总经理郝玺龙口中说这句话的时候,他显得轻松。然而,就是这样一个看似简单的问题却给中文处理带来了巨大的包袱,使得中文

2、处理很难达到英文那样易用、精确的水平,并制约着很多中文应用领域,从中文智能信息处理到检索、分类,甚至到中文输入法,分词都成为了最大的绊脚石。“没有中文分词,其他一切深入的中文信息处理都无从谈起。”一位专家这样说。正因为如此,国家投入了大量的人力物力研究中文分词技术。然而几十年过去了,中文分词准确率仍然在97%以下徘徊,而这3%的差误率便让很多中文信息智能处理的下一步工作无法开展。2001年10月的一天,在Intel中国研究中心会议室,当中心副主任周富秋博士看到海量的分词演示效果时,非常惊讶。周博士是世界上著名的自然语言理解科学家,手下有

3、来自多所著名学府的不同学术流派的博士。其中多项研究都是基于中文分词的应用技术,他深知该技术的难度。2002年,周富秋博士成为海量科技董事会董事。虽然现在他已经担任中兴通讯主管软件的副总裁,但只要一有机会,周富秋博士就指点海量智能计算技术的基础研究。初步研究分词技术到底海量科技是如何起步,瞄上中文分词技术的呢?这要从海量的总经理郝玺龙说起。郝玺龙上大学时学的是情报专业,毕业后在一家上市公司作投资分析工作。1997年他开始构思自己的证券情报咨询服务,他知道分析工作必须基于庞大情报数据库。然而,实际操作中他发现中文情报资料库无法实现有效的查找

4、,细究根源,竟然发现分词技术是整个中文信息处理的瓶颈。在看过一些相关的资料和实例后,郝玺龙觉得有些思路,便开始在家里尝试。随着研究的深入,他逐渐意识到中文分词技术的价值远高于情报咨询。当时的中文分词技术一般都是通过与词典的对比来区分词,而郝玺龙手头没有一个数字化的词典,打字速度也不快,于是他决定从另外的角度出发,研究没有词典的分词技术。当然这个研究开始并不顺利。不过,一个偶然的机会,电视上播放原教育部副部长韦珏谈中国基因技术取得突破并申请专利的节目。韦珏举了一个例子:把基因片段从一个完整的DNA序列中分离出来,很难去切割,因为对一个基因

5、序列来说,既没有尺,又没有刀。而中国的研究者提出了一种方法,将基因片段按照基本单元堆积,然后进行校验,使整体上分割的基因达到一个动态的最优。相当于假设很多片段,虽然它们之间有交迭,但每个片段都有独立性和完整性。最后再进行模型校验,从整体上判断是否具有完整性。通过这种方法证明每个基因的排列都是恰当的,实现基因片段的正确分割。听到这里,郝玺龙有些激动,因为这与在一个句子中如何判断和分词是异曲同工。采用这种理论,又经过了长时间研究,他们创建了自己的中文分词算法。不过,在测试的过程发现了一个问题,这就是一些很难识别的词可能识别很准确,但容易识别

6、的词却识别不对。于是,他们又引入了词典,并创建了一个动态分析的算法,叫无缝分析。这时他们的中文分词准确率一下就提升到了满意的效果。有了这些突破,郝玺龙和其他两位创始人在1999年10月份注册了海量科技公司,主要以研究中文分词技术并实现应用化为主。分词也是工程问题郝玺龙表示,他们是以技术为核心的公司,核心团队尽管都不是专业出身,没有在学校进行过这方面的研究,但这也让它们摆脱了以前各种思想的束缚。难理解的是,做中文分词却要摆脱“词”的束缚。郝玺龙表示,因为在汉语中“词”并没有一个准确的定义,有时候很难说这是不是一个词。其实分词是一种底层技术

7、,其目的不是只为分词,而是为了如何更好应用。如果思想只限制在“词”这个层次,那一定会被“什么是词”这个无法得到答案的问题所束缚和迷惑。举个例子:‘鸡蛋’、‘鸭蛋’、‘照明’、‘照亮’这些词语,用户和专家的看法就不一样。在海量内部的理论研究小组,早就不叫分词,他们用更严格的叫法:切分单位的描述与识别。至于什么被定为单位就由应用来确定。就像《笑傲江湖》中令狐冲“无招胜有招”一样,当我们还在沉迷于“招式”奇妙的时候,又如何能够体会到武学的真谛呢!摆脱了学术上的束缚,思想便得到了解放。海量科技在切分单位处理问题上提出了独特的看法:在不同应用中应

8、该有不同的分词标准。首先,各种应用对分词要求的颗粒度(切分单位的细致程度)是不同的。比如自动分类、关键词抽取比搜索需要的分词颗粒度要大,因为这样表示文本语义特征时效果会更好,而检索有一个查全率的要求,就需要

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。