中文分词在标准检索中的应用

中文分词在标准检索中的应用

ID:38740892

大小:48.00 KB

页数:6页

时间:2019-06-18

中文分词在标准检索中的应用_第1页
中文分词在标准检索中的应用_第2页
中文分词在标准检索中的应用_第3页
中文分词在标准检索中的应用_第4页
中文分词在标准检索中的应用_第5页
资源描述:

《中文分词在标准检索中的应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、中文分词在标准信息检索中的应用近年来,随着“三证合一、一照一码”、“企业标准声明公开”等政策的逐步落实,标准专业机构纷纷打破原有的工作模式,加大了对标准在人员、资金、科研等方面的投入,带来了全新的标准服务模式,如浙江标准化院推出综合性标准服务平台和企业版标准信息管理系统,极大地方便了标准人员的工作。在这些标准服务平台和信息管理系统中,使用最多的功能是标准题录信息的检索,涉及中文检索的内容主要有标准中文名称、摘要和全文。中文中的词语是由汉字组成的最小的有意义的语句单位,词语之间没有明显的区分标记,而英文单词之间是以空

2、格作为自然分界符。现代中文里,双音节词语占的比重最大,也有单音节词语,如口、厂、洗、染。中文分词是将连续的汉字序列按照一定的规范重新组合成词语序列的过程,主要应用于智能搜索领域,如百度、搜狗等网站的搜索功能。本文介绍如何通过建立简易标准分词词典库,然后运用基于该标准词典库的三种分词方法对输入的检索语句进行分词,最后依据这些分词检索标准的中文名称。本文选取国家标准化管理委员会网站公布的4.88万条国家标准(含废止)构建标准检索库,选取环境保护类的国家强制性标准166条,构建简易标准分词词典库(以下简称标准词典库)。分

3、词原则主要选取双音节词语,如果截取一个词语影响语义则选择不截取,如“排放口”不截取成“排放”和“口”,后两个词虽然有独立语义,但合在一起表达的意思更完整,类似词语还有“发动机”、“固体废物”、“汽车压件”等。这些国家标准中文名称进行人工分词后的全部词语有323个,出现次数较多的前30个词语参见表1。词语次数(个)词语次数(个)词语次数(个)词语次数(个)标准118排放98污染物93工业58水33环境28控制26限值26方法25测量23大气17废物17保护15汽车14原料13用作13固体废物13进口13鉴别11阶段1

4、0噪声10中国10危险10排气10污染8质量8摩托车7海洋7废7发动机7表1标准词典库部分词语及在166个国家标准中出现的次数中文分词方法有许多种,本文介绍正向最大匹配法、逆向最大匹配法和双向最大匹配法三种。最大匹配法是指假设分词词典库中的最长词有i个汉字,取待处理检索语句的前i个汉字作为匹配词语,在分词词典库中检索。如果能检索到,将该i个汉字截取出来,剩余汉字开始匹配。如果不能检索到,将该匹配词语的最后一个汉字去掉,对其余i-1个汉字重新在分词词典库中检索。重复以上步骤,直到该匹配词语能检索到或者只剩一个汉字。以

5、此类推,待处理检索语句的其余汉字也做同样方法的匹配,直到匹配完所有的词语或汉字。正向匹配法是指从前向后匹配词语,逆向匹配法是指从后向前匹配词语,双向匹配法是指用正向匹配法和逆向匹配法分别匹配词语,如果匹配结果相同,采用这些分词词语;如果匹配结果不相同,采用总词语数最少或者优化后的词语最少的分词词语。下面,以输入国家标准GB/T1.1-2009的中文名称“标准化工作导则第1部分:标准的结构和编写”为例,说明上述三种匹配方法的实现过程。标准词典库中的最长词是“混装制剂类”5个汉字,最大匹配字数就是5个汉字,每次检索相应

6、减少1个汉字,直到检索完成。如果待处理中文语句中有空格、数字、标点符号等自然分隔符,优先截取这些符号之前的语句作为检索词语,进行匹配。1、正向最大匹配法的分词过程:从前向后截取5个汉字是“标准化工作”,在标准词典库中检索。能检索到,再从第6个汉字截取5个汉字;不能检索到,则把“标准化工作”每次从后面减少1个汉字。第1次检索词:“标准化工作”,5字词典不能检索到;第2次检索词:“标准化工”,4字词典不能检索到;第3次检索词:“标准化”,3字词典不能检索到;第4次检索词:“标准”,2字词典中能检索到。第1次分词完成,找

7、到词语“标准”,剩余检索语句“化工作导则第1部分:标准的结构和编写”。以此类推,最后的分词结果是“标准/化/工/作/导/则/第1/部分/标准/的/结/构/和/编/写”。其中,“标准/第1/部分/标准”词语属于词典词。因为标准词典库的不完善,导致“工作/导则/结构/编写”词语没有被截取,这类词语属于非词典词。2、逆向最大匹配法的分词过程:从后向前截取5个汉字是“结构和编写”,在标准词典库中检索。能检索到,再从倒数第6个汉字向前截取5个汉字;不能检索到,则把“结构和编写”每次从前面减少1个汉字。第1次检索词:“结构和编

8、写”,5字词典不能检索到;第2次检索词:“构和编写”,4字词典不能检索到;第3次检索词:“和编写”,3字词典不能检索到;第4次检索词:“编写”,2字词典不能检索到;第5次检索词:“写”,1字词典不能检索到;第1次分词完成,没有找到词语。第2次分词截取5个字符为“的结构和编”,以此类推,最后的分词结果是“标准/化/工/作/导/则/第1/部分/标准/的/结/构/

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。