电子商务搜索引擎论文:电子商务搜索引擎中文分词算法分析

电子商务搜索引擎论文:电子商务搜索引擎中文分词算法分析

ID:9644955

大小:79.00 KB

页数:9页

时间:2018-05-04

电子商务搜索引擎论文:电子商务搜索引擎中文分词算法分析_第1页
电子商务搜索引擎论文:电子商务搜索引擎中文分词算法分析_第2页
电子商务搜索引擎论文:电子商务搜索引擎中文分词算法分析_第3页
电子商务搜索引擎论文:电子商务搜索引擎中文分词算法分析_第4页
电子商务搜索引擎论文:电子商务搜索引擎中文分词算法分析_第5页
资源描述:

《电子商务搜索引擎论文:电子商务搜索引擎中文分词算法分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、电子商务搜索引擎论文:电子商务搜索引擎中文分词算法分析摘 要:本文提出了电子商务行业搜索引擎的概念,通过对通用搜索引擎技术进行分析,结合电子商务行业对搜索引擎的需求提出需要改进的部分,并设计出一个电子商务行业搜索引擎整体结构;此外,讨论了几种搜索引擎的中文分词算法,结合电子商务行业的特点对分词算法进行了改进,提出一种适用于电子商务行业搜索应用的全新分词系统。最后,结合整体结构与分词系统并利用已有的网络开源项目,实现了一个电子商务行业搜索引擎。关键词:搜索引擎;中文分词;电子商务0引言随着互联网的迅速发展,电子商务让消费方式变

2、得更为快捷,更多的人涌向网上商店,网络市场前景巨大,拥有更为广阔的发展空间。面对海量的网络信息资源,人们可以通过传统的搜索引擎,如Google、百度、中搜等,方便快捷地获取所需商业信息。尽管通用搜索引擎的功能非常强大,但是对于检索某一特定行业的信息时,通用型搜索引擎对信息的挖掘深度不够。查询一个行业的网络信息如果没有优秀的专业检索工具,没有体现行业独特的词汇和用语以及相应的标引和检索语言,检索结果就不可能理想。因此,建立面向特定行业领域的专业性搜索引擎已经成为搜索引擎新的发展趋势。本文就是在深入研究通用搜索引擎的基础上,设计

3、开发出适合电子商务行业的搜索引擎。1技术挑战中文自动分词是中文信息处理的一项重要的基础性工作,以中文作为信息的载体的语言文字信息处理已经成为我国信息化建设的“瓶颈”。许多中文信息处理项目中都涉及到分词问题,如机器翻译、自动文摘、自动分类、中文文献库全文检索、搜索引擎等。由于中文文本是按句连写的,词之间没有空格,因而在中文文本处理中,首先遇到的问题是分词的问题。词的正确切分是进行中文文本处理的必要条件。在电子商务需求的强大动力推动下,自动分词已经成为中文信息处理的一个前沿课题。中文分词技术的优劣直接关系到搜索引擎的效率,建立电

4、子商务行业搜索引擎需要解决好其中的中文分词模块,选择适合行业特点的中文分词技术来构建中文分词模块是一项极其重要的基础性工作。如何面向大规模开发应用是中文分词研究亟待解决的主要问题。目前看来,在处理大规模开发文本时,中文分词系统还将面临以下困难:1)如何识别未登录词。由于不存在绝对完备的词典,尽管一般的词典都能覆盖大多数的词语,但是有相当一部份的词语不可能穷尽地收录到系统词典中,这些词语称为未登录词或新词;2)如何廉价高效地获取分词规则是中文分词系统设计中不可忽视的问题之一;3)词语边界歧义。对于一个指定的中文句子或汉字串,有

5、多种词语边界划分形式。2分词系统的原理及设计迫于中文信息处理的重要性,来自语言学界、人工智能领域和情报检索界的专家学者们,在汉语自动分词与自动标引的研究与实践上进行了大量的研究,找到了许多解决汉语分词的方法。现有的分词算法可分为三大类[1]:1)基于字符串匹配的分词方法;2)基于理解的分词方法;3)基于统计的分词方法。目前国内一些大学及科研组织已经开发的每一个分词系统都有各自的分词词表,词表之间的差别也是较大的。对于分词的歧义处理,已经进行了比较深入的研究,人们通过统计和规则相结合的方法,使得歧义字段的正确切分达到了较高的水

6、平,同时也认识到歧义的解决需要细致的、个性化的知识积累;另一方面,无论词表规模多么大,未登录词语的存在是必然的。因此,与分词的歧义处理相比较,未登录词语的处理成为影响分词正确率的最主要、最直接的因素,这也是当前的一个研究热点。53的任务是找出输入字串中所有在词典中出现的词并把每个词添加到切分词图中。接下来是时间数词识别,它的输入是原子序列,利用自动机的方法找出输入字串中出现的数词和时间词并添加到切分词图中。然后根据以上几个阶段建立的切分词图生成N条最优的分词序列,以此作为接下来的人名识别和地名识别的输入。人名识别和地名识别对

7、每一条分词序列进行角色标注,从角色标注结果序列中找出所有可能的人名和地名并添加到切分词图中。至此,整个切分词图建立完毕,根据这个切分词图,寻找出一条最优的路径作为最后的分词结果序列。最后,将分词结果作为最后的分词系统的输出结果[4]。下面给出ZS算法的伪代码:ZSEGMENT(A[1..n])1WordLatticeSegment(A[1..n])//调用词网格分词2AddalleveryatomtoSegmentGraph1//添加原子到切分词图3CompleteSegment([atom1..atomm])//调用全切分

8、函数4fori=1tom5iffind(Dictionary,atomi)=TRUE6thenaddatomiintoSegmentGraph27//时间数词识别8Automata([atom1..atomm])9findtimeandnumberwordsinatomi10addthem

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。