中文自动分词在seo优化中的作用

中文自动分词在seo优化中的作用

ID:24789217

大小:49.00 KB

页数:4页

时间:2018-11-15

中文自动分词在seo优化中的作用_第1页
中文自动分词在seo优化中的作用_第2页
中文自动分词在seo优化中的作用_第3页
中文自动分词在seo优化中的作用_第4页
资源描述:

《中文自动分词在seo优化中的作用》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、中文自动分词在SEO优化中的作用>>edu.5151doc.教育资源库中文自动分词是网页分析的基础。在网页分析的过程中,中文与英文的处理方式是不同的,这是因为中文信息与英文信息有一个明显的差别:英文单词之间有空格,而中文文本中词与词之间没有分割符。这就要求在对中文网页进行分析之前,先要将网页中的句子切割成一个个的词的序列,这就是中文分词。中文自动分词涉及到许多自然语言处理技术和评价标准,在搜索引擎中,我们主要关心中文自动分词的速度和准确度。分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理

2、数以亿计的网页,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。因此,搜索引擎对分词的准确性和速度都提出了很高的要求。目前,中文自动分词比较成熟的技术是基于分词词典的机械分词方法。这种方法是按照一定的策略将要分析的汉字串与词典中的词条进行匹配。根据匹配策略的不同,机械分词方法又有如下几种算法:正向最大匹配算法、逆向最大匹配算法、最少分词算法等。这种方法的优点是分词的速度快,准确度有一定的保证,但对未登录词的处理效果较差。实验结果表明:正向最大匹配的错误率为1/169左右,逆向最大匹配的错误率为1/245左右。另一种比较常用的中文自动分词方法是基于统

3、计的分词方法,这种方法是对语料中的字组频度进行统计,不需要切分词典,因此也称为无词典分词方法。但该方法经常把不是词的常用字组当成词,对常用词的识别精度较差,时空开销也比较大。在搜索引擎领域的实际应用中,一般将机械分词方法与统计分词方法相结合,先进行串匹配分词,然后使用统计方法识别一些未登录的新词,这样既发挥了匹配分词速度快、效率高的优势,又利用了统计分词中新词自动识别和自动消除分词歧义的特点。分词词典是影响中文自动分词的一个重要因素,其规模一般在6万条词左右,词典太大或太小都是不合适的;辞典太小,有些词切分不出来,辞典太大,切分过程中起义现象将大大增加,同样

4、影响分词的精度。因此,分词词典中词条的选择是非常严格的。对于不断出现新词的网络领域,仅仅使用6万条词左右的分词词典是不够的,但随意向分词词典中加入新词将导致分词精度下降,一般的解决方法是使用辅助词典,其规模在50万词条左右。另外,中文自动分词的难点在于分词歧义的处理和未登录词的识别,如何处理这两个问题一直是该领域研究的热点。  在seo优化中,了解搜索引擎是怎么准确的去进行合理的分词,搜索引擎又是怎么去准确定位到某一关键字上。这些seo优化知识对于seo优化人员来说,应该要了解一下。搜索引擎不管它的算法在怎么复杂,它也都是由人去编写完成的,所以在复杂的算法也

5、都是具备人性化的一面。但对于搜索引擎分词这一系统,简单的说,搜索引擎就像本词典,这本词典会聚了我们日常生活中常用的词汇。当一个网页中的词汇与搜索引擎这本词典中的词汇相匹配,那么这样就可以得到我们常说的关键字或一个日常生活中常用的短语。如果有些词在搜索引擎中不存在,那该怎么办?遇到这种情况,搜索引擎会通过自身的统计,把统计中搜索引擎量高的(例如:驴妈妈如下图)这个词开始在搜索引擎字典中,肯定是没有的,但是后来搜索驴妈妈这个词多了,那么搜索引擎自然回把这个次注入到搜索引擎字典中,从而得到自我补充,更新新的词汇,这样也是方便拥护寻找起信息。(人性化)  举个简单的

6、例子,就以个人博客标题为例。如下图  标题是:seo优化技术按常理这句短语可以分成多个词组,如:seo,优化,技术,seo优化,seo技术,优化技术,seo优化技术,这些按常人字典里,可能就会解出这些词组。而搜索引擎字典中也于之匹配,那么关键字自然会定位到这几个词组上面,至于在搜索引擎排名又是一回事,这里只是说分词。这些也都是符合常里的,搜索引擎也不会去改变常里。同时这也是seo优化人员在优化某关键字时,尽量把关键字包含在标题中或描述中的原因,当然了,对于搜索引擎分词系统也要看开发者对不同语言的日常用语的理解。  再看下图,这张图中的输入的关键字,是老家的一

7、个方言。搜索引擎返回的是没有找到于知想匹配的页面,这个是肯定的,因为中国语言是以汉语为基础,而不是这个方言。这里重要是要说明一下.我们在选用关键词,最好是选择我们生活日常常用的,除非你是要做某一品牌,就像“驴妈妈”这个关键词。  以上的也只是个人对搜索引擎分词的分析观点,或对或错,也不在乎,希望有对搜索引擎分词研究深的指点。但是肯定有点是对的,搜索引擎对事物的理解,还是脱不了人们日常生活用语。  本文首发:.yushiqing.。[这篇文章来自..,]

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。