分词技术搜索引擎排名的重要因素

分词技术搜索引擎排名的重要因素

ID:23162685

大小:50.50 KB

页数:5页

时间:2018-11-04

分词技术搜索引擎排名的重要因素_第1页
分词技术搜索引擎排名的重要因素_第2页
分词技术搜索引擎排名的重要因素_第3页
分词技术搜索引擎排名的重要因素_第4页
分词技术搜索引擎排名的重要因素_第5页
资源描述:

《分词技术搜索引擎排名的重要因素》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、分词技术搜索引擎排名的重要因素>>edu.5151doc.教育资源库  很多站长都试图通过SEO为自己的网站获得一个良好排名,于是在网络上搜索各种不同的SEO技术。网络上虽说有各种各样的SEO技术,但这些技术可以说是五花八门,没有一个标准,甚至经常会看到各种观点是相对的,有时更是一个公说公有理,婆说婆有理的,搞得我们很多站长不知听哪个得好,只得把自己的站当作小白鼠一样来做实验,最很往往弄得得不偿失!其实我们做SEO时最好要了解一些基本的知识,这些就如一座大厦的基石一样,你看到的只有高楼,但没有基石,高楼是立不稳的~!今天我们就来谈谈搜索引擎排行的基石之一:分词技术。  现在网站满天飞,垃圾站也

2、到处都是,SEO说是一门很简单的技术,那只是相对于什么博士,数学专家来说简单,如果你叫一个工人来做的话那就是一门复杂的技术了,好了不说那么多了现在关于SEO的文章,网上也写了很多了,但是都是一些实际摸不到的东西,今天我就来谈一谈有用一点的东西,也是为了让大家BS一下那些随便发一点文章就叫SEO技术的!今天我主要来讲一讲关键字~现在只要是搞SEO的人都晓得关键字的重要性,但是有几个人知道你自己关键字有多少的权重,搜索引擎又是怎么收录你的关键字的呢,今天我们就主要讲一下关键字的分词技术。  首先我们要做的是确定自己的主要关键字!就拿"人才网""人才网络"为关键字比喻吧!如果大家对搜索的分词没有进行

3、研究的话大家也许看不出其中的区别,但是大家如果放到百度里面搜索一下就可以看出里面的问题了,百度对"人才网""人才网络"两个词分词分出来的结果是不一样的,这个是因为百度有自己的书库词库,搜索结果大家也就看到了"人才网"当成了一个整体,没有被拆分而"人才网络"被拆分为"人才"和"网络"两个不同的词,这样的别人在搜索人才网的时候肯定是找不到"人才网络"的页面了。  今天我首先来说一下百度分词的标准分词规则,这里我们就以"中国成立60周年"这个关键字为例:  首先你的正文中第一个出现的是"中国"这个词的话,那么页面上的关键字"中国成立60周年"就会被分成"中国""成立60周年",如果是这样的话,搜索的

4、人只有输入"中国""成立60周年"其中一个才能找到你的网站,如果输入的是中国成立60年的话是找不到你的网站的!这里要注意的一点就是如果你是做"中国成立60周年"这个关键字,那么你是URL就应该出现与这个关键字相匹配的内容,如果关键字在你的URL里面都有的话,那么你的收录就会比没有关键字匹配更有优势!  我在说一下关键字没有完全匹配的情况下的问题,如"中国成立60周年",这个关键字以分词的形式出现在两个页面里,  页面A只正文中第一次出现的现分词是"中国",这个页面一次也没有出现"成立60周年"这个分词。  页面B则出现"中国""成立60周年"这2个分词,正文中第一次出现的现分词是"成立60周年

5、"。虽然页面B是在关键词完全匹配的情况下的,但是A页面还是会排在B页面的前面,这里我就是要提醒大家关键词前半部分的重要性。  相信大部分站长都听过个种技术,有些也有相当的了解。其实分词技术并不高深,它虽在操作上有些抽像,但他应该是比较好理解的。分词就是把一串字符序列切分成一个一个单独的词。分词包括英文分词,中文分词等,我们这里主要讲的是中文分词(Chineseentation)。中文分词应用很广,特别是在搜索引擎中,它的主要目的是为了对一段文字进行文本挖掘,以达到让电脑自动识别语句的含义。这样我们就不难理解,为什么我们在百度,GOOGLE这些搜索引擎中输入一些文字,它们就能提供出相似的一些结果

6、出来让我们来参考选择。其实这些引擎也是能过分词技术把你所输的信息分词,以达到“理解”你所要信息的“真正含义”。虽说有时电脑得出的结果并非你所要的,但这是无法避免的,有时可能是你的表达有误,有时可能是这些搜索引擎的分词并不完美。  在分词技术中,有一种开发人员常用的指标方法叫TF-IDF(termfrequency–inverseumentfrequency),是一种用于信息搜索和信息挖掘的常用加权技术.其中TF词频(TermFrequency)指的是某一个给定的词语在该文件中出现的次数,而IDF是反文档频率(InverseDocumentFrequency)的主要思想是:如果包含词条的文档越少

7、,IDF越大,则说明词条具有很好的类别区分能力。使用TF*IDF可以计算某个关键字在某篇文章里面的重要性,因而识别这篇文章的主要含义,实现计算机读懂文章的功能。这种技术说直白一点就用这些指标来判断一段信息中某个词的重要性到底如何?在搜索引擎中也是通过这些指标来排列您所要找的资料。我们作为SEOer,反过来逆推,就能得知,如果我们能对分词技术有一定理解的话,在设置关键词,描述,文章,标签时,就能结合

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。