资源描述:
《面向组织内部的搜索引擎的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、面向组织内部的搜索引擎的设计与实现1、相关定义1.1、特定主题的描述与分词的定义本小节的目的在于对如何进行主题的描述和如何定义分词这两方面内容进行介绍。在本文所设计的网络信息挖掘系统中,采用了词频的权重计算方法,并且在该计算方法的基础上进行了一些改进。经过上一小节的介绍,已经对Web文档有了一定的认识,在Web文档中寻找与主题相关度较高的部分,这样可以针对这个特点对计算方法进行改进,达到适合本系统的目的。公式(2.3)如下:CW(t,d)[*W(t,d)*P(t,d)](2.3)其中,α表示的是词频权重在特征权重中所占的比例,同样的β表示的是
2、位置权重在特征权重中所占的比例。这里的α+β=1,表示传统TF-IDF方法[25]所得的权值。根据位置计算的权重用P(t,d)表示,P(t,d)用下面的公式(2.4)进行计算:Pt,d(wek*TF(t,d,ek))(2.4)ekTF(t,d,ek)中,t代表词组数量,d代表网页,ek表示网页中的影响特征权值的标记元素,则,TF(t,d,ek)表示了t在d中ek出现的次数。w(ek)表示对应标记元素ek的权重。通过上面两公式计算之后得出的结果来选择合适的阈值,然20第2章网络爬行器概述后在本系统中使用。如何对主题进行描述的问题是一个如何规范用
3、户完整需求的问题,当用户只针对一个词来让主题网络爬行器爬取相关主题的时候,这时候用户的要求就显得很宽泛,而且爬行器基本不能按照用户的要求爬行下来相应的网页信息。比如,搜索”教育”这个词,但是没有对这个”教育”进行”英语”的限定,那爬行器只会把所有”教育”页面爬取下来,这就可以看出来,还需要对主题进行更为精确的定义,这样才能使得爬行器爬取到用户想用的特定主题的页面内容。本文所设计的系统中对主题进行了两个层次的订制,为了使得爬行器爬取到的内容与用户所提供的主题关键词相近。第一层就是用户所提供的主题关键词,第二层就是在用户所提供的主题关键词的基础上
4、,进行学习所得到的辅助关键词,第二层就是为第一层服务,提供更高的准确度。第二层的辅助关键词是通过以下的方法得到的:先将用户所提供的主题关键词作为搜索页面(如Baidu、Bing、Google等,选择其中的两个)的关键词,进行搜索。然后将搜索得到的前20个网页页面爬取下来。在之后对20*2的网页作为与用户所提供的主题相关的训练页面,将这些页面进行训练,做分词、去非相关词以及词频统计等相关处理。提取出非用户所提供的主题关键词中出现频率较高的词/句,将这些词/句提取出来,就是第二层所要得到的辅助关键词。在这两层主题关键词的帮助下,就可以使得特定主题
5、网络爬行器的爬行效果更为精确。在爬取的过程中,设定一个权值,这个值是用来影响爬行器爬取的网页的先后顺序的,这个权值是根据一个网页所包含是否有用户提供的主题关键词或者经过训练得出的辅助关键词来赋予的。于是,就用权值的高低来对主题相关度不一的网页进行排序。然后爬行器依次进行爬取。1.2、聚类定义人类能够很容易的将对象或模式分组,从而区分它们,但是在网络时代,处理数据的执行者是计算机,在搜索时,将出现的海量数据分组是很困难的。聚类就是在没有任何参考的状态下,自动将目标对象分成不同组的方法。通过把相似的对象归类组成的组合就是类或者簇,也就是簇就是相似
6、的对象堆积在一起的一个集合[14]。Everitt[15]作了关于概念说明如下:(1)簇由有相似点的对象组合而成,所以,簇不同,里面的对象也不类似;(2)簇是采集中点的聚集,只要在一个簇中,任何两点的距离都比,点与簇外的点的距离小;(3)簇同样可以是不同维度空间的对象的连通,点的密集度也十分高,它可以用一个交低的点密度空间隔开这些高密度区域。如果会被聚的对象由一些特征表现,并产生d维的特征向量,那么聚类分析就会由以下几步构成[14]:(1)特征表现:用适当的模式来象征对象,既要全面包括信息,又要避免不必要信息的包含。通过提取和选择特征,不仅可
7、以使运算的速度特别快,还可以达到可见的效果;9(2)进行模块类似性的测试,进行测试的方法和工具极其重要,通常状况下进行距离的量定比较常见;(3)对聚类进行不同的分组归类:也就是选择适合的方法来运算和显示数据对象的结构;(4)选择性地抽取数据:通过不同的聚类,梳理归纳不同紧密度的描述;(5)对最后的结果评估。如上的叙述,聚类的含义主要是对对象进行组合分类,而这些数据对象具有一定的相似性,这个过程就是聚类。由聚类形成的集合也叫做簇,因此簇中的对象有共性,不同的簇的对象就没有共性。进行聚类的分析也是进行群分析,是一种进行分类的手段和方式。它的方式是
8、同一空间的向量,又或者是不同空间中对象点的聚合,这些模式较聚类分析。它的起源于分类学,同时,也不是简单的做分类,两者之间的最大差别就是,聚类的类别不确定,同时会牵涉