基于p2p的文档聚类研究

基于p2p的文档聚类研究

ID:31019071

大小:64.50 KB

页数:3页

时间:2019-01-05

基于p2p的文档聚类研究_第1页
基于p2p的文档聚类研究_第2页
基于p2p的文档聚类研究_第3页
资源描述:

《基于p2p的文档聚类研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于P2P的文档聚类研究数据挖掘是处于许多学科交叉II的一个范I韦I较广的领域。图2.1说明了与文档聚类相关的研究领域,突出了文档聚类在这些领域的位置。并没有给出所有的领域,仅仅包括了与此相关的足够重要的领域。高亮区域指出了与文本研究工作直接相关的研究领域,也就是:分布式聚类,P2P聚类,P2P文档聚类,以及文本挖掘(特别是文档聚类)。可以看到,研究工作主要基于分布式计算环境屮(P2P网络)的文木数据挖掘(文档聚类)应用。这个文献综述的组织町分成如下领域:(1)文本挖掘;(2)聚类算法;(3)分布式聚类;(4)基于Agent的数据挖掘。在文木与分布式数据挖掘

2、方而,可以有许多途径来分解相关的文献。在文木挖掘与聚类算法方面主要基于集中式方法,因此,主要讨论中心化(集中式)模型与算法;最后两节主要关注对于分布式环境下完成等价于中心化方法的分布式体系结构与算法。2.1文本挖掘术语"文本挖掘"首先由Feldmand-^jdagan提出[35]。根据Kosala-MBlacked对"Web挖掘”的综述[69],当前的术语“文本挖掘”己经被用于描述不同的应用,例如文本分类[54,100,104]、文本聚类[107,110,12,70,100]、经验计算的语言学上的任务[52]、探测的数据分析[52]、在文本数据库中查找模式[

3、35,36]、在文本中发现有序的模式[74,2,3]以及相关的发现[87,100]o文本挖掘与信息检索比较文木挖掘町以看成是数据挖掘的扩展领域,也口J看成“在数据库中知识发现”的扩展[34]。有时此术语“文本挖掘”与“信息检索”相混淆,它们是不同的,但是相关的研究领域。挖掘不是检索。信息检索的目的是帮助用户找到满足他们需求的文档⑷,问题不是信息不知道,而且信息与其他信息共存,我们仅仅需要知道信息位于何处。我们可能实际想要处理信息,当我们能够从大型知识库中抽取新的、从来未遇到的信息时,那种中心化搜索的观点已经失去意义[20]。另一方面,数据挖掘的冃的是从数据中

4、发现新的信息、在整个数据集屮发现模式、从噪咅屮分解出信号[52]。文档分类人们有时也会把文档分类与数据挖掘相混淆。文档分类是把文档的内容映射成一个预定义标签集合中的某个元素的过程。尽管它可以认为是一个机器学习任务,但它不导致新信息的发现,而是产生一人已经知道的一个类别。这并不破坏文档分类,在自动指派文档到它们备自的目录中有它白己的利益,因此文木分类能够把人从繁重的任务中解释出来。Aasetal[l]给出了文本分类的好的说明,揭示了文本解释与分类方法的不同类型。文档聚类聚类中把相似对象聚集在一起的技术,基于它们的相似性,形成一个对象簇,以致于在相同组中的对彖是

5、取相似的,然而在不同组中的对彖是最不相似的[57]。在文本挖掘的上下文中,聚类对于发现感兴趣的文档组实际上是一个有力的方法,也可能形成一个计算机辅助的信息层次,例如像Yahoo的主题目录。一个潜在的好处是让文档自已分类。也可能提出被识别事物的群组,但是它们不清楚是否能形成高级分类。在做聚类分析后,能够精化簇,当新的文档被引入时,它们能够使用自动分类来指派新文档到哪个簇中。聚类不同于分类。聚类是基于通过在一个集合文档中的计算分析来发现相似性。分类是预定义的对人们有用的设计分组。因为分类是预定义的,不需要参考文档集合的内容,很可能某些目录(分类)会有许多文档,同

6、时一些分类是空的[77]O2.1.1文本表示模型一般在数据挖掘中,通常有一个大部分挖掘算法所采用的固定的数据模型。这个数据模型依赖于数据的特性而变化。对于有数值数据的问题,通过算法设定一个可直接转发的数值表示。然而,在文本挖掘中,我们有任意的无结构的文本数据,它提出了一个表示的问题。在此给出在文本挖掘中使用的最广泛的文档表示的一个综述。文档数据模型大多都文本挖掘方法使用"VectorSpaceModel”向量空间模型,它是Salton于1975年提出的[92],用于表示文档对象。每个文档用一个向量d表示,〃=在此旺,i=1,2,,是术语在文档中的频率,或者是

7、术语◎在文档中出现的次数。为了表示具有相同术语集的每个文档,我们不得不抽取在文档中找到的所有术语,把它们作为我们的特征向量。有时也使用另一种方法,把术语频率与倒置的频率相结合(FF-〃)F)[92,1]。文档频率妙是在N个文档集合中含有术语心的文档数目。一个典型的倒置文档频率(同广)因子通过log(N/0;)给出。术语厶在一个文档中的权重如下:

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。