web挖掘技术研究new

web挖掘技术研究new

ID:34473877

大小:357.58 KB

页数:3页

时间:2019-03-06

web挖掘技术研究new_第1页
web挖掘技术研究new_第2页
web挖掘技术研究new_第3页
资源描述:

《web挖掘技术研究new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第32卷第15期计算机工程2006年8月Vol.JZ,A面15ComputerEn梦neeringAugust2006·发展趋势/热点技术。文章编号:1000-3428(2006)15-0004-03文做标识码:A中圈分类号:TP391Web挖掘技术研究张蓉(广东商学院信息科学学院,广州510320)摘耍:随着互联网的飞速发展,Web挖掘技术已成为数据挖掘技术的一个研究热点。该文对Web挖掘的特点、方法进行了讨论,设计了一种快速有效的Web文档聚类方法,给出了实际测试结果,验证了Web挖掘技术的有效性。提出的Web挖掘技术有效地提高了该系统的协作能力。关健诃:Web挖掘;日志文件;文档聚类;矢

2、量空间模型;关联规则ResearchonTechnologyofWebMiningMANGRong(DepartmentofInformationScience,GuangdongCommercialCollege,Guangzhou510320)[Abstract]AstherapiddevelopmentoftheInternet,thetechnologyofWebminingisnowahotterresearchfieldofdatamining.ThispaperdiscussesthecharacteristicsandmethodsofWebmining,andgivesafa

3、standefficientWebdocumentclusteringmethod.Itgivestheexperiment,whichshowsthatthetechnologyofWebminingispracticalandefficient.Thetechnologyissuitableforthesystemandaffordsmoreguaranteeandreliability.[Keywords]Webmining;Logfile;Documentclustering;Vectorspacemodel(VSM);Associationrule随着Internet的迅猛发展,信息

4、容量呈爆炸性增长趋势,行改进和扩充;然而信息检索工具和分析工具的相对落后,导致了信息过载。(4)用户目标的模糊性。基于Internet的数据挖掘用户往目前,人们从Web上获取信息的主要途径是通过搜索引擎,往只对要挖掘的主题有一个粗浅的认识,提不出很明确的目搜索引擎虽然部分地解决了资源发现问题,但其精度不高,标来,这就需要Web挖掘系统具有一定的智能性和学习机制,不能为用户提供结构化信息,也不能提供文档分类、过滤等不断地跟踪用户的兴趣以挖掘出正确的结果,并清晰详尽地功能。因此,人们迫切需要能够从Web上快速、准确、有效以用户能够理解的方式阐述出来;地获取所需资源和有用模式的方法和技术,Web挖掘

5、技术便(5)Web数据目前以TB数量级计算,而且仍然在迅速增应运而生,并引起人们的极大兴趣。所谓Web挖掘是指从大长,这就要求Web挖掘方法在对大数据集进行挖掘时依然具量的数据集合C中发现隐含的模式p。如果将C看作输入,有高效率。将p看作输出,那么Web挖掘的过程就是从输入到输出的一2Web挖掘方法个映射'C-p。与传统数据挖掘的对象绝大部分是结构化的基于上述特点,Web挖掘是一个极具挑战性的课题,它数据库相比,Web挖掘的对象是大量异质的、分布的Web数涉及Web存取模式、Web结构和规则以及动态的Web内容据集。就其挖掘的内容而言,Web挖掘可分为Web内容挖掘、查找。下面根据Web挖掘对

6、象的不同,分类讨论Web挖掘的Web结构挖掘和Web使用记录挖掘。方法。1Web挖掘的特点2.1Web内容拮掘方法Web上的数据具有非结构化、动态、不完全、混沌的特Web内容挖掘是指从Web上的网页内容及其描述信息中点和巨大、分层、多维的形式,Web挖掘与传统的数据挖掘获取潜在的、有价值的知识模式,以实现Web资源的自动检相比,有其自身特有的性质与要求,具体如下:索,提高Web数据利用率的过程。它可以分为Web文本挖掘(1)Web数据源具有很强的动态性。Internet本身就是一和Web多媒体挖掘。Web文本挖掘是对Web上的大量文档个时刻动态更新和变化的系统。这就需要借鉴数据仓库的某集合的内

7、容进行总结、分类、聚类和关联分析等。Web多媒些技术,以此保存Web上动态更新的数据;体挖掘是指从Web多媒体数据如音频、视频数据和图像等中(2)Web数据大多是html格式且有关某个主题的信息杂抽取事先未知的、隐藏的、完整的和新颖的知识。由于当前乱地散布在Web站点的多个目录下。这样就需要有一个强大Web上大多数信息的描述仍是以文本为主,因此目前关于的搜索引擎通过查找关键词来定位超文本的位置,并

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。