web挖掘技术研究new

ID：34473877

大小：357.58 KB

页数：3页

时间：2019-03-06

资源描述：

《web挖掘技术研究new》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、第32卷第15期计算机工程2006年8月Vol.JZ,A面15ComputerEn梦neeringAugust2006·发展趋势/热点技术。文章编号:1000-3428(2006)15-0004-03文做标识码:A中圈分类号:TP391Web挖掘技术研究张蓉(广东商学院信息科学学院，广州510320)摘耍:随着互联网的飞速发展，Web挖掘技术已成为数据挖掘技术的一个研究热点。该文对Web挖掘的特点、方法进行了讨论，设计了一种快速有效的Web文档聚类方法，给出了实际测试结果，验证了Web挖掘技术的有效性。提出的Web挖掘技术有效地提高了该系统的协作能力。关健诃:Web挖掘;日志文件;文档聚类;矢

2、量空间模型;关联规则ResearchonTechnologyofWebMiningMANGRong(DepartmentofInformationScience,GuangdongCommercialCollege,Guangzhou510320)[Abstract]AstherapiddevelopmentoftheInternet,thetechnologyofWebminingisnowahotterresearchfieldofdatamining.ThispaperdiscussesthecharacteristicsandmethodsofWebmining,andgivesafa

3、standefficientWebdocumentclusteringmethod.Itgivestheexperiment,whichshowsthatthetechnologyofWebminingispracticalandefficient.Thetechnologyissuitableforthesystemandaffordsmoreguaranteeandreliability.[Keywords]Webmining;Logfile;Documentclustering;Vectorspacemodel(VSM);Associationrule随着Internet的迅猛发展，信息

4、容量呈爆炸性增长趋势，行改进和扩充;然而信息检索工具和分析工具的相对落后，导致了信息过载。(4)用户目标的模糊性。基于Internet的数据挖掘用户往目前，人们从Web上获取信息的主要途径是通过搜索引擎，往只对要挖掘的主题有一个粗浅的认识，提不出很明确的目搜索引擎虽然部分地解决了资源发现问题，但其精度不高，标来，这就需要Web挖掘系统具有一定的智能性和学习机制，不能为用户提供结构化信息，也不能提供文档分类、过滤等不断地跟踪用户的兴趣以挖掘出正确的结果，并清晰详尽地功能。因此，人们迫切需要能够从Web上快速、准确、有效以用户能够理解的方式阐述出来;地获取所需资源和有用模式的方法和技术，Web挖掘

5、技术便(5)Web数据目前以TB数量级计算，而且仍然在迅速增应运而生，并引起人们的极大兴趣。所谓Web挖掘是指从大长，这就要求Web挖掘方法在对大数据集进行挖掘时依然具量的数据集合C中发现隐含的模式p。如果将C看作输入，有高效率。将p看作输出，那么Web挖掘的过程就是从输入到输出的一2Web挖掘方法个映射'C-p。与传统数据挖掘的对象绝大部分是结构化的基于上述特点，Web挖掘是一个极具挑战性的课题，它数据库相比，Web挖掘的对象是大量异质的、分布的Web数涉及Web存取模式、Web结构和规则以及动态的Web内容据集。就其挖掘的内容而言，Web挖掘可分为Web内容挖掘、查找。下面根据Web挖掘对

6、象的不同，分类讨论Web挖掘的Web结构挖掘和Web使用记录挖掘。方法。1Web挖掘的特点2.1Web内容拮掘方法Web上的数据具有非结构化、动态、不完全、混沌的特Web内容挖掘是指从Web上的网页内容及其描述信息中点和巨大、分层、多维的形式，Web挖掘与传统的数据挖掘获取潜在的、有价值的知识模式，以实现Web资源的自动检相比，有其自身特有的性质与要求，具体如下:索，提高Web数据利用率的过程。它可以分为Web文本挖掘(1)Web数据源具有很强的动态性。Internet本身就是一和Web多媒体挖掘。Web文本挖掘是对Web上的大量文档个时刻动态更新和变化的系统。这就需要借鉴数据仓库的某集合的内

7、容进行总结、分类、聚类和关联分析等。Web多媒些技术，以此保存Web上动态更新的数据;体挖掘是指从Web多媒体数据如音频、视频数据和图像等中(2)Web数据大多是html格式且有关某个主题的信息杂抽取事先未知的、隐藏的、完整的和新颖的知识。由于当前乱地散布在Web站点的多个目录下。这样就需要有一个强大Web上大多数信息的描述仍是以文本为主，因此目前关于的搜索引擎通过查找关键词来定位超文本的位置，并

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 / 3



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

web挖掘技术研究new

web挖掘技术研究new

相关文章

相关标签