欢迎来到天天文库
浏览记录
ID:32987077
大小:1.01 MB
页数:38页
时间:2019-02-18
《基于xml的web挖掘》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、东北师范大学硕士学位论文基于XML的Web挖掘姓名:王石申请学位级别:硕士专业:电路与系统指导教师:卫金茂20050501摘要随着Internet的飞速发展,它成为了迄今为止最密集、最丰富的信息来源。那么从这些海量数据中找到使用者感兴趣的信息逐渐成为人们关注的焦点。作为从Web文档和Web活动中抽取感兴趣的潜在的有用模式和隐藏信息的有效技术,Web挖掘悄然兴起,备受关注。而XML由于具有可扩展性、结构化和有效性等特性,建立了一种传输结构化数据的方法,从而使用户能够对Web信息实施精确查询与模型抽取。因此XML与Web挖掘
2、的结合将在数据挖掘领域内进行的研究推向了一个新的高潮。本文首先从Web挖掘研究背景入手,介绍了数据挖掘相关概念,相比HTML而言XML在Web挖掘应用中的优越性,以及Web挖掘的内涵和复杂性分析,Web挖掘原理、特点、分类等等。接着,阐述了如何实现Web内容挖掘的问题。提出了使用标准web技术—HTML,半结构化数据模型、XML,Java-开发的一种基于Web的数据挖掘方法。利用对象交换模型OEM将Web页转换为XML文档,然后用Java实现从XML文档中抽取感兴趣的信息。通过选择可靠的数据源以及在这些数据源中选取与内容
3、相关但与格式无关的引用点,可以实现数据抽取的任务。最后讨论了结构化信息的挖掘。使用有序树作为数据模型,提供一种从有序树中挖掘频繁引导子树的方法,帮助人们更有效的获取Web上的信息。关键词:Web挖掘;XML;挖掘结构化数据AbstractByrapidprogressofInternet,ithasbeenthedensestandabundantinformationsource.Thenfindingtheinformationfromlargedatathattheuserscanbeinterestedinhas
4、beenattractingmoreandmoreatention.Webminingisanefectivetechnologyofextractingusefulpaternsandinformation.XMLcantransportstructuraldatabecauseitisextensible,structural,efective.SothecombinationofXMLandWebmininghasbeenthesolutionofextractinginformation.First,westar
5、twiththestudyingbackgroundofWebminingandintroducethecorrespondingconceptionofdataminingandWebmining.WealsopresentthatXMLissuperiortoHTMLSecond,WeexpatiatehowtoimplementWebcontentmininganddevelopaWebminingtechnologybasedonHTML,semi-structureddatamodel,XML,Java.Wet
6、ransformWebpagetoXMLdocumentandextractusefulinformationfromXMLbyselectingreliantdatasourceandanchor.Last,westudytheproblemofminingstructuraldata.Weuselabeled,orderedtreesasdatamodelandpresentamethodofminingfrequentinducedsubtreesfromorderedtreestohelppeopleacquir
7、etheusefulinformation.Keywords:mining;XML;Miningstructuraldataif独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得东北师范大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢意口卯o5S.n学位论文作者签名:于毛日期:学位论文版权使用授权书本学位论文作者
8、完全了解东北师范大学有关保留、使用学位论文的规定,即:东北师范大学有权保留并向国家有关部门或机构送交学位论文的复印件和磁盘,允许论文被查阅和借阅。本人授权东北师范大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或其它复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本授权书)学位论文
此文档下载收益归作者所有