欢迎来到天天文库
浏览记录
ID:32303323
大小:2.07 MB
页数:56页
时间:2019-02-03
《基于xml网络信息库的网络数据挖掘地研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于XML的网络信息库与网络数据挖掘研究专业:情报学硕士生:张进指导教师:曹树念教授摘要XML(可扩展标志语言)以自蝣的优势逐渐赢得得了互联网的青睐,它在网络数撂挖掘中蠢着广泛豹成蠲翦景。XML具有可扩鼹牲、灵活性、自述性以及蕊囱数据等特点,它克服了HTML的许多缺点,其优越梭十分明显。丽鹦一方面,由于数据挖掘的深刻性和网络信息的复杂性,从互联网上发现知识是一项极具挑战性的工作。在当蘑,网终数据挖掘出魏了一些阀题簿l难点,主要是半结毒奄化数撰帮异掏数掇等闽题。网络信息嫩大的特点就是半结构纯,XML作为半结构讫数据模塑,为这一问题提供了解决之道。本文在参考大量
2、霪波羚文献的蒸璇上,对网络数据挖掘豹萋拜突蟪况进行了总结,对基予XML的网络信崽库与网络数据挖掘进行了研究。在XML与网络数据挖掘相关理论基础上,探讨了XML在网络数据挖掘中的主要应用,分析了网络信息库的基本愚想,沦述了基于XML豹网络镑患痒戆理论、橡建方法及实现过程,著探讨了基于XML网络信息库在Web文本挖撅中的应用,绘出了Web文本信息库榆建的实例。本文为基于XML的网络数据挖掘提供了一个思路与方法,对网络数据挖掘的理论有一定豹键避俸爱,对嬲络数据挖掘系绞兹实现有一定躲参考份毽。基于XML戆网络信息库主疆解决了网络数据挖掘中的半结构化问题。网络信息席在
3、Web文本挖掘中表现为Web文本信息席,这一思想应用在Web文本挖掘中有利于文本特征项的提取,对Web文零挖掘舂一惑熬指导意义。关键词:XML,网络数据挖掘,网络信息库WebWarehouseandMiningBasedonXMLMajor:InformationScienceName:ZhangJinSupervisor:ProfessorCaoShujinABSTRACTXML(ExtensibleMarkupLanguage)isgraduallybiasedbyInternetforitssuperiorityandhascomprehensivep
4、rospectsofapplicationindatamining.Characterizedbyextension,flexibility,self-descriptionandfeaturedata-oriented,XMLisstrongerthanHTMLandisverypropertoapplyindataMining.Ontheotherhand,therearesomeproblemsanddifficultiesindataminingbecauseofprofundityofdateminingandcomplexityofdata,su
5、chassemi-structureddataanddissimilardatasourcesproblems.XMLisamodelofsemi—structureddataandCansupplyamethodandstrategytosolvethisproblem.ThispapersummarizedresearchconditionsondataminingandismainlyaboutwarehouseanddataminingbasedonXMLinthebasisofreferringlotsofdocuments.Inthispaper
6、,conditionsanddifficultiesofdatamining,especiallythefunctionsandapplicationsofXMLindataminingarediscussed.Thebasicideaofwarehouseisanalyzed,theories,constructionandrealizationofwarehousebasedonXMLarediscussed,andtheconcreteapplicationofwarehousebasedonXMLintextminingisdiscussedwith
7、anexampleofconstructionoftextinformationwarehouse.ThepaperCansupplyamethodandstrategyfordataminingbasedonXML,prompttheoriesofmining,andhasreferencevaluesfortherealizationofdataminingsysteminsomedegree.WebwarehousebasedonXMLismainlytosolvesemi-structureddataproblemsindatamining.Item
8、bodiestextinformationwareh
此文档下载收益归作者所有