资源描述:
《Web文本数据挖掘研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、申请同济大学工学硕士学位论文Web文木数据挖掘研究培养单位:电子与信息工程学院i级学科:控制科学与工程二级学科:模式识别与智能系统研究生:符燕华指导教师:顾嗣扬副教授二00六年三月ABSTRACTABSTRACTInrecentyears,wiilithempiddevel1ytheg1oba1po口ularizationofweb,t11ngmmsf音fsp11clti:Opmentoflnteme“ln心met,espepresentresearchemphasataminRommea[a's谢mstmctu1Pd.gebmining,ionrknowc
2、atVononmesm枷edatabasetot11eweb・W曲textminyusmacetrieVaIedgemaldunstmctureddataoft11ewebtodiscoverknow0fdata1n1,nare^alnmg,natura1Ianguageprocessing,ill]Fonnaemenl・Tbxtc1assificationisonemainresearchbran.cboftextm1_LI1ng,Ih1orizationmeafeizationmemodonassociatiotllispaperwilndcaeltmp
3、aa-1dnboamoegntyraatmdeXnaVilmsnh101dess£f111fass0c1anusc耳saesp•h1nei1ass1f■1enoedookseotm.1e・lm1sp印erintr0ducspaper1ntr0duce1me:th0d9theteXtfb■1spapergiV1ngaapr0Ved1tsfeas1b1in仃oducemecoadondyetphrgmueomrhbpermainlvresearchthetextcategManvtcc1111iqueshavebeenapp1iedintextc?比egoriz
4、atiKT.onfsuchas也eFeare.st",,」,丫宀,,,Ne1gnborememoa,Bayes1anNetworks,decisionll它es,r1cura1netvorks,supportvectormaemnes,vectorspacemodel,regressionmodel,etc・Thispaperanalysethosecommontextcategorizaionmet1lods,alldtllenprovideatextcaBecauseboththcspeedoflookingforassociationm1efreque
5、ntsetalldt11efeatureeX把ootionhavegreateffectonclassmeation,so,in【tie如【turework,weshou1dpromotetlleresearchingspeedoffrequentset,alldchoosethebe&Mf6PffSsmeation+Keywords:Dataming,W
6、
7、
8、
9、textmining,associationru1e,VSM学位论文版权使用授权书本人完全了解同济大学关于收集、保存、使用学位论文的规定,同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版本
10、;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前提下,学校可以适当复制论文的部分或全部内容用于学术活动。经指导教师同意,本学位论文属于保密,在年解密后适用本授权书。指导教师签名:学位论文作者签名:年月口年月口同济大学学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文的研究成果不包含任何他人
11、创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任由本人承担。躲僚解妒6年弓月M.日笫1章绪论第1章绪论1.1问题的来源万维网目丨j仃是一个巨大的、分布广泛的和全球性的信息服务中心,它涉及新闻、广告、消费信息、金融管理、政府、电子商务和许多其他信息服务。Web还包含了丰富和动态的超链接信息,以及web页面的访问和使用信息,这为数据挖掘提供了丰富的资源。山于数据的复杂性和动态性,查找、理解和使用web±半结构化信息向我们提出了艰巨的挑战。目前,冇许多基于索引
12、的web搜索引擎,它可以完成对web的搜索,对web