欢迎来到天天文库
浏览记录
ID:34043793
大小:69.60 KB
页数:4页
时间:2019-03-03
《数据抽取及语义分析在web数据挖掘中的应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第26卷第6期计算机工程与设计2005年6月Vol.26No.6ComputerEngineeringandDesignJune2005数据抽取及语义分析在Web数据挖掘中的应用袁占亭,张秋余,李威(兰州理工大学计算机与通信学院,甘肃兰州730050)摘要:把复杂的网络站点作为多个业务数据源,采用数据仓库及数据挖掘技术,从中抽取并净化数据到挖掘数据库,从而将数据抽取及语义分析应用于Web数据挖掘中。在此基础上又提出了运用数据抽取进行数据结构转换并把语义分析技术应用到数据抽取的过程中的思想,使数据提取更加准确。关键词:Web;数据挖掘;数据抽取;语义分析;数据结构中图
2、法分类号:TP393文献标识码:A文章编号:1000-7024(2005)06-1425-03ApplicationofdataextractionandsemanticanalysisinWebminingYUANZhan-ting,ZHANGQiu-yu,LIWei(CollegeofComputerandCommunication,LanzhouUniversityofTechnology,Lanzhou730050,China)Abstract:Amethodispresentedthatappliesdataextractionandsemanticana
3、lysistoWebmining,whichregardscomplicatednetworkwebsiteasalotofbusinessdatasourcesandextractsandpurifiesthesedatatostorethemintoadatabasewiththeaidofdatawarehouseanddataminingtechnology.ByusingthemethodthatbusinessapplicationadoptstocarryondataminingtorealizeWebmining,thekeytechnologyis
4、theconversionofdatastructure.Thismethodusesdataextractionandsemanticanalysisontheconversionofdatastructure,whichmakesdataextractionmoreaccurate.Keywords:web;datamining;dataextraction;semanticanalysis;datastructure现给最终用户。图1中描述的是整体实现Web数据挖掘的体1引言系结构。随着Internet的发展,如何从大量的Web数据中发现有用网络的潜在信息,成
5、为当前数据挖掘技术的一个最重要的应用。数据挖掘就是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程,这些模型和关系可以用来做出预测。报表等数据表述其中,数据挖掘成功的关键就是挖掘工具能准确地在数据仓库上进行数据挖掘。因此,能把Web数据准确地从Internet提信息搜索机器人取到数据仓库,并准确地提取到数据集市是Web数据挖掘的结构性半结构性非结构性数据挖掘LOAP关键所在。CACHECACHECACHE2系统实现2.1体系结构设计数据抽取数据抽取数据抽取抽取数据库数据仓库这里的Web数据挖掘是一个二次数据挖掘,第1次是通语义分析语义分析语义分析过信息搜索
6、机器人从Internet上获取原始信息,然后通过信息的特征将信息分别缓存到cache中,再通过抽取及语义分析获图1体系结构图取与原始数据接近且适合进一步挖掘的数据,将经过处理的结构性强的数据存取到数据仓库,在这个数据仓库上,我们可2.2信息获取以运行当今比较成熟的挖掘技术进行挖掘,并通过OLAP(On-通过信息搜索机器人在网络上查找站点,并通过HTTP访lineAnalyticalProcessing)进行挖掘结果的验证,最后将结果展问获取信息。对于动态的站点,我们可以采用预设用户等信收稿日期:2004-05-28。基金项目:甘肃省科技攻关基金项目(GS021-A5
7、2-54)。作者简介:袁占亭(1961-),男,博士生导师,研究方向为计算机体系结构;张秋余(1966-),男,副研究员,研究方向为信息系统软件工程;李威(1979-),女,硕士,研究方向为计算语言学。-1425-息和登录的过程等信息,由此辅助我们获取一定的信息。网者是按单词在文章中出现的位置和次数打分(如WAIS),或者络中大量的信息都是用URL定位的,机器人从获取的信息中是通过对英文文章或句子的语法和语义分析来提取出该文章自动分离出URL是发现更多信息的简洁方法。的主要意思(知识的提取)。但这些方法都是基于英文本身就2.3信息分类有明显的词间分隔这个事实上的
此文档下载收益归作者所有