欢迎来到天天文库
浏览记录
ID:57924476
大小:311.96 KB
页数:4页
时间:2020-04-14
《基于强化学习的Deep Web数据提取方法-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、总第304期计算机与数字工程Vo1.43No.22015年第2期Computer&DigitalEngineering299基于强化学习的DeepWeb数据提取方法林治王睿(扬州职业大学信息工程学院扬州225009)摘要随着Web的飞速发展,Deepweb中蕴藏着海量高质量数据,如何高效地提取这些数据极具挑战。由于DeepWeb的动态性,其数据经常处于频繁更新的状态,而用户总是希望获得最新鲜的内容。为此,论文在分析DeepWeb数据变化特性的基础上,建立一个DeepWeb数据生成模型,然后,提出一种强化学习的DeepWeb数据提取方法。实验表明,
2、该方法具有较好的数据提取效率,可有效提高DeepWeb数据集成服务质量。关键词DeepWeb;强化学习;数据提取;更新频率中图分类号TP311DOI:10.3969/j.issnl672—9722.2015.02.034RetrievingDeepWebDataBasedonReinforcementLearningLINZhiⅥ,ANGRui(InformationEngineeringCollege,YangzhouPolytechnicCollege,Yangzhou225009)AbstractWiththerapiddevelopmen
3、toftheWeb,therearemassivehigh-qualitydatainDeepWeb.HowtOefficientlyretrievethesedataischallenging.BecauseDeepWebisdynamic,thedataarealwaysinfrequentlyupdatestatus.andusersalwayswanttoobtainthefreshestcontent.Inthispaper,throughanalyzingthevarietycharactersofDeepWeb,aDeepWebda
4、tagenerationmodelisestablished,andthenaDeepWebdataretrievalmethodbasedonreinforcementlearningisproposed.ExperimentalresultsshowthatthismethodhasbetterdataretrievaIefficiency。whichcaneffectivelyimprovetheservicequalityofDeepWebdataintegration.KeyWordsDeepWeb,reinforcementlearn
5、ing,dataretrieval,updatefrequencyClassNumberTP311响应时间由远程数据源的服务质量决定。另一种1引言方案就是将DeepWeb中爬取出来的内容存储在随着Web的飞速发展,DeepWeb中蕴藏着海本地动态网页拷贝库中,并通过建立索引来缩短用量高质量数据。使用传统搜索引擎在Internet表户查询的响应时间r2]。该方案的关键问题是如何面检索到的信息只是其中的一小部,在Internet深让本地数据与远程数据同步。本文在相同更新资处还存在海量信息无法被搜索到,这些信息被称为源条件下,使本地和远程数据保持最大化
6、同步。DeepWebc¨。DeepWeb数据量是非常巨大的,大由于DeepWeb数据的动态性,其数据往往处约是可索引的web信息的500倍。目前Deep于频繁更新的状态,但用户总是希望得到最新的内Web数据集成主要有两种实现方式:一种是基于容[3]。由于不同的DeepWeb数据源中数据记录元搜索的方法,提供一个统一的查询接口,将用户的变化频率是不一样的,根据统一的频率更新所有查询通过语义映射转发到相应的DeepWeb数据的本地数据非常耗费资源。由于DeepWeb数据源,返回的结果通过提取,语义标注,去重合并后呈处于快速动态的更新状态,本文提出的方
7、法可以有现给用户。该方法不需要维护本地数据库,但查询效地提高DeepWeb数据集成服务质量,实现Deep收稿日期:2014年8月11日,修回日期:2014年9月27日作者简介:林治,女,硕士,副教授,研究方向:数据挖掘、云计算。王睿,男,硕士,副教授,研究方向:软件工程、数据挖掘、云计算。300林治等:基于强化学习的DeepWeb数据提取方法第43卷Web数据的自动增量更新,从而使DeepWeb数据件在不相交时间区间是重复独立发生,而且在充分可以更好地为科研、生产和决策服务。小的区间上最多只发生一次,它们的累计次数就是一个泊松过程。在很多应用场合
8、都可以近似地归2相关工作结为泊松过程。文中采用泊松过程来描述对象信自DeepWeb概念提出以来,国内外学者对如何息的变化情况,使得本地数
此文档下载收益归作者所有