deep web入口探测与分类方法研究

deep web入口探测与分类方法研究

ID:34490619

大小:456.35 KB

页数:5页

时间:2019-03-06

deep web入口探测与分类方法研究_第1页
deep web入口探测与分类方法研究_第2页
deep web入口探测与分类方法研究_第3页
deep web入口探测与分类方法研究_第4页
deep web入口探测与分类方法研究_第5页
资源描述:

《deep web入口探测与分类方法研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第26卷第12期计算机应用研究VoL26No.122009年12月ApplicationResearchofComputersDec.2009DeepWeb入口探测与分类方法研究张亮,陆余良,刘金红(解放军电子工程学院网络系,合肥230037)摘要:传统的使用语料库对入口标签字符串进行匹配的方法受限于语料库的完整性和匹配算法的灵活性。为突破这种局限,引入了基于表单元件统计特征的DeepWeb入口探测方法和使用文本分类方法对其进行分类的双层分类模型,并提出了两种特征权重计算方法用于特征选取。在TEL一8QueryInterfaces数据集上,测试

2、结果体现了双层分类模型的优越性和特征向量维归约的必要性。关键词:DeepWeb;网络爬虫;结构特征;维归约;双层分类模型中图分类号:TP391文献标志码:A文章编号:1001—3695(2009)12—4697-04doi:10.3969/j.issn.1001—3695.2009.12.083ResearchondetectingandclassifyingDeepWebinterfacesZHANGLiang,LUYu—liang,LIUJin-hong(Dept.ofNetwork,PElectronicEngineeringInstit

3、ute,Anhui230037,China)Abstract:TraditionalmethodusinglibrarytomatchthoselabelsiSlimitedtotheintegrityofthelibraryandthescalabilityofthematchingalgorithm.Inordertobreakthroughthislimitation.thispaperintroducedabilateral—layermodelbasedonthestatisticcharacteristicsoftheinterfa

4、cestodetectDeepWebentriesandtextclassificationapproachtoclassifythem.Mean—while.itprovidedandappliedtwomethodsofcomputingfeature—weighttofeatureselection.nletestresultsgotfromTEL一8QueryInterfacesshowedthesuperiorityofbilateral—layerclassificationmodelandthenecessityofdimensi

5、onalityreduction.Keywords:DeepWeb;Webcrawlers;structurefeature;dimensionalityreduction;bilateral—layerclassificationmodelInternet的迅猛发展使在线可访问数据库的数量持续增ry是最直接、便捷的分类方式,而且通过基于可视距离抽取标加,Web信息量呈指数增长的趋势,其中DeepWeb数据库的签和词素扩展等方法可以有效地解决以上问题。数量超过了450000个,所存储信息量是SurfaceWeb信息量本文基于Pre—query方

6、法,使用双层分类模型对DeepWeb的500倍以上⋯,约有3/4的数据采用了结构化存储。这表明入口进行分类。首先根据表单的结构特征对搜索型表单(即DeepWeb所蕴涵的信息量的数量和价值都远远高于SurfaceDeepWeb人口)和非搜索型表单进行判断,然后使用文本分类Web。因此,研究如何获取DeepWeb中数据成为Web信息检的方法对搜索型表单进行分类,并提出两种特征权重计算函数索领域的一大热点。当前,对DeepWeb的研究主要集中在元选取特征,从而达到对表单结构特征向量和文本特征向量进行搜索引擎和DeepWeb主题定制爬虫的设计和实现上;

7、维归约的目的。在实验部分,使用UIUC数据集验证双层分类同时,使用数据挖掘技术对DeepWeb信息进行处理(如聚模型的效果,并与其他相关研究的结果作出对比。类和分类等)也是研究的重点。1相关研究在线数据库提供接口接收用户查询并返回结果,这些接口被称做DeepWeb的人口,在网页中以表单(form)的形式出现。国外关于DeepWeb的分类研究起步较早,分类技术比较不同领域的用户对DeepWeb信息的内容有不同的需求。例成熟,已经应用到多种爬虫中。如,证券投资者只对全球股票信息感兴趣,而购房者则更关注a)Chakrabarti等人设计的best—f

8、irstfocusedcrawler近期各地房市的价格状况。为提高Web信息的相关性,在获(BFC)利用页面分类器引导爬虫进行搜索。BFC通过学习能取

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。