欢迎来到天天文库
浏览记录
ID:34042652
大小:7.22 MB
页数:76页
时间:2019-03-03
《深网查询接口判定技术的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、武汉理工大学硕士学位论文深网查询接口判定技术的研究姓名:李齐会申请学位级别:硕士专业:计算机应用技术指导教师:谭新明20090501武汉理I:人学硕十学位论文摘要深网是相对于表层网而言的,随着互联网信息的不断扩充和加深,越来越多的信息资源通过动态网页技术与数据库技术相结合的方式提供给人们。但是,传统的搜索引擎受技术等各种限制,无法获取在线数据库中的信息,导致大量高价值和权威信息变成“不可见”的深网信息。由于查询接口是进入深网后台数据库的唯一入口,用户只能通过向查询接口提交查询来获取深网信息,所以对查询接口的J下确判断和识别将是获取深网信息
2、的关键所在。围绕着深网查询接口的识别和判断,本文做了以下主要研究工作:首先,对深网相关知识和国内外研究状况进行学习和分析,具体包括深网的概念、价值,以及深网信息的搜索方法等,并提出了本文的研究问题和方向;其次,搜集不同领域的各种表单,对其特征进行DOM解析和提取,并将提取出来的特征保存到数据库中;再次,对原始数据集做预处理操作,包括去除冗余和噪声,属性选择,格式变换,离散化处理等;最后,运用几种典型的分类算法对数据集进行分类和预测,包括决策树C4.5分类算法、支持向量机SVM、k一近邻算法和朴素贝叶斯分类器,在分类和预测过程中,选择了随机
3、取样中的保持法和十折交叉验证法,通过实验结果的分析和比较,选出精确度最高的算法作为判断和识别深网查询接口的算法。在本文结论中,提出了针对深网查询接口所要做的进一步研究工作。对深网的研究虽然还只处于初期阶段,但是,随着人们对深网探索的不断深入,深网研究必将取得更大的突破和收获。关键字:深网,查询接口,DOM解析,决策树C4.5分类算法,十折交叉验证AbstractTheDeepWebisoppositetotheSurfaceWeb.AstheInternetcontinuestoexpandanddeepen,moreandmoreinf
4、ormationareavailabletopeoplethroughthewaywhichunifiesthedynamichomepagetechnologyandthedatabasetechnology·HoweVeT’thetraditionalsearchenginescallnotcrawltheonlinedatabasestoobtaininf6nnationduetotechnicalrestrictionsandotherreasons,alargenumberofhigh.valueinformationinsid
5、etheDeepWebbecomesinvisible.SincethequeryinterfAcesafetheonlyentrancetotheDeepWebdatabases,anduserscanobtaininfbnnationfromtheDeepWebonlybysubmitingqueriestothequeryinte血ces,correctlyjudgeandidentifythequeryinterfacesisveryimportanttoobtaininformationoftheDeepWeb.Surround
6、ingwiththejudgementandidentificationofthequeryinterfaces,thisthesismainlyhasdonethefollowingresearches:Firstly,studytherelatedknowledgeoftheDeepWebandtheresearchsituationathomeandabroad,includingtheconcept、valueandtheinformationsearchmethodsoftheDeepWeb,thengivetheresearc
7、hquestionanddirectionofthisthesis;Secondly,collectavarietyofformsfromdifferentdomains,parsetheformsintoDOMtrees,extractcharacteristicsofeachform,andsavethecharacteristicstoadatabase;Thirdly,makepre.processingoftheprimitivedatasets,includingtheremovalofredundancyandnoise.a
8、ttributeselection,formatconversion'discretlzatlonprocessingandSOon;Finallv,useseveralkindsoftypi
此文档下载收益归作者所有