基于模拟退火算法和二阶HMM的Web信息抽取.pdf

基于模拟退火算法和二阶HMM的Web信息抽取.pdf

ID:53575631

大小:321.70 KB

页数:5页

时间:2020-04-19

基于模拟退火算法和二阶HMM的Web信息抽取.pdf_第1页
基于模拟退火算法和二阶HMM的Web信息抽取.pdf_第2页
基于模拟退火算法和二阶HMM的Web信息抽取.pdf_第3页
基于模拟退火算法和二阶HMM的Web信息抽取.pdf_第4页
基于模拟退火算法和二阶HMM的Web信息抽取.pdf_第5页
资源描述:

《基于模拟退火算法和二阶HMM的Web信息抽取.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、2014年4月计算机工程与设计Apr.2014第35卷第4期COMPUTERENGINEERINGANDDESIGNVo1.35NO.4基于模拟退火算法和二阶HMM的Web信息抽取李伟男,李书琴+,号旭,魏露,李新乐(西北农林科技大学信息工程学院,陕西杨凌712100)摘要:针对传统隐马尔科夫模型对初值敏感和未考虑历史状态的问题,提出了使用模拟退火算法训练二阶隐马尔科夫模型参数的sA-HMM2。在基于SA—HMM2的Web信息抽取方法中,采用基于视觉的网页分割算法VIPS对网页分块得到状态转移序列,利用提出的SA-HMM2训练算法获取HMM2全局

2、最优模型参数,用改进的Viterbi算法实现了web信息的抽取。实验结果表明,该方法在平均综合值方面比HMM、GA-HMM分别提高约21和7。关键词:web信息抽取;隐马尔科夫模型;二阶隐马尔科夫模型;模拟退火算法;基于视觉的网页分割算法中图法分类号:TP391文献标识号:A文章编号:1000—7024(2014)04—1264—05Webinformationextractionbasedonsimulatedannealingalgorithmandsecond—orderHMMLIWei-nan,LIShu-qin+,JINGXu,WEIL

3、u,LIXin-le(CollegeofInformationEngineering,NorthwestAandFUniversity,Yangling712100,China)Abstract:Thetraditionalhiddenmarkovmodel(HMM)issensitivetotheinitialmodelparametersanddoesnotconsidertheis—sueofhistoricalstate.TheSA-HMM2algorithmisproposed,whichutilizesthesimulatedanne

4、aling(SA)algorithmtOtraintheparametersofthesecond-orderHMM(HMM2).IntheWebinformationextractionmethodbasedonSA—HMM2.8statetransi—tionsequenceisobtainedbyusingthevision-basedpagesegmentationalgorithm(V1PS).TheproposedSA-HMM2trainingalgo—rithmisusedforcalculatingtheglobaloptimal

5、parametersofHMM2.TheimprovedViterbialgorithmisimplementedforWebinformationextraction.ComparedwithHMMandGA-HMM.experimentalresultsshowthatthenewstrategyincreasestheex—tractionperformanceby21and7respectively.Keywords:Webinformationextraction;hiddenMarkovmodel;second-orderHMM;si

6、mulatedannealingalgorithm;vision-basedpagesegmentation基于HMM的web信息抽取是一种基于统计学习理论0引言的方法,受到众多研究者的关注[1]。文献[3]利用正则表伴随着互联网信息量的指数级增长,快速、高效地定达式和文本推断算法提取的规则描述特征;文献J-4]中将位并提取所需的信息成为研究热点之一l】]。Web信息抽取遗传算法(geneticalgorithm,GA)与Baum-Welch算法相技术是将web页面作为信息源,从中抽取用户感兴趣信结合,获得全局优化参数。一阶HMM(HMM1)对参

7、数息,是有效解决方案工具之一[。它主要包括基于词典、初值十分敏感,同时利用Baum-Welch算法训练后极易得到规则和隐马尔科夫模型(hiddenmarkovmodel,HMM)的局部最优参数,且未考虑模型历史状态间的关联性[。二3种实现方式_3]。HMM具有强大的统计建模能力,能够适阶HMM(HMM2)加入某一时刻状态转移和观察值输出应网页结构多变的状况,是Web信息抽取技术的主要研究等概率与历史状态关联性,提高了抽取的正确性J。方法之一。针对HMM1对模型参数初值敏感和未考虑历史状态的收稿日期:201308—19;修订日期:201310—20

8、基金项目:“十二五”国家科技支撑计划基金项目(2011BAD21B05、2O13BAD15BO2);中央高校基本科研业务费基金项目(QN

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。