资源描述:
《半结构化信息抽取在股票交易中的应用研究new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第23卷第9期Vol.23,No.9情 报 科 学2005年9月September,2005半结构化信息抽取在股票交易中的应用研究12马玉春,孙 冰(1.东北大学秦皇岛分校计算机工程系,河北秦皇岛066004;2.东北大学秦皇岛分校网络中心,河北秦皇岛066004)摘 要:针对股票的网站越来越多,如何从这些网站的有关页面进行信息抽取,并得到相关知识,为股民提供股票交易的决策参考,是一个值得研究的课题。本文剖析了信息抽取常用的Wrapper方法,以及抽取知识的获取方法。最后,根据可视化信息抽取的原则,设计了一个可视化信息抽取的实验,取得了良好的效果。中图分类号:TP311
2、152;F830191文献标识码:A文章编号:100727634(2005)0921376205ResearchonSemi-structuredInformationExtractioninStockTransaction12MAYu-chun,SUNBing(1.DepartmentofComputerEngineering,QinhangdaoBranchSchoolofNortheastUniversity,Qinhuangdao066004,China;2.NetworkInformationCenter,QinhangdaoBranchSchoolofNor
3、theastUniversity,Qinhuangdao066004,China)Abstract:Moreandmorewebsitesconcerningwithstockexchange,andhowtoacquireknowledgefromrelevantpagestohelppeopleinstockmarketisaninterestingquestionforstudy.Thispaperemphasizesontheanalysisaboutinformationextractiontechniquesbasedonwrapper.Finally,ap
4、rototypeaccordingtovisualizedinforma2tionextractionrulesisgiven,anditshowsgoodresultinstocktransaction.Keywords:informationextraction;wrapper;stock;visualization证券交易所、深圳证券交易所,权威的巨潮资讯、1 引 言中国证券报的中证网,以及各个门户网站的股票财经栏目等等。如何从这些网站的有关页面进行信息作为一种基本生产要素市场,资本市场与产品抽取,并得到相关知识,为股民提供股票交易的决市场一样具有基础性意义,并
5、发挥着引导资源配置策参考,是一个值得研究的课题。的讯号和传导作用。股票市场则是资本市场的主要组成部分──它是投资者直接投资的场所。据统2 相关工作计,截止2002年底,中国在沪深两市开户的股民数共为5800万户,并以每月50-80万户的速度递国外大约在80年代初就开展了信息抽取(In2[1]增,现已达到7000万,已上升为世界第二。同formationExtraction,IE)的研究。80年代末期,美时,针对股票的网站也越来越多,包括官方的上海国政府即开始赞助IE方面的会议(如MessageUn2收稿日期:2004-10-15作者简介:马玉春(1969-),男,江苏南
6、京人,东北大学秦皇岛分校讲师,主要从事WWW信息搜索及个性化数据挖掘、计算机监控和网络技术研究;孙 冰(1974-),女,河北秦皇岛人,主要从事Web信息检索研究.9期 半结构化信息抽取在股票交易中的应用研究1377[2]derstandingConferences,MUCs)。90年代由于Web一体构成整个的软件程序;另一种是抽取知识与应的流行,研究人员开始将目光转向Web页面的抽用这些知识的处理程序相对独立。前一种方法具有取工作,并取得了很大的进展,出现了众多的基于针对性强、适合各种复杂情况的信息抽取工作;但Web的信息抽取系统。Web上存在三种
7、类型的页是,同时也存在着灵活性差,当信息源的格式发生面,即无结构页面、半结构页面以及结构化的页变化时,整个Wrapper抽取程序就要随之进行修面。改。相比之下,后一种方式就具有较好的灵活性。(1)无结构(FreeText)页面的信息抽取。无当信息源格式发生变化时,相应的Wrapper抽取程结构页面信息抽取的规则受到语法以及语义的约序无需进行改动,只要对其中有关的抽取知识作适束,这些抽取规则将用来帮助从无结构页面中区分当的修改就可以了,因而应用起来比较灵活方便。出相关的信息。一般来说,为了应用模式抽取,一Wrapper方法所利用的抽取知识来