欢迎来到天天文库
浏览记录
ID:35065730
大小:4.36 MB
页数:75页
时间:2019-03-17
《基于数据挖掘算法的金融数据采集与分析研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于数据挖掘算法的金融数据采集与分析研究AStudyofFinancialDataCollectionandPredictionBasedonDataMiningAlgorithm领域:软件工程研究生:王悦指导教师:任达企业导师:姓名职称天津大学软件学院二零一五年十一月摘要股票市场作为金融市场中重要的一部分,在我国经济中起着非常重要的作用,成为经济的“晴雨表”,有效的预测股票走势在金融投资领域占有非常重要的地位。然而要分析股票市场,就需要及时的获取到股市的相关数据,但随着经济的不断发展,股票数据的规模越来越大,已经不是人力所能获取的。尽管网上有着很多
2、数据集的提供网站,但是多数都需要付出大量的金钱,同时所得到的数据多为不全数据,无法及时得到最新的数据。近年来兴起的数据挖掘技术很好的提供了获取海量数据并从中分析出有价值、隐藏着的规律的技术。本文主要是运用网络爬虫技术对雅虎金融中的股票数据进行采集,利用贝叶斯推断的基本原理及其推广对数据进行分类和提取,从股票海量的数据中提取出有用的数据进行分析。同时建立一套数据提取系统,基于对网络爬虫的深入理解,对爬虫框架进行二次开发,实现快速抓取数据。随后初步探讨了利用K-means算法和改进的K-medoids对我国A股市场的交易数据进行聚类分析。关键词:网络爬虫
3、,K-means算法,股票,K-medoidsIABSTRACTThestockmarketisanimportantcomponentofthefinancialmarketandplaysaveryimportantroleinoureconomy.Ithasbeencalledeconomic"barometer"forthateffectivestockmovementspredictionoccupiesaveryprominentpositioninthefinancialinvestmentarea.However,toanalyzet
4、hestockmarketneedstimelyaccesstorelevantdataaboutthestockmarket.Butastheeconomycontinuestodevelop,thescaleofstockdataisbiggerandbiggerandcan'tobtainonlybymortal.AlthoughtheInternethasprovidedalotofdatacollectionsite,mostofthemarerequiredtopayalotofmoney,whiletheresultantdataare
5、mostlyincompletedataandweren'tabletogetthelatestdata.Inrecentyears,theriseofdataminingtechnologyprovidessuperioraccesstomassivedataandobtainsvaluableinformationandhiddenlawsbyanalysis.ThispaperobtainedYahoofinancestocksdatacollectionthroughwebcrawlertechnology.Nextweclassifyand
6、extractdatausingBayesianinferenceprinciplesanditspopularizeprinciples.Andthenweextractusefuldatafromthevastamountsofstockdatatoanalyze.Finally,weestablishadataextractionsystembysecondarydevelopmentonwebcrawlerframeworktoachieverapiddatacapture,basedonanin-depthunderstandingofwe
7、bcrawlers.ThenlookintothemethodswhichmakeuseofbinarydecisiontreetechnologyandimproveddecisiontreetoanalyzeandmineChineseA-StockTransactionData.KEYWORDS:WebCrawler,K-means,Stock;K-medoidsII目录目录......................................................................................
8、.........................III第一章绪论.....................
此文档下载收益归作者所有