基于Spark的智慧城市房价评估系统的研究与实现

基于Spark的智慧城市房价评估系统的研究与实现

ID:35121632

大小:3.61 MB

页数:104页

时间:2019-03-19

基于Spark的智慧城市房价评估系统的研究与实现_第1页
基于Spark的智慧城市房价评估系统的研究与实现_第2页
基于Spark的智慧城市房价评估系统的研究与实现_第3页
基于Spark的智慧城市房价评估系统的研究与实现_第4页
基于Spark的智慧城市房价评估系统的研究与实现_第5页
资源描述:

《基于Spark的智慧城市房价评估系统的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于Spark的智慧城市房价评估系统的研究与实现作者姓名车江涛指导教师姓名、职称顾新教授申请学位类别工学硕士万方数据万方数据学校代码10701学号分类号TP31密级公开西安电子科技大学硕士学位论文基于Spark的智慧城市房价评估系统的研究与实现作者姓名:车江涛一级学科:计算机科学与技术二级学科:计算机应用技术学位类别:工学硕士指导教师姓名、职称:顾新教授学院:计算机学院提交日期:2017年6月万方数据万方数据ResearchandImplementationofSmartCityHousingPriceAppraisalSystemBasedonSparkAthesi

2、ssubmittedtoXIDIANUNIVERSITYinpartialfulfillmentoftherequirementsforthedegreeofMasterinComputerApplicationTechnologyByCheJiangTaoSupervisor:GuXinTitle:ProfessorJune2017万方数据万方数据西安电子科技大学学位论文独创性(或创新性)声明秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含

3、其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。学位论文若有不实之处,本人承担一切法律责任。本人签名:日期:西安电子科技大学关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属于西安电子科技大学。学校有权保留送交论文的复印件,允许查阅、借阅论文;学校可以公布论文的全部或部分内容,允许采用影印、缩印或其它复制手段保存论文。同时本人保证,获得学位后结合学位论文

4、研究成果撰写的文章,署名单位为西安电子科技大学。保密的学位论文在年解密后适用本授权书。本人签名:导师签名:日期:日期:万方数据万方数据摘要摘要智慧城市的建设旨在解决城市发展过程中遇到的过于依赖人工、设计不够智能、预测不够精确等问题。房地产市场健康发展是智慧城市建设过程中与社会民生切实相关的重要组成部分。一方面,传统上房价评估依赖专业人士进行分析,凭借他们的经验和领域知识,进行主观分析,因而不能客观的评价出房屋的真实价格而且人工成本较高。另一方面,在早期城市信息化建设过程中,政府单位会根据需求建立房产业务系统。但这些业务系统仍存在以下的问题:随着城市规模的不断扩大和需求

5、多样性的进一步丰富,系统的数据量急剧增加,存储空间面临瓶颈;另外这些系统中的数据内部蕴含的十分重要的信息没有被有效挖掘。因此,传统的方法已经无法满足这些需求,研究一个支持大规模存储并能对房屋数据进行有效分析的系统成为解决上述问题的关键。基于以上需求和问题,在特征价格理论、大数据处理技术以及机器学习中的随机森林和线性回归算法基础上,研究和实现了房价评估的存储和分析系统。首先为了给房价评估提供更加准确的属性信息,设计和实现了一个快速的数据采集工具。其次为了解决上述数据量急剧增加的问题,实现了一个基于Hive的房产数据仓库,该数据仓库既可以一次性的将原来数据库中和房价评估有

6、关的数据进行导入,也可以定时将数据库中的数据进行增量导入。接着设计和实现了整套数据的预处理流程,对预处理后的房屋属性特征进行相关性分析,从而去除和房屋价格相关性小的属性。最终得到适合机器学习算法的房屋属性输入数据集。然后在Spark平台上根据特征价格理论构建房价评估的线性回归和随机森林模型,并利用数据仓库中的数据进行多次交叉验证和参数调优,选出能够使评估房价和真实房价之间误差与构建模型所需的时间相平衡的模型参数。同时为了提高访问房价评估结果的性能,设计和实现了一套基于Redis的数据结构和访问接口。最后,将房价评估模型以RESTfulWebService的形式发布来方

7、便用户使用。本文在测试验证阶段,首先在虚拟机的基础上搭建了一套大数据处理框架,包括基于Zookeeper的高可用分布式文件系统HDFS、数据ETL工具Sqoop、数据仓库工具Hive、分布式内存计算框架Spark以及结果缓存的内存数据库Redis。实验采用893200条样本数据进行模型训练与调优,实验结果表明随机森林模型比线性回归更加适合房价评估问题。当选择好随机森林的参数后,评估房价和真实房价之间的平均绝对误差低于0.03,两个算法构建模型的时间都在可接受范围之内。由于随机森林可以很好的学习出房屋数据中的特征,所以在真实环境中我们采用了随机森林模型

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。