随机森林方法在电信行业客户流失预测中的应用.doc

随机森林方法在电信行业客户流失预测中的应用.doc

ID:27861227

大小:443.00 KB

页数:10页

时间:2018-12-06

随机森林方法在电信行业客户流失预测中的应用.doc_第1页
随机森林方法在电信行业客户流失预测中的应用.doc_第2页
随机森林方法在电信行业客户流失预测中的应用.doc_第3页
随机森林方法在电信行业客户流失预测中的应用.doc_第4页
随机森林方法在电信行业客户流失预测中的应用.doc_第5页
资源描述:

《随机森林方法在电信行业客户流失预测中的应用.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、收稿日期:2016-08-08录用日期:2016-12-09基金项目:福建省软科学项目(2015R0083)1*通信作者:qiuyihui@xmut.edu.cndoi:10.6043/j.issn.0438-0479.201608004基于分类回归决策树算法的专利价值评估指标体系邱一卉*张驰雨(厦门理工学院经济与管理学院,福建厦门361024)摘要:科学、准确的专利价值评估将有效地促进专利的产业化、商业化,是提升国家、企业综合实力的重要关键点。针对我国专利数据来源众多、指标关系复杂等特点,现有专利价值评估过程依赖人为主观,缺乏客观、合理评估方法等问题,提出了一种基于分类回归决策树(class

2、ificationandregressiontree,CART)模型的属性选择方法,用于构建专利价值评估的指标体系。实验结果表明相较于基于随机森林的属性选择方法,该方法不仅能有效地降低指标体系的规模,并且能提高评估建模的效率,在兼顾评估模型可解释性的基础上更好地提高专利价值评估的准确性。进一步通过枚举遍历的方法,约减指标集大小,构建出规模更小的指标体系,结合专家知识和实证研究,有效地验证了该指标体系的可解释性和现实意义。关键词:专利价值评估指标体系;属性选择;决策树算法中图分类号:TP181文献标志码:A*通信作者:qiuyihui@xmut.edu.cn作者简介:邱一卉,女,博士,副教授,从

3、事方向:管理科学及工程基金项目:福建省软科学项目(2015R0083)近年来,我国的专利总量快速增长。2015年,我国全年科研经费支出达14220亿元,比上年增长9.2%,全年受理专利申请279.9万件,为171.8万件授予专利权[1]。据世界银行统计,我国的科技成果转换率为15%,其中专利转换率为25%,专利推广率在15%~20%左右,与庞大的专利数量相比,如此之低的转换率使得大量优秀专利技术处于闲置和浪费状态,缺乏有效的专利价值评估手段就是影响专利快速转换的一大阻碍。若能快速有效地对专利进行评估,不仅可以节约60%的研究时间,更可以节省40%的研究经费[1~3]。因此,进行有效地专利价值评

4、估是最为关键的一环。专利价值评估涉及诸多的指标,因此识别影响专利价值的关键指标有利于我们进行更加准确和有效的专利评估。近年来国内外学者在专利价值评估指标体系方面研究取得了不少成果,Park[4]和Hou[5]分别提出了影响专利价值评估的主要因素,也出现了CHI专利价值评估指标体系[6]和佐治亚太平洋(GeorgiaPacific)评估体系[7]等相关指标体系。杨丹丹、李清海、赵蕴华等[8~14]提出了影响专利价值评估的关键指标,并构建了专利价值评估指标体系。国家知识产权局于2012年出版了《专利价值分析指标体系操作手册》[15],该体系主要包括技术价值因素、法律价值因素及经济价值因素3个一级指

5、标及一系列二级指标,为专利价值评估提供指导性的先验信息。综上,国内外学者对专利价值评估指标体系研究取得了不少成果,在实际应用邻域仍未形成统一的评估模型及标准。我国专利数据库也存在不完善、未标准化等问题使得很多国外的研究成果不适用于我国的专利价值评估,导致以往的专利价值评估过程中过于依赖人为评价、主观性太强,缺乏公正、合理和易操作的评估方法。在这一背景下,利用跨领域的新方法对专利价值评估指标体系进行进一步研究将具有重要的理论意义和实践价值。专利价值评估数据具有来源众多、指标关系复杂、类别不平衡等特点,为进一步提高评估性能,对专利价值评估数据进行属性选择、建立一个简约的专利价值评估指标体系十分必要

6、。机器学习领域的属性选择分为三种模式:第一种模式是过滤器(Filter)方法,独立的对数据属性进行选择处理,与后续模型无关;第二种模式是包裹式(Wrapper)方法,直接把最终将使用的模型性能作为特征子集的评价准则;第三种模式是嵌入式(Embedding)方法,将属性选择过程与模型训练过程融为一体。一般而言,由于包裹式属性选择方法直接针对模型进行优化,因此从最终模型性能来看,包裹式特征选择比过滤式特征选择更好。Fisher’sratio、F-score[16]和Chi-Square[17]属性选择方法都是过滤器式的方法。这些方法无法检测属性*通信作者:qiuyihui@xmut.edu.cn作

7、者简介:邱一卉,女,博士,副教授,从事方向:管理科学及工程基金项目:福建省软科学项目(2015R0083)之间的关系,所选取的属性之间可能存在严重冗余,提高过拟合风险。而KP-SVM[18](Kernel-PenalizedSupportVectorMachine)和Boosting-SVM[19](BoostingSupportVectorMachine)则是嵌入式的属性选择方法,嵌入式的属性选

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。