应用文本挖掘的分析生物医药领域专利热点方法地研究

应用文本挖掘的分析生物医药领域专利热点方法地研究

ID:32307747

大小:334.37 KB

页数:54页

时间:2019-02-03

应用文本挖掘的分析生物医药领域专利热点方法地研究_第1页
应用文本挖掘的分析生物医药领域专利热点方法地研究_第2页
应用文本挖掘的分析生物医药领域专利热点方法地研究_第3页
应用文本挖掘的分析生物医药领域专利热点方法地研究_第4页
应用文本挖掘的分析生物医药领域专利热点方法地研究_第5页
资源描述:

《应用文本挖掘的分析生物医药领域专利热点方法地研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、应用文本挖掘分析生物医药领域专利的方法研究摘要专利的发明,制度的实施,专利的利用和保护,已经逐渐成为一个国家综合实力的重要特征。专利信息反映了最前沿的科学技术发展状况,具有信息完整,覆盖面广,可靠性强,信息量大等显著特点。因此对专利信息数据库中数据的统计分析也变得尤为重要。本文从生物医药领域的专利信息分析出发,从专利的基本概念开始,阐述了相关专利信息的组成及研究价值,通过调研文本挖掘应用于专利分析的各种方法,利用已有的分词工具把近二十年的USPTO的生物医药领域共15415条专利的标题进行分词,然后通过人工清洗,删除那些无关词

2、、词频很高但是不具代表性的词、和大量的停用词等处理形成词库,利用DEIPHI语言编写软件,计算每个词在每条专利中的TF-IDF值,并通过设定TF-IDF值和每个词在专利中出现的词频数共得到样本数据890条专利和312个词,在Excel中通过VBA构建了一个多维度相似度矩阵并导入SpssClementine软件中通过K-means算法进行聚类,将获得的5个聚类结果与IPC及USPC分类的结果进行横向比较,分析探讨对专利信息进行文本挖掘的应用方法以及专利聚类的成效。从试验结果看,本文采用的文本挖掘及进行自动聚类的分析方法,对于不同

3、IPC或USPC类别专利的聚类效果有所不同。尽管聚类结果不是非常的理想且由于样本数据量的限制而可能缺乏广泛的代表性,但是利用此方法通过扩大文本挖掘的范围并根据聚类效果不断调整词库中那些效果不理想的专利类别的关键词汇,是有可能改善聚类结果,获得一个比较实用的利用文本挖掘和自动聚类开展专利文献分析的参数体系和方法的。全文图15幅,表16个,参考文献39篇,其中英文参考文献10篇。关键词:文本挖掘;生物医药;文本聚类分类号:G255.53;G305IMethodsofAnalysisofBiologicalPharmaceutica

4、lPatentHotSpotsbyTextMiningAbstractTheinvention,utilizationandprotectionofpatentandtheimplementationofitsinstitutionisnowbecominganimportantfeatureofnationalcomprehensivestrength.Withtheoutstandingfeaturesoftheintegrityofinformation,thewidelycoverageandthereliabilit

5、y,thepatentinformationreflectstheforefrontofthedevelopmentofthescienceandtechnology,sothestatisticanalysisofthedatainpatentinformationdatabaseisalsoanimportantmatter.Basedonthepatentinformationofthebiomedicalfield,thisthesisexpoundedthebasicconceptofpatentandthecons

6、titutionandvalueofresearchofrelatedpatentinformation.Aftersurveyedvariousmethodsoftextminingthatusedinpatentanalysis,Iimplementthesegmentationbysegmentthe15415patenttitlesinthebiomedicalfieldoftheUSPROintherecenttwentyyearsbyusingtheexistingsegmentationtools,thendel

7、etetheirrelevantwords,thewordshavehighwordfrequencybutdonotrepresentative,lotsofthestopwordsbyartificialdatacleaningandconstructthecorpus.Afterthat,IauthoringsoftwareinDEIPHIlanguagetocomputetheTF-IDFvalueofeachwordinapatent,andgetthesampleddatawhichcontained890pate

8、ntsand312wordsbysettingtheTF-IDFvalueandthewordfrequencyofeachwordinthepatent,thenconstructthesimilaritymatrixinExcelbyusingVBA,andimporti

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。