欢迎来到天天文库
浏览记录
ID:32307747
大小:334.37 KB
页数:54页
时间:2019-02-03
《应用文本挖掘的分析生物医药领域专利热点方法地研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、应用文本挖掘分析生物医药领域专利的方法研究摘要专利的发明,制度的实施,专利的利用和保护,已经逐渐成为一个国家综合实力的重要特征。专利信息反映了最前沿的科学技术发展状况,具有信息完整,覆盖面广,可靠性强,信息量大等显著特点。因此对专利信息数据库中数据的统计分析也变得尤为重要。本文从生物医药领域的专利信息分析出发,从专利的基本概念开始,阐述了相关专利信息的组成及研究价值,通过调研文本挖掘应用于专利分析的各种方法,利用已有的分词工具把近二十年的USPTO的生物医药领域共15415条专利的标题进行分词,然后通过人工清洗,删除那些无关词
2、、词频很高但是不具代表性的词、和大量的停用词等处理形成词库,利用DEIPHI语言编写软件,计算每个词在每条专利中的TF-IDF值,并通过设定TF-IDF值和每个词在专利中出现的词频数共得到样本数据890条专利和312个词,在Excel中通过VBA构建了一个多维度相似度矩阵并导入SpssClementine软件中通过K-means算法进行聚类,将获得的5个聚类结果与IPC及USPC分类的结果进行横向比较,分析探讨对专利信息进行文本挖掘的应用方法以及专利聚类的成效。从试验结果看,本文采用的文本挖掘及进行自动聚类的分析方法,对于不同
3、IPC或USPC类别专利的聚类效果有所不同。尽管聚类结果不是非常的理想且由于样本数据量的限制而可能缺乏广泛的代表性,但是利用此方法通过扩大文本挖掘的范围并根据聚类效果不断调整词库中那些效果不理想的专利类别的关键词汇,是有可能改善聚类结果,获得一个比较实用的利用文本挖掘和自动聚类开展专利文献分析的参数体系和方法的。全文图15幅,表16个,参考文献39篇,其中英文参考文献10篇。关键词:文本挖掘;生物医药;文本聚类分类号:G255.53;G305IMethodsofAnalysisofBiologicalPharmaceutica
4、lPatentHotSpotsbyTextMiningAbstractTheinvention,utilizationandprotectionofpatentandtheimplementationofitsinstitutionisnowbecominganimportantfeatureofnationalcomprehensivestrength.Withtheoutstandingfeaturesoftheintegrityofinformation,thewidelycoverageandthereliabilit
5、y,thepatentinformationreflectstheforefrontofthedevelopmentofthescienceandtechnology,sothestatisticanalysisofthedatainpatentinformationdatabaseisalsoanimportantmatter.Basedonthepatentinformationofthebiomedicalfield,thisthesisexpoundedthebasicconceptofpatentandthecons
6、titutionandvalueofresearchofrelatedpatentinformation.Aftersurveyedvariousmethodsoftextminingthatusedinpatentanalysis,Iimplementthesegmentationbysegmentthe15415patenttitlesinthebiomedicalfieldoftheUSPROintherecenttwentyyearsbyusingtheexistingsegmentationtools,thendel
7、etetheirrelevantwords,thewordshavehighwordfrequencybutdonotrepresentative,lotsofthestopwordsbyartificialdatacleaningandconstructthecorpus.Afterthat,IauthoringsoftwareinDEIPHIlanguagetocomputetheTF-IDFvalueofeachwordinapatent,andgetthesampleddatawhichcontained890pate
8、ntsand312wordsbysettingtheTF-IDFvalueandthewordfrequencyofeachwordinthepatent,thenconstructthesimilaritymatrixinExcelbyusingVBA,andimporti
此文档下载收益归作者所有