欢迎来到天天文库
浏览记录
ID:34607337
大小:249.17 KB
页数:9页
时间:2019-03-08
《文本挖掘在专利分析中的应用new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、文本挖掘在专利分析中的应用中国专利信息中心方建国在当今经济全球化中,土地,劳动力和融分析家和知识产权律师的注意。资金的减少并不是主要因素,而技术人员创本文所重点研究的信息技术,用来帮助造的智力成果越来越成为一个决定公司价知识产权律师的日常情报检索、评估分析和值的主要因素。基于此,专利和其他知识产专利分类。"文本挖掘"是指从文献中提取动权(IP)文献,正在逐渐吸引研发人员、金态的知识和情报。InsightsandcontextfromthemindKnowledgeRequiresreflectionandsynthesis
2、Difficulttostructure,captureonmachines,andtransferOftentacitDataendowedwithrelevanceInformationandpurposeNeedconsensusonmeaningHumanmediationnecessaryDiscrete,objectivefactsaboutDatatheworldEasilystructuredandcapturedEasilytransferred图1一、专利分析的相关情报和技术其它租用线路连接当地的文献服
3、务器1、知识产权或专利相关数据的获得提取数据,这些文献服务器与一个内容丰富的数据资源,不断升级的计算机设不断修改、更新的中央知识库相连接。备,相关的数据库软件和现代数字图书如图2所示。然而便捷地提取大量数据馆使得用电子版形式收集大量文献比只是第一步。第二步是真正的增值情以往更容易。例如,1971年以后,美国报,它是在第一步的基础上对信息进行专利文献以及高质量的相关附图可以检索、分析和挖掘。很方便地在网上访问。通过Internet或Local/CentralPatentServerLocalDocumentLocalDocu
4、mentServerServerInternetorLANLeasedLineWebServer/PCServer320IcCentralServerRepository图22、文本挖掘工具检索系统)则依赖基础索引的方法。类似于与数字的或有特定结构的数据不同,文图书馆的卡片目录,索引文件在提问式之前本数据是非结构性的。这意味着在文本挖掘被建立和储存。提问式有不同的形式,如布之前有必要对数据进行加工整理,诸如动词尔关键词检索、相关的模糊检索,甚至例子的变化形式、名词的单复数变化等。为了减的句子或整个段落可以被当作提问式,来检
5、小复杂性,需要对数据加工整理。依据文本索全部文献。另一个高级检索技术的例子是挖掘的实质,这种整理可以有多种形式来完“语音检索”。在语音检索中,不仅可以发成。以下是一组具有代表性的文本挖掘工现匹配精确,而且产生类似发音的词汇。根具,这些工具可以应用到专利情报分析中如据使用者提供的辞典,提问式还能包括同义图3所示。字。3、高级搜索引擎对数据庞大的文献集合,简单的检索需要花费很长时间,而高级搜索引擎(或信息TextAnalysisToolsAdvancedWebSearchAccessEngineTools图3InCLUSTER
6、ING,documentInCATEGORIZATION,documentcollectionsareprocessedandgroupedintocollectionsareprocessedandgroupedintoclustersthataredynamicallygeneratedbycategoriesthatarepredeterminedbasedonathealgorithmuser-providedtaxonomy.DocumentCollectionCat1TrainingSetDocumentCol
7、lectionCat2TrainingSetCat3TrainingSetClusteringCategorizerToolTrainerCat1Cat2Cat3Cat4Cluster1Cluster2Cluster3Cluster4图44、网络访问工具人监督”或“有人监督”形式中产生,分别网络搜索器从一个或多个网页开始搜被称为“聚类”或“编目”,见图4。“无人录,接着选择HTML联接。例如,IBM公监督”(即自动)分类或聚类对于目录之间司的网络搜索器可以检索任何内容或语音的相互关系可以产生有价值的评价,对于阻形式的主题如
8、HTML(网页)、全文、图像、止额外的文本数据进入被管理的数据中,这声音或录像,并将它们存贮起来,以便进一一技术也是行之有效的。图5介绍了一种聚步使用。这个网络搜索器能跟踪所选网页的类方法。这是由(语音分析)转换非结构文动态信息和变化情况,还可以合并信息检索本数据到有结构的“元数据”,从而进行的与搜索引
此文档下载收益归作者所有