ImageVerifierCode 换一换
格式:DOCX , 页数:11 ,大小:64.04KB ,
资源ID:19715979      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/19715979.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(国外专利文本挖掘可视化工具研究Word文档下载推荐.docx)为本站会员(b****5)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

国外专利文本挖掘可视化工具研究Word文档下载推荐.docx

1、专利信息分析内容主要包括专利信息分析流程、专利信息分析方法等。在此重点介绍专利信息分析流程,专利信息分析方法将在2.2中阐述。图1 专利信息分析流程专利信息分析流程一般分为准备期、分析期和应用期三个阶段。准备期是保证专利信息分析达到目标的基础。分析期是专利信息分析工作的主体,主要包括数据采集和数据分析两个阶段。应用期是分析工作的延伸,是专利信息分析的价值体现。各阶段具体包括的内容见图12。2 专利分析工具的主要功能随着信息技术的飞速发展,文本挖掘、信息可视化技术已被应用到专利分析领域,众多专利分析工具应运而生。尽管不同分析工具各有专长,但是总的来说,专利分析工具的作用主要体现在为分析期提供准确

2、的数据,从不同层面对专利文献进行科学的分析以及分析结果的可视化显示。2.1 数据清洗数据清洗又称数据规范、数据预处理,是影响专利信息分析效果至关重要的一步,其作用是为专利分析提供准确的数据,主要包括:(1)对检索到的专利文献进行相关性筛选,将符合条件的专利文献纳入分析数据集。(2)同一概念不同写法进行规范,以消除同一概念、同一事物不同写法造成的分析误差。2.2 分析方法实现及其结果可视化显示专利信息分析方法通常分为定性分析、定量分析和拟定量分析,目前信息分析工具可实现的方法归纳起来主要包括基本统计分析、共现分析、聚类分析和引证分析四大类。基本统计分析:即简单的定量统计分析,是指依据专利文献固有

3、的标引项,对专利申请时间、申请人、申请机构、申请国家、同族专利量等指标分别进行统计,用于把握专利文献的分布状况及其发展态势。分析结果通常以列表、直方图表形式展现。共现分析:是指相同或不同类型特征项信息共同出现的现象。通过对专利统计中专利分类号、专利权人、专利申请时间、专利申请国、专利技术焦点等进行组配统计3,用于揭示专利信息的内容关联和特征项所隐含的知识。分析结果显示方式主要有共现矩阵和曲线图。聚类分析:是指利用聚类技术将同一数据集中的专利,按照技术分类聚成不同的子类,以揭示该特定技术领域内各个子领域的分布情况,分析各主要竞争对手在各子领域内的专利分布情况。目前专利聚类主要是按主题进行聚类,呈

4、现结果可以按竞争对手和时间顺序进行浏览4。聚类分析的结果展示方式主要有聚类地图、结构化数据聚类和非结构化数据聚类5。引证分析:是指对目标专利的引用和被引用的情况进行分析。通过研究专利之间的引用关系及规律,探求技术之间的联系和发展规律,跟踪对应于不同技术的专利网络,反映特定技术领域的生命周期,以及竞争对手之间技术相互依赖关系。分析结果呈现主要有引证表、引证树和引证地图4。3 国外常用专利分析工具前面总结了专利分析工具可实现的主要功能,本部分将重点列举国外常用的专利分析工具,并依据专利分析工具可分析的数据源,将其分为非结构化数据分析工具、结构化数据分析工具和混合型数据分析工具三大类6。3.1 非结

5、构化数据分析工具非结构化数据分析工具是指擅长分析专利全文、期刊论文、网页内容等非结构化数据的软件,主要包括ClearForest, Goldfire Innovator, OminiViz和TEMIS。3.1.1 ClearForestClearForest是美国Thomoson Reuters公司开发的具有强大功能的文本分析解决方案,包括先进的文本标记抽取平台、分析平台以及开发环境。ClearForest最具特色的功能是可以将非结构化数据库转化为结构化数据,如从论文、网页等非结构化文本中抽取相关词语生成结构化数据,进而利用其分析功能对结构化数据进行文本挖掘,如分类、聚类,生成列表、共现矩阵、

6、聚类图等。此外该工具还提供了文本分析可视化功能,用于挖掘类间隐含关系和发现新知识。7-83.1.2 Goldfire InnovatorGoldfire Innovator是由美国Invention Machine公司开发的一款文本挖掘分析工具,由创新工作平台(Innovators Workbench)、“研究者”(Researcher)和 Goldfire 智囊库(Goldfire Intelligence)三部分组成。创新工作平台提供了一个解决问题的环境,可以利用多种分析工具、方法辅助对问题的理解;“研究者”是其知识搜取和创新趋势分析模块,利用复杂的语义分析技术将非结构化数据转化为可检索的

7、语义索引进行专利分析,帮助用户发现核心技术、发明人及其合作伙伴和竞争对手;Goldfire 智囊库(Goldfire Intelligence)涵盖全球1500多万件专利、3000个专业技术网站和8000多种科技期刊,用于辅助其专利分析决策。以上三大功能模块构筑了Goldfire Innovator强大的分析功能。93.1.3 OminiVizOminiViz是英国BioWisdom公司开发的一款先进的可视化单机版数据分析软件。该软件有两大特色:一是分析数据类型广泛,可以对数值数据、分类数据、基因序列、化学结构以及专利、论文等多种数据类型进行分析;二是整合复杂的统计算法、文本算法对大规模数据进

8、行分析生成强大的可视化图谱辅助用户对数据的理解,可视化图谱主要有Galaxy图、CoMet图、ThemeMap和聚类图等。103.1.4 TEMISTEMIS是美国TEMIS公司开发的一款用于商业智能的文本挖掘工具。TEMIS依靠其强大的数据算法、语言学算法,将多种文本类型的非结构化数据转化为结构化数据,并对结构化数据进行分析,生成列表、聚类图等11。但是TEMIS在结果可视化展示方面还存在较大不足,因此限制了其应用范围。3.2 结构化数据分析工具结构化数据分析软件主要用于对数据库中的专利信息、文献题录信息进行分析,主要包括Thomson Data Analyzer,VantagePoint,

9、Quosa, RefViz, STN AnaVist和Vxinsight。3.2.1 Thomson Data Analyzer Thomson Data Analyzer美国Thomson Reuters公司与Search Technology公司联合推出的数据挖掘和可视化分析工具。由美国Search Technology公司的VantagePoint引擎提供技术支持,具有VantagePoint的大部分功能。TDA除支持德温特世界专利索引、Web of Science和Pubmed等常用数据库外,还支持MS Excel数据的导入。TDA软件提供强大的数据清洗功能保证了数据分析的准确性,在分

10、析功能方面支持基本统计、共现分析、聚类分析,但不支持专利引文分析功能,结果显示方面可自动生成列表、矩阵、聚类图、报告等功能。12VantagePoint软件与Thomson Data Analyzer软件功能基本类似,在此不再赘述。3.2.2 QuosaQuosa是美国Quosa公司开发的一款集文献检索、全文下载、文献管理及文献分析于一体的单机版文本挖掘工具。该软件支持 Ovid、PubMed、Google Scholar、USPTO 等的直接搜索,并将PDF全文下载到本地进行组织管理,并可对文献进行概念提取和聚类。其文献全文自动下载、最新进展追踪、PDF 文献信息自动识别以及全文分析功能是同

11、类文献管理软件所不具备的13,但其分析功能与专业类文献分析软件相比功能还较少。3.2.3 RefVizRefViz 是美国Thomson Reuters公司开发的用于文献信息分析可视化的单机版软件。该软件主要特色是其统计、语义分析功能,但是RefViz只能分析结构化数据,如来自文献数据库或文献管理软件的文献题名、摘要、主题词等信息,不能分析非结构化数。此外,在数据分析时可利用其词库工具(thesaurus tools)对数据进行清洗以确保数据分析的准确性。文献分析结果显示可生成Galaxy视图和二维矩阵视图。143.2.4 STN AnaVistSTN AnaVist是美国化学协会 (ACS)

12、 分支机构化学文摘服务社 (CAS) 与 FIZ Karlsruhe共同开发的一款科技文献、专利文献文本分析可视化软件。支持化学文摘、德温特世界专利索引、欧洲专利数据库和美国全文专利数据库等多个数据库的内容。此外,STN AnaVist可利用CAS词表对机构、技术术语进行数据规范以提高数据分析的质量。文献分析结果显示可生在图表,以及采用聚类技术生在成的研究景观图。153.2.5 VxinsightVxinsight是由美国能源部桑地亚(Sandia)国家实验室开发的一款单机版免费的文本分析可视化软件。该软件的主要特色是采用三维虚拟地图的形式来模拟聚类信息,以揭示科技文献、专利、蛋白、基因间的相

13、关性。16,173.3 混合型数据分析工具混合型数据分析软件是一类即可以分析结构化数据又可以分析非结构化数据的软件,主要包括:Aureka, M-CAM Doors, Wisdomain和PatAnalyst,这些工具都整合了专利数据库检索功能。3.3.1 AurekaAureka是美国Thomson Reuters公司开发的一个在线的知识产权管理和分析平台,提供强大的专利检索、管理、分析(包括专利引证分析,专利地图分析等)预警等功能。在专利分析方面,通过ThemeScape提供聚类分析生成专利地图,通过Aureka Citation Tree提供引文分析生成引证树,揭示专利信息间的相互关联,

14、为用户技术研发与自主创新、专利评价与评估、专利权保护、企业联营与合作或兼并等的生产经营决策活动提供帮助。Aureka软件在数据清洗方面功能较弱是该软件的主要不足。183.3.2 WisdomainWisdomain是美国Wisdomain公司开发的一个专利分析解决方案,整合FOCUST、PatentMagnet、PatentFamilyTree、PatentLab-II四个工具,支持美国、欧洲、中国、日本、韩国和世界PCT专利检索,提供基本统计、共现分析和引证分析功能,分析结果可以列表、聚类图、引文图形式显示。193.3.3 Delphion专利信息平台Delphion是美国Thomson R

15、euters公司开发的专利信息服务平台,集成 Snapshot、Corporate Tree、PatentLab-II、Text Clustering、Citation Link五个工具,分别提供在线分析、公司名称规范、列表和直方图等图表生成、文档聚类、引文分析功能。Delphion专利信息平台收录专利范围广、整合分析工具多是其主要特色,但其按服务项目、专利下载数量收费的服务模式,使得一般用户难以承受其高昂的费用。203.4 专利分析工具比较以上对国外常用的非结构化数据分析工具、结构化数据分析工具、混合型数据分析工具进行了简单介绍,下面将从分析工具类型、分析数据源、主要功能、结果呈现、用户群五

16、个方面,对13个分析软件进行比较6,见表2。非结构化数据分析工具,主要基于其强大的语义分析技术,将非结构化数据转化为结构化数据,进而利用其强大的分析功能对其进行分析。这四个软件中,ClearForest,Goldfire Innovator,TEMIS价格昂贵,限制了其在国内的应用;Ominiviz为单机版软件,除具有文本挖掘功能外还具有强大可视化功能,其可视化功能在众多软件中尤为出众。结构化数据分析工具,目前国内在科技文献、专利文献分析应用较多的主要是Thomson Data Analyzer,该软件支持20多种文献数据源(期刊文献和专利文献),是目前已知文献信息分析工具中支持数据最为广泛的

17、软件,且支持MS Excel文件(含中文)的导入;此外该软件还具有强大的数据清洗功能、自动生成专利报告的功能,这些功能是其软件无法与之媲美的;但是Thomson Data Analyzer在专利地图制作、文献结果可视化方面还存在不足,限制了其在专利分析中的应用。Quosa和Refviz主要用于期刊文献的管理和分析,支持数据源较少;STN AnaVist自带技术术语、机构分析词表可用于专利文献数据清洗,但对大规模数据库的清洗仍是该软件面临的巨大挑战。Vxinsight是本文介绍的分析工具中唯一一款免费的软件,主要特色是可以生成二维、三维聚类地图用于揭示专利、文献间的关系,但该软件在专利分析应用方

18、面功能较弱。混合型数据分析工具,除提供专利分析功能外,还提供专利文献检索、数据下载功能,文中提到的三个分析工具分析功能完备,均具有数据清洗功能,提供基本统计、共现分析、聚类分析、引文分析(仅对US专利进行分析),并可对分析结果进行可视化显示。但这三个工具在专利分析方面各有其优势与不足,如Aureka可采用聚类分析生成主题(词汇)地形图,用于专利技术主题分布研究,而在专利国家、机构分析分析方面由于缺乏数据清洗功能,分析结果准确性不足;Wisdomain仅能分析自带数据库检索结果,不具有数据导入功能;Delphion主要用于专利数据检索,在数据分析方面相比Aureka和Wisdomain功能较弱。

19、4小结专利信息分析工具是顺利开展专利信息分析的重要保障,专利分析工具的好坏将直接影响到专利分析的效率和结果的准确性,在应用专利分析工具开展分析时,还应注意以下几点:(1)融会信息分析思维,选择恰当分析工具。目前国外专利分析工具众多,在开展专利信息分析工作时,应根据不同的分析目的、拟解决的问题,结合不同分析工具的主要功能,选择恰当的分析工具。 (2)结合人工干预,提高分析质量。高质量专利分析报告的完成离不开对专利文献的文本挖掘,但是仅有文本挖掘工具或信息技术专家是不够的,还需要具有专业知识背景专家的干预。在专利分析工具使用过程中,从数据检索、数据规范、数据分析以及结果的解释都离不开人工的干预以及

20、专家的支持。(3)分析工具尚不完善,分析功能有待进一步提升。随着文本挖掘和信息可视化技术在专利分析工具中的应用,分析工具有了较大的提升,但仍存在一些不足,如多数据源融合度低、数据清洗功能弱、知识挖掘程度浅等,因此随着自然语言处理、人工智能创新技术的不断进步,分析工具功能将不断完善。表2 国外13种专利文本挖掘可视化工具比较工具名称工具类型分析数据源主 要 功 能用户群数据清洗分析方法结果呈现基本统计共现分析聚类引证非结构化数据分析工具ClearForest文本挖掘结构化数据和非结构化数据有无列表、矩阵、聚类图商业智能Goldfire Innovator非结构化数据不详分类图、趋势图研发人员Om

21、iniViz文本挖掘/可视化结构化数据和非结构化数据(数值数据、分类数据、基因序列、化学结构)交互式可视化图谱(Galaxy图、CoMet图、ThemeMap和聚类图等)TEMIS列表、聚类图研发人员/商业智能结构化数据分析工具Quosa文本挖掘/文献管理结构化数据(PubMed,Ovid,Google Scholar,USPTO等)数据分组和注释RefViz结构化数据(Web of Science,PubMed,OCLC等)和来自参考文献管理软件的数据Galaxy图和矩阵图研发人员/信息管理人员STN AnaVist文本挖掘/数据库检索结构化数据(CA plus, US,PCT,DWPI)列

22、表、图表、研究景观图(research landscape)信息管理人员/商业智能/研发人员Thomson Data Analyzer 结构化数据(Web of Science,PubMed,DWPI等)及MS Excel格式数据列表、图表、矩阵、聚类图、专利报告信息管理人员/商业智能Vxinsight结构化数据(ODBC方式存取的多种数据类型)聚类图(二维、三维)研发人员/信息管理混合型数据分析工具Aureka文本挖掘/可视化/数据库检索US,DE,EP,GB,JP(仅文摘)和PCT专利ThemeMap、引文树、聚类图、专利报告研发人员/信息管理人员/决策人员/商业智能WisdomainUS

23、,DE,EP,JP,PCT,中国,韩国,INPADOC列表、图表、系统树、引文图Delphion专利信息平台US,DE,EP,JP,PCT,INPADOC,DWPI列表、引文树、聚类图研发人员/信息管理/商业智能参考文献:1 骆云中,陈蔚杰,徐晓琳.专利情报分析与利用M.上海:华东理工大学出版社,2007:1302 陈燕,黄迎燕,方建国,等编著.专利信息采集与分析M.北京:清华大学出版社,2006:67.3 暴海龙,朱东华.专利情报分析方法综述.北京理工大学学报(社会科学版)J. 2002,4(S1):91-934 张静,刘细文,柯贤能,等.国外专利分析工具功能比较研究J.情报理论与实践. 2

24、008,31(1):141-1455 Anthony J. Trippe. Patinformatics: Tasks to toolsJ.World Patent Information,2003,25:211-2216Yang Yunyun,Akers Lucy, Klose Thomas,et al.Text mining and visualization tools Impressions of emerging capabilitiesJ. World Patent Information.2008,30:280-2937 Thomoson Reuters.ClearForest

25、. 2009-04-15.8 瞿卫军,刘洋,王雷(编译).专利信息学(下):任务与工具J.竞争情报,2006,(4):18-249 Invention Machine.Goldfire Innovator . 2009-04-15. http:/invention-10 BioWisdom.OminiViz . 2009-04-15.11TEMIS.TEMIS text intelligence. 2009-04-15.12 Thomson Reuters. Thomson Data Analyzer .2009-04-15. 13Quosa. Quosa . 2009-04-15.14 Thomson Reuters.RefViz. 2

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1