国外专利文本挖掘可视化工具研究.docx

上传人:b****5 文档编号:5896092 上传时间:2023-01-02 格式:DOCX 页数:11 大小:63.75KB
下载 相关 举报
国外专利文本挖掘可视化工具研究.docx_第1页
第1页 / 共11页
国外专利文本挖掘可视化工具研究.docx_第2页
第2页 / 共11页
国外专利文本挖掘可视化工具研究.docx_第3页
第3页 / 共11页
国外专利文本挖掘可视化工具研究.docx_第4页
第4页 / 共11页
国外专利文本挖掘可视化工具研究.docx_第5页
第5页 / 共11页
点击查看更多>>
下载资源
资源描述

国外专利文本挖掘可视化工具研究.docx

《国外专利文本挖掘可视化工具研究.docx》由会员分享,可在线阅读,更多相关《国外专利文本挖掘可视化工具研究.docx(11页珍藏版)》请在冰豆网上搜索。

国外专利文本挖掘可视化工具研究.docx

国外专利文本挖掘可视化工具研究

国外专利文本挖掘可视化工具研究

王敏李海存许培扬

中国医学科学院医学信息研究所

摘要:

本文首先简要介绍专利信息分析概念以及开展专利信息分析的一般流程,其次概述专利分析工具可实现的主要功能;然后根据专利分析软件可分析的数据源,将分析工具分为非结构化数据分析工具、结构化数据分析工具和混合型数据分析工具三大类,进而对国外常用的13种专利文本挖掘可视化分析工具进行系统介绍和比较;最后对专利分析工具应用及其发展提出建议。

关键词:

文本挖掘可视化工具专利分析竞争情报

ForeignTextmininganddatavisualizationtoolsinpatentinformationanalysis

Wangmin,LiHaicun,ZhangBin,XuPeiyang

Abstract:

Thisarticlestartswithanintroductionofthedefinitionofpatentinformationanalysisanditsprocess,andthensummarizesthemainfunctionofpatentanalysistools.Themainpartinthisarticleistoprovideadetailedoverviewandcomparisonofthirteenforeigntextmininganddatavisualizationtoolsinpatentinformationanalysis,whichcanbeclassifiedintostructuredanalysistools,unstructuredanalysistoolsandhybridanalysistoolsaccordingtodifferenttypesofdatasources.Finally,thearticlegivessomesuggestionsastotheapplicationanddevelopmentofpatentinformationanalysistools.

Keywords:

textmining;datavisualizationtools;patentinformationanalysis;Competitiveintelligence

随着知识经济全球化进程的加快,专利文献作为反映科技发展,特别是技术发展态势的重要情报来源,在科技战略制定中发挥着日益重要的作用。

如何对其开展有效的分析,辅助政府部门、科研机构、高新企业进行专利战略布局和专利技术研发,成为情报机构开展情报分析、战略决策的重要方向。

专利信息分析离不开高效分析工具的支持,专利信息分析方法、分析工具的合理使用是决定信息分析水平、效率以及信息分析质量和效益的重要因素。

本文首先对专利信息分析进行简要概述,其次重点对国外常用的专利分析工具进行系统调研,以期为国内开展专利信息分析工作提供借鉴。

1专利信息分析概述

专利信息分析是是竞争情报分析的重要形式,是在对专利文献进行筛选、鉴定、整理基础上,利用文献计量学方法,对其所含的各种信息要素进行统计、排序、对比、分析和研究,从而揭示专利文献的深层动态特征,了解技术、经济发展的历史及现状,进行技术评价和技术预测[1]。

专利信息分析内容主要包括专利信息分析流程、专利信息分析方法等。

在此重点介绍专利信息分析流程,专利信息分析方法将在2.2中阐述。

图1专利信息分析流程

专利信息分析流程一般分为准备期、分析期和应用期三个阶段。

准备期是保证专利信息分析达到目标的基础。

分析期是专利信息分析工作的主体,主要包括数据采集和数据分析两个阶段。

应用期是分析工作的延伸,是专利信息分析的价值体现。

各阶段具体包括的内容见图1[2]。

2专利分析工具的主要功能

随着信息技术的飞速发展,文本挖掘、信息可视化技术已被应用到专利分析领域,众多专利分析工具应运而生。

尽管不同分析工具各有专长,但是总的来说,专利分析工具的作用主要体现在为分析期提供准确的数据,从不同层面对专利文献进行科学的分析以及分析结果的可视化显示。

2.1数据清洗

数据清洗又称数据规范、数据预处理,是影响专利信息分析效果至关重要的一步,其作用是为专利分析提供准确的数据,主要包括:

(1)对检索到的专利文献进行相关性筛选,将符合条件的专利文献纳入分析数据集。

(2)同一概念不同写法进行规范,以消除同一概念、同一事物不同写法造成的分析误差。

2.2分析方法实现及其结果可视化显示

专利信息分析方法通常分为定性分析、定量分析和拟定量分析,目前信息分析工具可实现的方法归纳起来主要包括基本统计分析、共现分析、聚类分析和引证分析四大类。

基本统计分析:

即简单的定量统计分析,是指依据专利文献固有的标引项,对专利申请时间、申请人、申请机构、申请国家、同族专利量等指标分别进行统计,用于把握专利文献的分布状况及其发展态势。

分析结果通常以列表、直方图表形式展现。

共现分析:

是指相同或不同类型特征项信息共同出现的现象。

通过对专利统计中专利分类号、专利权人、专利申请时间、专利申请国、专利技术焦点等进行组配统计[3],用于揭示专利信息的内容关联和特征项所隐含的知识。

分析结果显示方式主要有共现矩阵和曲线图。

聚类分析:

是指利用聚类技术将同一数据集中的专利,按照技术分类聚成不同的子类,以揭示该特定技术领域内各个子领域的分布情况,分析各主要竞争对手在各子领域内的专利分布情况。

目前专利聚类主要是按主题进行聚类,呈现结果可以按竞争对手和时间顺序进行浏览[4]。

聚类分析的结果展示方式主要有聚类地图、结构化数据聚类和非结构化数据聚类[5]。

引证分析:

是指对目标专利的引用和被引用的情况进行分析。

通过研究专利之间的引用关系及规律,探求技术之间的联系和发展规律,跟踪对应于不同技术的专利网络,反映特定技术领域的生命周期,以及竞争对手之间技术相互依赖关系。

分析结果呈现主要有引证表、引证树和引证地图[4]。

3国外常用专利分析工具

前面总结了专利分析工具可实现的主要功能,本部分将重点列举国外常用的专利分析工具,并依据专利分析工具可分析的数据源,将其分为非结构化数据分析工具、结构化数据分析工具和混合型数据分析工具三大类[6]。

3.1非结构化数据分析工具

非结构化数据分析工具是指擅长分析专利全文、期刊论文、网页内容等非结构化数据的软件,主要包括ClearForest,GoldfireInnovator,OminiViz和TEMIS。

3.1.1ClearForest

ClearForest是美国ThomosonReuters公司开发的具有强大功能的文本分析解决方案,包括先进的文本标记抽取平台、分析平台以及开发环境。

ClearForest最具特色的功能是可以将非结构化数据库转化为结构化数据,如从论文、网页等非结构化文本中抽取相关词语生成结构化数据,进而利用其分析功能对结构化数据进行文本挖掘,如分类、聚类,生成列表、共现矩阵、聚类图等。

此外该工具还提供了文本分析可视化功能,用于挖掘类间隐含关系和发现新知识。

[7-8]

3.1.2GoldfireInnovator

GoldfireInnovator是由美国InventionMachine公司开发的一款文本挖掘分析工具,由创新工作平台(Innovator'sWorkbench)、“研究者”(Researcher)和Goldfire智囊库(GoldfireIntelligence)三部分组成。

创新工作平台提供了一个解决问题的环境,可以利用多种分析工具、方法辅助对问题的理解;“研究者”是其知识搜取和创新趋势分析模块,利用复杂的语义分析技术将非结构化数据转化为可检索的语义索引进行专利分析,帮助用户发现核心技术、发明人及其合作伙伴和竞争对手;Goldfire智囊库(GoldfireIntelligence)涵盖全球1500多万件专利、3000个专业技术网站和8000多种科技期刊,用于辅助其专利分析决策。

以上三大功能模块构筑了GoldfireInnovator强大的分析功能。

[9]

3.1.3OminiViz

OminiViz是英国BioWisdom公司开发的一款先进的可视化单机版数据分析软件。

该软件有两大特色:

一是分析数据类型广泛,可以对数值数据、分类数据、基因序列、化学结构以及专利、论文等多种数据类型进行分析;二是整合复杂的统计算法、文本算法对大规模数据进行分析生成强大的可视化图谱辅助用户对数据的理解,可视化图谱主要有Galaxy图、CoMet图、ThemeMap和聚类图等。

[10]

3.1.4TEMIS

TEMIS是美国TEMIS公司开发的一款用于商业智能的文本挖掘工具。

TEMIS依靠其强大的数据算法、语言学算法,将多种文本类型的非结构化数据转化为结构化数据,并对结构化数据进行分析,生成列表、聚类图等[11]。

但是TEMIS在结果可视化展示方面还存在较大不足,因此限制了其应用范围。

3.2结构化数据分析工具

结构化数据分析软件主要用于对数据库中的专利信息、文献题录信息进行分析,主要包括ThomsonDataAnalyzer,VantagePoint,Quosa,RefViz,STNAnaVist和Vxinsight。

3.2.1ThomsonDataAnalyzer

ThomsonDataAnalyzer美国ThomsonReuters公司与SearchTechnology公司联合推出的数据挖掘和可视化分析工具。

由美国SearchTechnology公司的VantagePoint引擎提供技术支持,具有VantagePoint的大部分功能。

TDA除支持德温特世界专利索引、WebofScience和Pubmed等常用数据库外,还支持MSExcel数据的导入。

TDA软件提供强大的数据清洗功能保证了数据分析的准确性,在分析功能方面支持基本统计、共现分析、聚类分析,但不支持专利引文分析功能,结果显示方面可自动生成列表、矩阵、聚类图、报告等功能。

[12]

VantagePoint软件与ThomsonDataAnalyzer软件功能基本类似,在此不再赘述。

3.2.2Quosa

Quosa是美国Quosa公司开发的一款集文献检索、全文下载、文献管理及文献分析于一体的单机版文本挖掘工具。

该软件支持Ovid、PubMed、GoogleScholar、USPTO等的直接搜索,并将PDF全文下载到本地进行组织管理,并可对文献进行概念提取和聚类。

其文献全文自动下载、最新进展追踪、PDF文献信息自动识别以及全文分析功能是同类文献管理软件所不具备的[13],但其分析功能与专业类文献分析软件相比功能还较少。

3.2.3RefViz

RefViz是美国ThomsonReuters公司开发的用于文献信息分析可视化的单机版软件。

该软件主要特色是其统计、语义分析功能,但是RefViz只能分析结构化数据,如来自文献数据库或文献管理软件的文献题名、摘要、主题词等信息,不能分析非结构化数。

此外,在数据分析时可利用其词库工具(thesaurustools)对数据进行清洗以确保数据分析的准确性。

文献分析结果显示可生成Galaxy视图和二维矩阵视图。

[14]

3.2.4STNAnaVist

STNAnaVist是美国化学协会(ACS)分支机构化学文摘服务社(CAS)与FIZKarlsruhe共同开发的一款科技文献、专利文献文本分析可视化软件。

支持化学文摘、德温特世界专利索引、欧洲专利数据库和美国全文专利数据库等多个数据库的内容。

此外,STNAnaVist可利用CAS词表对机构、技术术语进行数据规范以提高数据分析的质量。

文献分析结果显示可生在图表,以及采用聚类技术生在成的研究景观图。

[15]

3.2.5Vxinsight

Vxinsight是由美国能源部桑地亚(Sandia)国家实验室开发的一款单机版免费的文本分析可视化软件。

该软件的主要特色是采用三维虚拟地图的形式来模拟聚类信息,以揭示科技文献、专利、蛋白、基因间的相关性。

[16,17]

3.3混合型数据分析工具

混合型数据分析软件是一类即可以分析结构化数据又可以分析非结构化数据的软件,主要包括:

Aureka,M-CAMDoors,Wisdomain和PatAnalyst,这些工具都整合了专利数据库检索功能。

3.3.1Aureka

Aureka是美国ThomsonReuters公司开发的一个在线的知识产权管理和分析平台,提供强大的专利检索、管理、分析(包括专利引证分析,专利地图分析等)预警等功能。

在专利分析方面,通过ThemeScape提供聚类分析生成专利地图,通过AurekaCitationTree提供引文分析生成引证树,揭示专利信息间的相互关联,为用户技术研发与自主创新、专利评价与评估、专利权保护、企业联营与合作或兼并等的生产经营决策活动提供帮助。

Aureka软件在数据清洗方面功能较弱是该软件的主要不足。

[18]

3.3.2Wisdomain

Wisdomain是美国Wisdomain公司开发的一个专利分析解决方案,整合FOCUST、PatentMagnet、PatentFamilyTree、PatentLab-II四个工具,支持美国、欧洲、中国、日本、韩国和世界PCT专利检索,提供基本统计、共现分析和引证分析功能,分析结果可以列表、聚类图、引文图形式显示。

[19]

3.3.3Delphion专利信息平台

Delphion是美国ThomsonReuters公司开发的专利信息服务平台,集成Snapshot、CorporateTree、PatentLab-II、TextClustering、CitationLink五个工具,分别提供在线分析、公司名称规范、列表和直方图等图表生成、文档聚类、引文分析功能。

Delphion专利信息平台收录专利范围广、整合分析工具多是其主要特色,但其按服务项目、专利下载数量收费的服务模式,使得一般用户难以承受其高昂的费用。

[20]

3.4专利分析工具比较

以上对国外常用的非结构化数据分析工具、结构化数据分析工具、混合型数据分析工具进行了简单介绍,下面将从分析工具类型、分析数据源、主要功能、结果呈现、用户群五个方面,对13个分析软件进行比较[6],见表2。

非结构化数据分析工具,主要基于其强大的语义分析技术,将非结构化数据转化为结构化数据,进而利用其强大的分析功能对其进行分析。

这四个软件中,ClearForest,GoldfireInnovator,TEMIS价格昂贵,限制了其在国内的应用;Ominiviz为单机版软件,除具有文本挖掘功能外还具有强大可视化功能,其可视化功能在众多软件中尤为出众。

结构化数据分析工具,目前国内在科技文献、专利文献分析应用较多的主要是ThomsonDataAnalyzer,该软件支持20多种文献数据源(期刊文献和专利文献),是目前已知文献信息分析工具中支持数据最为广泛的软件,且支持MSExcel文件(含中文)的导入;此外该软件还具有强大的数据清洗功能、自动生成专利报告的功能,这些功能是其软件无法与之媲美的;但是ThomsonDataAnalyzer在专利地图制作、文献结果可视化方面还存在不足,限制了其在专利分析中的应用。

Quosa和Refviz主要用于期刊文献的管理和分析,支持数据源较少;STNAnaVist自带技术术语、机构分析词表可用于专利文献数据清洗,但对大规模数据库的清洗仍是该软件面临的巨大挑战。

Vxinsight是本文介绍的分析工具中唯一一款免费的软件,主要特色是可以生成二维、三维聚类地图用于揭示专利、文献间的关系,但该软件在专利分析应用方面功能较弱。

混合型数据分析工具,除提供专利分析功能外,还提供专利文献检索、数据下载功能,文中提到的三个分析工具分析功能完备,均具有数据清洗功能,提供基本统计、共现分析、聚类分析、引文分析(仅对US专利进行分析),并可对分析结果进行可视化显示。

但这三个工具在专利分析方面各有其优势与不足,如Aureka可采用聚类分析生成主题(词汇)地形图,用于专利技术主题分布研究,而在专利国家、机构分析分析方面由于缺乏数据清洗功能,分析结果准确性不足;Wisdomain仅能分析自带数据库检索结果,不具有数据导入功能;Delphion主要用于专利数据检索,在数据分析方面相比Aureka和Wisdomain功能较弱。

4小结

专利信息分析工具是顺利开展专利信息分析的重要保障,专利分析工具的好坏将直接影响到专利分析的效率和结果的准确性,在应用专利分析工具开展分析时,还应注意以下几点:

(1)融会信息分析思维,选择恰当分析工具。

目前国外专利分析工具众多,在开展专利信息分析工作时,应根据不同的分析目的、拟解决的问题,结合不同分析工具的主要功能,选择恰当的分析工具。

(2)结合人工干预,提高分析质量。

高质量专利分析报告的完成离不开对专利文献的文本挖掘,但是仅有文本挖掘工具或信息技术专家是不够的,还需要具有专业知识背景专家的干预。

在专利分析工具使用过程中,从数据检索、数据规范、数据分析以及结果的解释都离不开人工的干预以及专家的支持。

(3)分析工具尚不完善,分析功能有待进一步提升。

随着文本挖掘和信息可视化技术在专利分析工具中的应用,分析工具有了较大的提升,但仍存在一些不足,如多数据源融合度低、数据清洗功能弱、知识挖掘程度浅等,因此随着自然语言处理、人工智能创新技术的不断进步,分析工具功能将不断完善。

表2国外13种专利文本挖掘可视化工具比较

工具名称

工具类型

分析数据源

主要功能

用户群

数据

清洗

分析方法

结果呈现

基本

统计

共现

分析

聚类

分析

引证

分析

非结构化数据分析工具

ClearForest

文本挖掘

结构化数据和非结构化数据

列表、矩阵、聚类图

商业智能

GoldfireInnovator

文本挖掘

非结构化数据

不详

不详

分类图、趋势图

研发人员

OminiViz

文本挖掘/可视化

结构化数据和非结构化数据(数值数据、分类数据、基因序列、化学结构)

交互式可视化图谱(Galaxy图、CoMet图、ThemeMap和聚类图等)

研发人员

TEMIS

文本挖掘

结构化数据和非结构化数据

不详

列表、聚类图

研发人员/商业智能

结构化数据分析工具

Quosa

文本挖掘/文献管理

结构化数据(PubMed,Ovid,GoogleScholar,USPTO等)

数据分组和注释

研发人员

RefViz

文本挖掘/可视化

结构化数据(WebofScience,PubMed,OCLC等)和来自参考文献管理软件的数据

Galaxy图和矩阵图

研发人员/信息管理人员

STNAnaVist

文本挖掘/数据库检索

结构化数据(CAplus,US,PCT,DWPI)

列表、图表、研究景观图(researchlandscape)

信息管理人员/商业智能/研发人员

ThomsonDataAnalyzer

文本挖掘

结构化数据(WebofScience,PubMed,DWPI等)及MSExcel格式数据

列表、图表、矩阵、聚类图、专利报告

信息管理人员/商业智能

Vxinsight

文本挖掘/可视化

结构化数据(ODBC方式存取的多种数据类型)

聚类图(二维、三维)

研发人员/信息管理

混合型数据分析工具

Aureka

文本挖掘/可视化/数据库检索

US,DE,EP,GB,JP(仅文摘)和PCT专利

ThemeMap、引文树、聚类图、专利报告

研发人员/信息管理人员/决策人员/商业智能

Wisdomain

文本挖掘/数据库检索

US,DE,EP,JP,PCT,中国,韩国,INPADOC

列表、图表、系统树、引文图

研发人员/信息管理

Delphion专利信息平台

文本挖掘/数据库检索

US,DE,EP,JP,PCT,INPADOC,DWPI

列表、引文树、聚类图

研发人员/信息管理/商业智能

参考文献:

[1]骆云中,陈蔚杰,徐晓琳.专利情报分析与利用[M].上海:

华东理工大学出版社,2007:

130

[2]陈燕,黄迎燕,方建国,等编著.专利信息采集与分析[M].北京:

清华大学出版社,2006:

67.

[3]暴海龙,朱东华.专利情报分析方法综述.北京理工大学学报(社会科学版)[J].2002,4(S1):

91-93

[4]张静,刘细文,柯贤能,等.国外专利分析工具功能比较研究[J].情报理论与实践.2008,31

(1):

141-145

[5]AnthonyJ.Trippe.Patinformatics:

Taskstotools[J].WorldPatentInformation,2003,25:

211-221

[6]YangYunyun,AkersLucy,KloseThomas,etal.Textminingandvisualizationtools–Impressionsofemergingcapabilities[J].WorldPatentInformation.2008,30:

280-293

[7]ThomosonReuters.ClearForest.[2009-04-15].

[8]瞿卫军,刘洋,王雷(编译).专利信息学(下):

任务与工具[J].竞争情报,2006,(4):

18-24

[9]InventionMachine.GoldfireInnovator.[2009-04-15].http:

//invention-

[10]BioWisdom.OminiViz.[2009-04-15].

[11]TEMIS.TEMIStextintelligence.[2009-04-15].

[12]ThomsonReuters.ThomsonDataAnalyzer.[2009-04-15].

[13]Quosa.Quosa.[2009-04-15].

[14]ThomsonReuters.

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 职业教育 > 职业技术培训

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1