国外专利文本挖掘可视化工具研究Word文档下载推荐.docx
《国外专利文本挖掘可视化工具研究Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《国外专利文本挖掘可视化工具研究Word文档下载推荐.docx(11页珍藏版)》请在冰豆网上搜索。
专利信息分析内容主要包括专利信息分析流程、专利信息分析方法等。
在此重点介绍专利信息分析流程,专利信息分析方法将在2.2中阐述。
图1专利信息分析流程
专利信息分析流程一般分为准备期、分析期和应用期三个阶段。
准备期是保证专利信息分析达到目标的基础。
分析期是专利信息分析工作的主体,主要包括数据采集和数据分析两个阶段。
应用期是分析工作的延伸,是专利信息分析的价值体现。
各阶段具体包括的内容见图1[2]。
2专利分析工具的主要功能
随着信息技术的飞速发展,文本挖掘、信息可视化技术已被应用到专利分析领域,众多专利分析工具应运而生。
尽管不同分析工具各有专长,但是总的来说,专利分析工具的作用主要体现在为分析期提供准确的数据,从不同层面对专利文献进行科学的分析以及分析结果的可视化显示。
2.1数据清洗
数据清洗又称数据规范、数据预处理,是影响专利信息分析效果至关重要的一步,其作用是为专利分析提供准确的数据,主要包括:
(1)对检索到的专利文献进行相关性筛选,将符合条件的专利文献纳入分析数据集。
(2)同一概念不同写法进行规范,以消除同一概念、同一事物不同写法造成的分析误差。
2.2分析方法实现及其结果可视化显示
专利信息分析方法通常分为定性分析、定量分析和拟定量分析,目前信息分析工具可实现的方法归纳起来主要包括基本统计分析、共现分析、聚类分析和引证分析四大类。
基本统计分析:
即简单的定量统计分析,是指依据专利文献固有的标引项,对专利申请时间、申请人、申请机构、申请国家、同族专利量等指标分别进行统计,用于把握专利文献的分布状况及其发展态势。
分析结果通常以列表、直方图表形式展现。
共现分析:
是指相同或不同类型特征项信息共同出现的现象。
通过对专利统计中专利分类号、专利权人、专利申请时间、专利申请国、专利技术焦点等进行组配统计[3],用于揭示专利信息的内容关联和特征项所隐含的知识。
分析结果显示方式主要有共现矩阵和曲线图。
聚类分析:
是指利用聚类技术将同一数据集中的专利,按照技术分类聚成不同的子类,以揭示该特定技术领域内各个子领域的分布情况,分析各主要竞争对手在各子领域内的专利分布情况。
目前专利聚类主要是按主题进行聚类,呈现结果可以按竞争对手和时间顺序进行浏览[4]。
聚类分析的结果展示方式主要有聚类地图、结构化数据聚类和非结构化数据聚类[5]。
引证分析:
是指对目标专利的引用和被引用的情况进行分析。
通过研究专利之间的引用关系及规律,探求技术之间的联系和发展规律,跟踪对应于不同技术的专利网络,反映特定技术领域的生命周期,以及竞争对手之间技术相互依赖关系。
分析结果呈现主要有引证表、引证树和引证地图[4]。
3国外常用专利分析工具
前面总结了专利分析工具可实现的主要功能,本部分将重点列举国外常用的专利分析工具,并依据专利分析工具可分析的数据源,将其分为非结构化数据分析工具、结构化数据分析工具和混合型数据分析工具三大类[6]。
3.1非结构化数据分析工具
非结构化数据分析工具是指擅长分析专利全文、期刊论文、网页内容等非结构化数据的软件,主要包括ClearForest,GoldfireInnovator,OminiViz和TEMIS。
3.1.1ClearForest
ClearForest是美国ThomosonReuters公司开发的具有强大功能的文本分析解决方案,包括先进的文本标记抽取平台、分析平台以及开发环境。
ClearForest最具特色的功能是可以将非结构化数据库转化为结构化数据,如从论文、网页等非结构化文本中抽取相关词语生成结构化数据,进而利用其分析功能对结构化数据进行文本挖掘,如分类、聚类,生成列表、共现矩阵、聚类图等。
此外该工具还提供了文本分析可视化功能,用于挖掘类间隐含关系和发现新知识。
[7-8]
3.1.2GoldfireInnovator
GoldfireInnovator是由美国InventionMachine公司开发的一款文本挖掘分析工具,由创新工作平台(Innovator'
sWorkbench)、“研究者”(Researcher)和Goldfire智囊库(GoldfireIntelligence)三部分组成。
创新工作平台提供了一个解决问题的环境,可以利用多种分析工具、方法辅助对问题的理解;
“研究者”是其知识搜取和创新趋势分析模块,利用复杂的语义分析技术将非结构化数据转化为可检索的语义索引进行专利分析,帮助用户发现核心技术、发明人及其合作伙伴和竞争对手;
Goldfire智囊库(GoldfireIntelligence)涵盖全球1500多万件专利、3000个专业技术网站和8000多种科技期刊,用于辅助其专利分析决策。
以上三大功能模块构筑了GoldfireInnovator强大的分析功能。
[9]
3.1.3OminiViz
OminiViz是英国BioWisdom公司开发的一款先进的可视化单机版数据分析软件。
该软件有两大特色:
一是分析数据类型广泛,可以对数值数据、分类数据、基因序列、化学结构以及专利、论文等多种数据类型进行分析;
二是整合复杂的统计算法、文本算法对大规模数据进行分析生成强大的可视化图谱辅助用户对数据的理解,可视化图谱主要有Galaxy图、CoMet图、ThemeMap和聚类图等。
[10]
3.1.4TEMIS
TEMIS是美国TEMIS公司开发的一款用于商业智能的文本挖掘工具。
TEMIS依靠其强大的数据算法、语言学算法,将多种文本类型的非结构化数据转化为结构化数据,并对结构化数据进行分析,生成列表、聚类图等[11]。
但是TEMIS在结果可视化展示方面还存在较大不足,因此限制了其应用范围。
3.2结构化数据分析工具
结构化数据分析软件主要用于对数据库中的专利信息、文献题录信息进行分析,主要包括ThomsonDataAnalyzer,VantagePoint,Quosa,RefViz,STNAnaVist和Vxinsight。
3.2.1ThomsonDataAnalyzer
ThomsonDataAnalyzer美国ThomsonReuters公司与SearchTechnology公司联合推出的数据挖掘和可视化分析工具。
由美国SearchTechnology公司的VantagePoint引擎提供技术支持,具有VantagePoint的大部分功能。
TDA除支持德温特世界专利索引、WebofScience和Pubmed等常用数据库外,还支持MSExcel数据的导入。
TDA软件提供强大的数据清洗功能保证了数据分析的准确性,在分析功能方面支持基本统计、共现分析、聚类分析,但不支持专利引文分析功能,结果显示方面可自动生成列表、矩阵、聚类图、报告等功能。
[12]
VantagePoint软件与ThomsonDataAnalyzer软件功能基本类似,在此不再赘述。
3.2.2Quosa
Quosa是美国Quosa公司开发的一款集文献检索、全文下载、文献管理及文献分析于一体的单机版文本挖掘工具。
该软件支持Ovid、PubMed、GoogleScholar、USPTO等的直接搜索,并将PDF全文下载到本地进行组织管理,并可对文献进行概念提取和聚类。
其文献全文自动下载、最新进展追踪、PDF文献信息自动识别以及全文分析功能是同类文献管理软件所不具备的[13],但其分析功能与专业类文献分析软件相比功能还较少。
3.2.3RefViz
RefViz是美国ThomsonReuters公司开发的用于文献信息分析可视化的单机版软件。
该软件主要特色是其统计、语义分析功能,但是RefViz只能分析结构化数据,如来自文献数据库或文献管理软件的文献题名、摘要、主题词等信息,不能分析非结构化数。
此外,在数据分析时可利用其词库工具(thesaurustools)对数据进行清洗以确保数据分析的准确性。
文献分析结果显示可生成Galaxy视图和二维矩阵视图。
[14]
3.2.4STNAnaVist
STNAnaVist是美国化学协会(ACS)分支机构化学文摘服务社(CAS)与FIZKarlsruhe共同开发的一款科技文献、专利文献文本分析可视化软件。
支持化学文摘、德温特世界专利索引、欧洲专利数据库和美国全文专利数据库等多个数据库的内容。
此外,STNAnaVist可利用CAS词表对机构、技术术语进行数据规范以提高数据分析的质量。
文献分析结果显示可生在图表,以及采用聚类技术生在成的研究景观图。
[15]
3.2.5Vxinsight
Vxinsight是由美国能源部桑地亚(Sandia)国家实验室开发的一款单机版免费的文本分析可视化软件。
该软件的主要特色是采用三维虚拟地图的形式来模拟聚类信息,以揭示科技文献、专利、蛋白、基因间的相关性。
[16,17]
3.3混合型数据分析工具
混合型数据分析软件是一类即可以分析结构化数据又可以分析非结构化数据的软件,主要包括:
Aureka,M-CAMDoors,Wisdomain和PatAnalyst,这些工具都整合了专利数据库检索功能。
3.3.1Aureka
Aureka是美国ThomsonReuters公司开发的一个在线的知识产权管理和分析平台,提供强大的专利检索、管理、分析(包括专利引证分析,专利地图分析等)预警等功能。
在专利分析方面,通过ThemeScape提供聚类分析生成专利地图,通过AurekaCitationTree提供引文分析生成引证树,揭示专利信息间的相互关联,为用户技术研发与自主创新、专利评价与评估、专利权保护、企业联营与合作或兼并等的生产经营决策活动提供帮助。
Aureka软件在数据清洗方面功能较弱是该软件的主要不足。
[18]
3.3.2Wisdomain
Wisdomain是美国Wisdomain公司开发的一个专利分析解决方案,整合FOCUST、PatentMagnet、PatentFamilyTree、PatentLab-II四个工具,支持美国、欧洲、中国、日本、韩国和世界PCT专利检索,提供基本统计、共现分析和引证分析功能,分析结果可以列表、聚类图、引文图形式显示。
[19]
3.3.3Delphion专利信息平台
Delphion是美国ThomsonReuters公司开发的专利信息服务平台,集成Snapshot、CorporateTree、PatentLab-II、TextClustering、CitationLink五个工具,分别提供在线分析、公司名称规范、列表和直方图等图表生成、文档聚类、引文分析功能。
Delphion专利信息平台收录专利范围广、整合分析工具多是其主要特色,但其按服务项目、专利下载数量收费的服务模式,使得一般用户难以承受其高昂的费用。
[20]
3.4专利分析工具比较
以上对国外常用的非结构化数据分析工具、结构化数据分析工具、混合型数据分析工具进行了简单介绍,下面将从分析工具类型、分析数据源、主要功能、结果呈现、用户群五个方面,对13个分析软件进行比较[6],见表2。
非结构化数据分析工具,主要基于其强大的语义分析技术,将非结构化数据转化为结构化数据,进而利用其强大的分析功能对其进行分析。
这四个软件中,ClearForest,GoldfireInnovator,TEMIS价格昂贵,限制了其在国内的应用;
Ominiviz为单机版软件,除具有文本挖掘功能外还具有强大可视化功能,其可视化功能在众多软件中尤为出众。
结构化数据分析工具,目前国内在科技文献、专利文献分析应用较多的主要是ThomsonDataAnalyzer,该软件支持20多种文献数据源(期刊文献和专利文献),是目前已知文献信息分析工具中支持数据最为广泛的软件,且支持MSExcel文件(含中文)的导入;
此外该软件还具有强大的数据清洗功能、自动生成专利报告的功能,这些功能是其软件无法与之媲美的;
但是ThomsonDataAnalyzer在专利地图制作、文献结果可视化方面还存在不足,限制了其在专利分析中的应用。
Quosa和Refviz主要用于期刊文献的管理和分析,支持数据源较少;
STNAnaVist自带技术术语、机构分析词表可用于专利文献数据清洗,但对大规模数据库的清洗仍是该软件面临的巨大挑战。
Vxinsight是本文介绍的分析工具中唯一一款免费的软件,主要特色是可以生成二维、三维聚类地图用于揭示专利、文献间的关系,但该软件在专利分析应用方面功能较弱。
混合型数据分析工具,除提供专利分析功能外,还提供专利文献检索、数据下载功能,文中提到的三个分析工具分析功能完备,均具有数据清洗功能,提供基本统计、共现分析、聚类分析、引文分析(仅对US专利进行分析),并可对分析结果进行可视化显示。
但这三个工具在专利分析方面各有其优势与不足,如Aureka可采用聚类分析生成主题(词汇)地形图,用于专利技术主题分布研究,而在专利国家、机构分析分析方面由于缺乏数据清洗功能,分析结果准确性不足;
Wisdomain仅能分析自带数据库检索结果,不具有数据导入功能;
Delphion主要用于专利数据检索,在数据分析方面相比Aureka和Wisdomain功能较弱。
4小结
专利信息分析工具是顺利开展专利信息分析的重要保障,专利分析工具的好坏将直接影响到专利分析的效率和结果的准确性,在应用专利分析工具开展分析时,还应注意以下几点:
(1)融会信息分析思维,选择恰当分析工具。
目前国外专利分析工具众多,在开展专利信息分析工作时,应根据不同的分析目的、拟解决的问题,结合不同分析工具的主要功能,选择恰当的分析工具。
(2)结合人工干预,提高分析质量。
高质量专利分析报告的完成离不开对专利文献的文本挖掘,但是仅有文本挖掘工具或信息技术专家是不够的,还需要具有专业知识背景专家的干预。
在专利分析工具使用过程中,从数据检索、数据规范、数据分析以及结果的解释都离不开人工的干预以及专家的支持。
(3)分析工具尚不完善,分析功能有待进一步提升。
随着文本挖掘和信息可视化技术在专利分析工具中的应用,分析工具有了较大的提升,但仍存在一些不足,如多数据源融合度低、数据清洗功能弱、知识挖掘程度浅等,因此随着自然语言处理、人工智能创新技术的不断进步,分析工具功能将不断完善。
表2国外13种专利文本挖掘可视化工具比较
工具名称
工具类型
分析数据源
主要功能
用户群
数据
清洗
分析方法
结果呈现
基本
统计
共现
分析
聚类
引证
非结构化数据分析工具
ClearForest
文本挖掘
结构化数据和非结构化数据
有
无
列表、矩阵、聚类图
商业智能
GoldfireInnovator
非结构化数据
不详
分类图、趋势图
研发人员
OminiViz
文本挖掘/可视化
结构化数据和非结构化数据(数值数据、分类数据、基因序列、化学结构)
交互式可视化图谱(Galaxy图、CoMet图、ThemeMap和聚类图等)
TEMIS
列表、聚类图
研发人员/商业智能
结构化数据分析工具
Quosa
文本挖掘/文献管理
结构化数据(PubMed,Ovid,GoogleScholar,USPTO等)
数据分组和注释
RefViz
结构化数据(WebofScience,PubMed,OCLC等)和来自参考文献管理软件的数据
Galaxy图和矩阵图
研发人员/信息管理人员
STNAnaVist
文本挖掘/数据库检索
结构化数据(CAplus,US,PCT,DWPI)
列表、图表、研究景观图(researchlandscape)
信息管理人员/商业智能/研发人员
ThomsonDataAnalyzer
结构化数据(WebofScience,PubMed,DWPI等)及MSExcel格式数据
列表、图表、矩阵、聚类图、专利报告
信息管理人员/商业智能
Vxinsight
结构化数据(ODBC方式存取的多种数据类型)
聚类图(二维、三维)
研发人员/信息管理
混合型数据分析工具
Aureka
文本挖掘/可视化/数据库检索
US,DE,EP,GB,JP(仅文摘)和PCT专利
ThemeMap、引文树、聚类图、专利报告
研发人员/信息管理人员/决策人员/商业智能
Wisdomain
US,DE,EP,JP,PCT,中国,韩国,INPADOC
列表、图表、系统树、引文图
Delphion专利信息平台
US,DE,EP,JP,PCT,INPADOC,DWPI
列表、引文树、聚类图
研发人员/信息管理/商业智能
参考文献:
[1]骆云中,陈蔚杰,徐晓琳.专利情报分析与利用[M].上海:
华东理工大学出版社,2007:
130
[2]陈燕,黄迎燕,方建国,等编著.专利信息采集与分析[M].北京:
清华大学出版社,2006:
67.
[3]暴海龙,朱东华.专利情报分析方法综述.北京理工大学学报(社会科学版)[J].2002,4(S1):
91-93
[4]张静,刘细文,柯贤能,等.国外专利分析工具功能比较研究[J].情报理论与实践.2008,31
(1):
141-145
[5]AnthonyJ.Trippe.Patinformatics:
Taskstotools[J].WorldPatentInformation,2003,25:
211-221
[6]YangYunyun,AkersLucy,KloseThomas,etal.Textminingandvisualizationtools–Impressionsofemergingcapabilities[J].WorldPatentInformation.2008,30:
280-293
[7]ThomosonReuters.ClearForest.[2009-04-15].
[8]瞿卫军,刘洋,王雷(编译).专利信息学(下):
任务与工具[J].竞争情报,2006,(4):
18-24
[9]InventionMachine.GoldfireInnovator.[2009-04-15].http:
//invention-
[10]BioWisdom.OminiViz.[2009-04-15].
[11]TEMIS.TEMIStextintelligence.[2009-04-15].
[12]ThomsonReuters.ThomsonDataAnalyzer.[2009-04-15].
[13]Quosa.Quosa.[2009-04-15].
[14]ThomsonReuters.RefViz.[2