基于认知轨迹的工程型集成专利检索展望.docx-资源下载

基于认知轨迹的工程型集成专利检索展望.docx

1、基于认知轨迹的工程型集成专利检索展望基于认知轨迹的工程型集成专利检索展望信息检索从手工、机械化(穿孔卡片)、联机(实时交互)到现在的计算机网络方式，经历了用户独立检索、用户依赖情报人员获取信息和用户借助新型信息技术独立检索的螺旋上升式发展过程。20世纪6090年代，信息检索(IR)领域出现了三大方向：系统导向的IR、用户导向的IR和认知导向的IR。认知导向的IR，通常也被称为认知信息检索(cogmtlve Information Retrieval，简称CIR)，是与传统系统导向IR相区别的一种IR研究范式。系统导向IR的研究重点是作者文本、文本表示、提问式与IR技术，而CIR则将信息检索者

2、的认知和行为表现作为研究的重点，把认知科学作为智能信息检索设计的理论基础。在此基础上的网络检索和人工智能检索成为信息检索领域的发展趋势。专利检索是专利工作的关键环节，其在检索范围、知识性及法律性等方面与一般信息检索有明显区别。不断增长的文献量、科学技术的快速更迭使专利检索工作更加困难而繁重。因此，我们有必要在现有专利检索方式和系统的基础上，吸取先进科学理念，运用信息化手段，结合工作进行研究和探讨，减少专利检索的重复劳动，提高质量和效率。传统信息检索 1“找文献”与“找内容” 如何快速，准确地从浩如烟海的信息资源中找到自己最需要的信息，成为困扰全球网络用户的最主要问题。以搜索引擎为典型代表的网

3、络信息检索工具应运而生。它一般利用专门的程序自动创建和更新，采用全文本自动标引的方式，具有费用低、信息量大、存取直接，支持多媒体功能等众多优势。然而，计算机和微电子技术的发展，使得人们在信息检索研究中过于强调计算机化的图书情报机构系统的内部程序，基本没有考虑用户及其认知的主观因素。如此的研究角度使得情报学的检索研究陷入了瓶颈，即检索技术的发展和系统的完善怎样也无法满足用户的真实需求。比如：信息检索的“找文献”而非“找内容”之缺陷在信息量剧增的今天表现得越来越严重。如果信息检索能够为用户提供一步到位的内容检索，则可大大减轻用户的信息负担。信息检索从“找文献”变为“找内容”涉及用户的认知能力和特

4、征研究、人机交互以及文献深度加工等，或许可以称为信息检索研究的革命化进程和质的飞跃。 2“匹配”和“判断” 词匹配为核心的标引和检索模式的弊端是：词匹配的理论假设是一种近似，不是理解。其一般是依据词频统计法来确定词的重要性。割裂了文本和提问中原来存在的词义逻辑关系，造成标引和检索结果的严重不一致。标引词送入计算机后，就只剩下词的物理属性了，而丢掉了词间的逻辑语义关系。标引作业对标引人员的素质、智力劳动强度要求高。不同参与标引和检索的人员，由于知识背景、思维方式各异，会造成原文本和询问含义的歧变。另外，在检索逻辑方面存在着二值相关性，即文献是否符合提问的检索判断，只有相关和不相关两个值。显然，

5、这种简单的“非此即彼”的判断标准，不能正确反映文献和提问之间的真实关系。而事实上，文献与提问之间的关系要复杂得多，是从相关到不相关的程序性变化。另外，在评价检索系统的检索结果时，也是看逻辑式的满足，而非以用户的有用性作为评价标准，由此导致了信息检索系统评价与用户评价相差甚远，从根本上造成检索质量和效率的低下。 3用户方面尽管传统信息检索系统设计了一套复杂，烦琐的检索语言规则，近来也出现了不少自然语言接口，但仍不能以最终用户为中心。例如：用户往往在提交情报需求方面存在困难。信息检索的前提是用户需求能准确和完全地转换为提问。然而，在查找之前，用户一般不能精确地确定和表达其信息需求，因为用户的信息

6、需求往往处在知和未知的模糊状态。古希腊哲学家柏拉图曾说过这么一句话：“人们要询问的既不是他知道的又不是他不知道的。如果他知道，则没有必要再问，如果他不知道，则不知道如何去问”。因此，传统信息检索在前提上存在先天缺陷，检索结果难以差强人意就不足为怪了。认知科学与认知检索 1认知科学理解心智(mind)如何工作对于许多实践活动来说至关重要。认知科学产生于20世纪70年代，其主要目的就是试图探究人们是怎样完成各种各样的思维活动的。认知科学是研究人的智能以及人造系统智能的科学，涉及心理学、人工智能、社会学、语言学、生物学，计算机科学、信息论、人类学等多种学科，其内容包括感知与注意、知识表征、学习系

7、统、思维与决策和认知模拟等等。学习是基本的认知活动，是经验与知识的积累过程，也是通过对外部事物前后关联地把握和理解，以改善系统性能的过程。基于认知科学的智能化信息检索属于应用认知科学范畴，其重要特征是系统具有学习和积累的功能，比如：学会联结学习(结合、关系、倾向，例如：某种情景只能唤起某种反应而不是其他反应)、相近学习(学习的条件是刺激与反应之间时间上的接近)、认知学习(针对当前问题情景，经过“内心”积极组织而形成认知结构的过程)以及信息加工学习(学习过程是信息的接收和使用过程，是主体和环境相互作用的结果)、自动收集知识和建立用户模型、更新数据库和知识库等等。 2认知检索认知科学为陷入徘徊

8、期的情报学提供了新的视角。科学技术的发展和进步，特别是专家系统、人工智能、认知科学。脑科学等方面研究的进一步深入和应用，为突破物理的机械匹配的思想和方法，从最终用户的认知角度出发设计出新的信息检索系统提供了新的思路和可能。情报认知观吸收了认知科学的基本思想和有关理论，研究了人的信息处理原理，关注人对情报的利用和吸收，以研究、设计、支持、改善这种利用吸收的情报系统和情报服务为目的。认知检索结合认知科学的有关理论和方法，对文献情报系统的处理、组织和利用进行探讨，属于认知科学的应用领域。依据情报学认知观，“情报处理器的世界模型”是由包括人的情绪在内的认知结构(或知识结构)所组成，而认知结构是由在社

9、会、组织、文化和系统情境下的个体与社会、集体经验、教育等多方面因素决定的。认知检索CIR是一种以整体主义认知观为基础的用于研究IR现象的研究框架，其五个核心要素是：信息检索者，界面，社会一组织情境，IT，信息对象。它们之间通过信息交互联系在一起。 (1)用户研究传统信息检索过分重视系统的经济和技术效率，而轻视用户效率。由于过于重视程序设计和使用设备的技术问题，使用户效率限制了系统效率，导致许多检索系统在使用中不受用户的欢迎，检索效果远远低于用户的期望。近些年来，国外智能信息检索研究把注意力集中到信息检索的认知过程上，研究方面发生了战略性转移。认知检索重视人们在信息利用过程中的知识结构和认知

10、能力，即检索系统和用户都需要与知识结构发生作用，而知识结构需要不断改变和完善，从而实现双方在认知层次而非物理层次上的交互。情报学的根本特征是它离不开主一客体之间，即人与情报之间的相互作用，而且二者不能等量齐观。人不仅是情报的生产者，更是情报利用的决定因素，情报学的发展必须依赖于对用户的深刻理解。信息检索研究应该特别关注用户的信息心理、需求和行为的一般规律与特点，分析各类用户利用信息的基本情况及影响因素，研究用户信息传递的最佳方式和用户培训的基本模式等。信息检索系统最好设计成一种能够增强和放大人的既存价值、能力和特长的系统。用户研究有待深入，特别是在与检索系统的结合上。 (2)信息交互 Bel

11、kin的ASK理论中明确提出了信息检索的任务是尝试描述，理解和解决知识的非常状态；Wilson研究解决的是非确定性问题，Ingwersen提出了信息检索过程中知识结构的交互作用说等等，形成了信息检索的知识结构交互作用说和认知情报学观点的基本假说和核心概念。交互理论认为：用户的需求和行为不是静态的，而是动态的，会随时间而发生变化：交互发生在多个层面和多个维度；交互将用户带入一种选择状态，并激发用户做出某种选择i由于IR交互情境中的学习和认知，相关性评估也是动态的，并且可能发生在各个维度，传统的以主题性作为相关性测量指标是不够的。信息交互是指在IR情境中，两个或更多的认知行动者之间的交流。所有信

12、息查寻、检索的组成部分和相关活动都处于公共社会，物理与技术基础结构以及它们的历史情境中。情境具有历史性(累积性)，由认知行动者在与“使用团体”或同行长期接触过程中所获知识及经验组成。历史情境和实时交互情境(检索会话)共同构成的当前情境，其直接影响认知行动者对当前状态的认识与理解。 IR中存在三种交互方式：短期信息交互，基于会话的信息交互以及长期的、纵向的IR交互。用户利用数据库获取信息的过程，同时也是一种认知过程。因此，数据库的设计应以用户为中心，对用户特征进行大量(如认知能力)的研究。优化人机交互环境包括以下几点：市场和用户调查，确保数据库满足相应需求；设置自然语言接口，方便用户更恰当地表

13、达其信息需求，根据不同用户的心理、认知特性和检索习惯，使数据库的结构和用法易于掌握，提供友善的用户界面；建立自动问答系统，使系统和用户在一定程度上实现交互和及时的反馈，在问答系统中，用户不仅能查询原先已存八的事实和规则，更重要的是，系统还能够在与用户交互过程中采集到或推理运算出新的知识。一些认知实验方法已广为信息检索系统设计人员采用。例如：利用“口头协议”、“出声思维”等实验，观察、记录、询问和分析最终用户的心理行为，形成检索过程的“问题行为图”，归纳出优化检索策略，从而提高信息检索的查准率、查全率等。 (3)理论模型信息行为嵌套模型 T.D.Wilson于1999年提出了IR信息行为研究模型

14、，揭示了信息行为的嵌套关系，其核心思想是：IR处于信息查寻的情境之中，而信息查寻仅是构成整体信息行为的其中一种(如图1所示)。工程型集成专利检索 1现有专利检索每一件发明专利申请在被授予专利权前都应当进行检索。检索是发明专利申请实质审查程序中的一个关键步骤，其目的在于找出与申请的主题密切相关或者相关的现有技术中的对比文件，或者找出抵触申请文件和防止重复授权的文件，以确定申请的主题是否具备专利法第二十二条第二款和第三款规定的新颖性和创造性。此类专利检索的特点在于： (1)超宽文献范围检索用文献包括电子、纸件形式的专利文献、非专利文献； (2)超大文献量； (3)超负荷知识储备。专利的最终目

15、的是服务于人类和社会，其技术要素，法律状态，热点发明、数量统计、区域分布、竞争对手等情况，通常是人们最想了解的专利信息，而审查员对这些情况的熟悉和了解可谓得天独厚。倘若系统能辅助审查员在检索和审查的同时，较为便利地兼顾进行与信息利用相关的数据统计和分析，那么现有专利检索系统的效能将大为增加。因此，从某种意义上说，基于用户认知观的信息检索理论和方法，对于文献量庞大、任务交叠、知识更新快和经验性较强的专利检索，具有十分重要的现实意义。 2集成专利检索 (1)多元表示与相关性多元表示(polyrepresentation)最初是作为一种知识组织方法为提高检索效率而提出的，意在表明指向文献的知识表示

16、在认知和功能上越不同、越多样，文献与提问、信息需求和感知的工作任务情境相关的可能性就越大。通过认知上不同的知识表示所产生的认知重叠而发现的文献应被赋予最高的相关性。多元表示原理同样适用于信息查寻者的认知空间(cognitive space)，是一种行之有效的知识组织方法。然而，何种多元表示最适宜于特定的工作任务和情境，即知识表示的何种组合能提供有成效的检索结果，是文献等信息对象的多元表示与信息查寻者认知空间的多元表示之间的关系问题，也就是相关性(relevance)问题。信息对象的多元表示中既有相对客观稳定的认知表示维度(如题名、文献结构，参考文献作者认知结构、刊名、出版年、编辑者认知结构)

17、，又有主观性较强、因人而异的认知表示维度(如分类号，叙词标引者认知结构)，而信息查寻者认知空间的多元表示则包含感知的工作任务，查寻任务与信息需求等情境维度，以及领域知识状态、查询知识状态等知识状态维度。最佳检索效果的取得必然是前者的两类认知表示维度与后者的认知表示维度之间形成最佳关系状态的结果。最佳关系状态似应是依据最适的语义距离(semantic distance)对认知表示维度进行组合调整，从而在不同表示维度之间呈现出最适张力的结果。相关性包括算法相关、主题相关、需求相关、情境相关和社会认知相关等。专利检索的多元表示和检索结果的相关性评价涉及认知原理、IR研究、技术领域、专利知识以及计算机

18、技术。 (2)集成检索框架现有专利检索的局限主要表现在以下方面：用户需求、任务提问、动态交互(人机交互人人交互)、检索策略变化、不确定因素、检索结果的相关性评价以及因此而导致的查全率和查准率。根据认知科学和用户认知观原理，设想构建一种以用户的需求为核心、以用户的“认知轨迹”和系统的“人机交互”为依托的集成专利检索框架一种结构化、多元化、情景化和智能化的专利检索模式。如图2所示：集成检索框架为三元交互系统左侧为知识库联通“交互问答”构成的用户导向分支，中间为以任务为中心的系统导向分支，右侧为相关性评测、数据统计与分析和“经验记录”构成的信息利用分支。模型把用户导向、系统导向、信息利用通过联通

19、“交互问答”和“检索结果”整合起来，塑造成一个整体主义认知观模型，打通了信息检索的技术传统与信息查寻的人文传统的交流渠道，使探究“诠释人类的不确定性因素与对象内容和意义的不确定性的关联、工作任务和信息特性与信息对象的客观属性的关联”成为可能。因此，集成专利检索框架所提供的图景是检索行为的概括和抽象，其特征在于关注用户利益(需求认知等方面)、多元表示以及人机交互(动态问答)。 3工程型集成专利检索展望 (1)认知轨迹作为专利审查工作重要步骤的专利检索，存在文献范围宽、数量大、技术性和法律性强等特点，在检索、技术判定以及法律裁决等方面的工作复杂而繁重。值得注意的是，专利文献的追溯性和细致分类使

20、专利检索、审查以及数据分析具有一定重复性。根据用户认知观理论，检索者(比如专利审查员)审查一个案件的过程也是一个复杂而完整的认知过程。在此过程中，审查员的思维和行为构成了专利审查的“认知轨迹”。倘若对一项审批案件(case)审查过程中的关键步骤，比如：技术领域(iPC分类)的确定，关键技术特征c独立权利要求的关键点key pomts关键词与检索式fIR经验有价值的对比文献，两件或以上结合后影响创造性的相关文献和经验，功能类似的技术领域以及同行或其他行业的社会信息和经验等，记录并形成一个“认知轨迹”，其对今后类似案件的审查将具有重要的参考价值。这种基于用户认知观的、记录专利审查工作中关键步骤

21、和要素的“认知轨迹”的集合，对于降低专利检索和审查工作的难度、强度和可能的重复劳动，必将产生十分积极的效果。用户(专利审查员)在审查过程中的“认知轨迹”大致包含：领域信息技术要点、背景技术和法律状态等要素(例如：独立权利要求的关键内容，重要对比文件或创造性判定经验等)； IR信息IR经验(例如：经验IPC分类、关键词和检索式、功能类似领域的确定，两份以上申请结合后影响创造性情况等)；社会信息重要非专利文献涉及的关键技术或法律要素，专业技术公知常识，公众或其他行业相关信息、经验等；专业技术知识重要发明的关键技术要素、技术更新知识等。信息利用重要实施例、分布和行业竞争等数据统计和分析。检

22、索报告背景技术文献、影响新颖性和创造性的文献，以及中间文件(公开日在申请日与所要求的优先权日之间)等等。 (2)人机交互情景下动态人机交互不再是简单的提问一查询一结果，而是问答和领域信息、IR信息、社会信息、检索策略以及相关性评价互通，形成“当前+历史”情景下的动态人机交互。相关性评价与相对客观稳定的认知表示维度(如题名、参考文献作者认知结构，刊名、出版年、编辑者认知结构)，主观性较强、因人而异的认知表示维度(如分类号，叙词标引者认知结构)，信息查寻者的查寻任务与信息需求等情境维度，以及领域和查询知识状态等知识状态维度有关。相关性包括算法相关、主题相关，需求相关、情境相关和社会认知相关等

23、(3)数据统计和分析专利审查工作中，考量发明案件的新颖性和创造性无疑是最为核心和关键的部分。然而，无论从专利的三性之一“实用性”，还是从专利事业的战略高度，专利的最终目的是服务于人类和社会。专利检索、审查过程中一些和专利“实用性”相关的要素(比如：发明类别、关键技术要素、实施例，区域发明数量和文献被引用次数等)的数据统计和分析，不仅与专利信息利用密切相关，而且具有某种不可替代的参考价值。 4工程型集成专利检索的整体构成工程型集成专利检索的整体构成可概括为：IT(引擎，算法)；界面机制；认知轨迹记录j情景下(历史+实时)问答：相关性评价；有潜在信息价值的社会信息(具有历史性和积累性)。检索

24、报告可看作是审查的重要步骤之一“检索”的结果备份，而“认知轨迹”则好比一件发明案件整个审查工作的过程备份。设想将上述“认知轨迹”中的关键内容(领域信息IR信息专业技术知识社会信息信息利用)设计成一个审查“认知轨迹”模板，审查员当前阅读文献或工作界面与该模板“实时链接”，自动记录专利检索和审查过程中审查员的“认知轨迹”审查员在审查过程中可动态地将某些关键要素“传递”和“记录”于“认知轨迹”模板(比如：阅读独立权利要求时，涂黑独立权利要求中的某些关键要素一链接一传递并记录于“认知轨迹”模板中)，实现认知积累而避免今后的重复劳动。情景下动态人机交互与检索结果相关性评价均在多元表示基础上进行，问答和

25、相关性评价所关联的要素更加丰富，不再只是非此即彼地简单和缺乏逻辑性。模板有一定格式，引擎通过相应算法进行近似度、重叠度，逻辑推断等较综合和复杂的问答和分析。人们利用专利信息时，往往会十分关注某些数据的统计和分析。比如：和申请数量及文献被引用次数有关的前沿、热点技术；著名公司或企业的专利申请和利用情况7专利的分布比例与前瞻性分析等等。此类信息既是审查员在审查过程中比较熟悉和了解的，同时也是十分难得和有价值的。设想设计一个“信息利用数据统计和分析模板”(格式包含各种数据统计要素，例如：技术要素申请人申请量等)，与审查员工作电脑链接，使“专利信息利用数据统计和分析”较方便地成为专利检索，审查工作过

26、程的副产品。这样，审查员在检索、审查的同时，兼顾信息利用方面的数据统计和分析，从而真正实现专利的“新颖性和创造性”之外的另一个重要特性“实用性”。 21世纪信息检索研究方向发生了战略性转移向智能化方向发展，要求我们在认知科学基础上，研究用户的认知特征，让用户占主导地位，这对信息检索具有重要的理论价值和紧迫的实践意义。集成化，智能化和工程化专利检索系统基于认知科学和用户认知观的基本原理，试图通过“认知轨迹”，多元表示，人机交互以及计算机技术，使系统具有学习的功能，如：自动收集知识和建立用户模型，更新数据库和知识库等，最大限度地减低专利审查过程中的重复劳动，提高专利审查质量和效率。随着研究的深入化，系统化和规范化，专利检索，审查乃至信息利用等方面的工作质量和效率必将产生新的飞跃。 (作者单位：中国专利信息中心)

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？