CNERPSMK信息资源库企划书v02.docx
《CNERPSMK信息资源库企划书v02.docx》由会员分享,可在线阅读,更多相关《CNERPSMK信息资源库企划书v02.docx(17页珍藏版)》请在冰豆网上搜索。
CNERPSMK信息资源库企划书v02
第一章背景介绍
《新华书目报》简介
《新华书目报》创办于1963年,系国家新闻出版总署主管、新华书店总店主办的中央级专业图书出版信息类报纸,含《社科新书目》、《科技新书目》、《读者新书目》三大子报,报道中央一级和北京以及全国其他地区出版社的各类图书、多媒体制品等最新出版信息。
收录图书品种丰富,介绍详细,以新书为主,每月预告初重版图书信息逾5000种,年近5万种,是一张信息量大、价格低廉并为全国各新华书店、图书馆、出版社、机关团体资料室及社会各界读者广泛使用并富有市场成效的报纸。
该报同时也为广大的海外中文书店、图书馆中文部及中文读者使用。
为了使传统的征订目录在形式与内容上有所突破、有所创新,更能满足出版社及发行商的需求,更好地为出版发行服务,《新华书目报》在2001年开始进行改版,即在原有版面的基础上,增加了相应的专题版面。
改版后的《社科新书目》在原32版基础上增加了16个版面,《科技新书目》在原32个书目版中辟出4个文字版面。
这些版面以书摘、书评、书荐、专访等活泼、生动的形式将更多更好的新书介绍给读者,对原有的征订目录予以新颖别致的补充,使现在的《新华书目报》既有实用性,又有可读性。
《新华书目报·社科新书目》,4开48版,旬报,每月8日、18日、28日出版,通过邮局公开发行。
主要以社科、文学、财经、少儿、文教、综合类图书为报道对象。
邮发代号:
1—189每期定价:
1.20元年价:
42.00元
《新华书目报·科技新书目》,4开32版,旬报,每月5日、15日、25日出版,通过邮局公开发行。
主要以自然科学、基础科学、工程技术、医药、各级标准、生活科学等类图书为报道对象。
邮发代号:
1—62每期定价:
1.00元年价:
35.00
《新华书目报·读者新书目》周报,是面向海内外社会个人读者的图书信息服务类报纸。
分设:
新华、社科、文学、科技、财经、医药卫生、教育、少儿和读者俱乐部专版。
邮发代号:
1—88
《全国大中专教学用书汇编》简介
《全国大中专教学用书汇编》是收录全国所有大中专教材出版信息的专业媒体。
是服务于发行和教育渠道的教材采购资讯大全。
每年分春、秋两季多册出版,面向全国各大中专院校、数千家新华书店、教材发行站、集个体书店以及一些媒体和行业,每季发行10万余套,目前已有200多家出版社的教材出版信息列入征订,每年的征订品种达6万余种.是目前国内教材信息最完备、发行量最大、范围最广的教材征订目录。
第二章CBD信息资源库建设系统
(CBD特色库系统,CBDInfoBaser)
资源对象规范描述及组织、特色资源全生命周期管理之利器
需求场景
某图书馆/分销商负责人:
我们馆有很多珍贵的特色馆藏资源,希望进行数字化并提供网络化服务,让更多的人能够了解有没有一套能快速加工、描述、组织这些资源形成特色资源库,并提供网络化服务的软件平台?
某档案馆负责人:
档案管理正逐渐从传统的人工管理转向数字化管理,如果有能支持档案管理各种规范,在数字档案存储、检索和调阅等方面具备安全、高效并覆盖档案生命周期的产品,那将大大加快该工作的进程!
某信息中心负责人:
为了更好地体现电子商务工程建设的效果,有效利用中心掌握的各类平台和资源,向广大读者及企事业单位提供专业化的行业信息库服务,我们非常需要一套能符合图书资源目录体系规范,并按照国际国内标准构建的系统来辅助我们迅速推进信息库及相关服务建设工作。
某大型信息工程项目负责人:
信息资源库的共建与共享是我们项目建设的重要内容之一,我们要求软件系统能支持各类数据对象的加工、元数据规范描述及多种分类标准,支持信息的分布加工及资源按照标准协议交换共享,如果没有现成的系统,我们只有花大力气研发了。
某企业CIO:
我们企业有大量的内部报告、通讯、合同书、报表以及学习资料等等,且每天都在不断增加,这些以纸张形式存在的信息散落在公司各个部门,无法及时搜索和调阅,如果有一套系统能解决数字化并将他们规范存储管理、安全调用,那将为企业提供一个非常有价值的数字资产仓储和服务平台!
……
您的想法与他们类似?
立即联系CBD,咨询我们的CBDInfoBaser信息资源库建设系统,信息资源全盘掌握!
CBDInfoBaser给您带来的价值
通用型产品和解决方案,为您省时省力省钱
CBDInfoBaser根据国际国内相关标准规范构建,支持并内嵌多种元数据标准、分类体系标准、信息交换标准,兼容各种对象格式,集成CBD领先的信息智能及搜索技术,您可以迅速部署并开展工作,加速资源信息化管理和服务进程。
信息规范化组织,有效管理您的信息财富
CBDInfoBaser通过集成的扫描识别程序及灵活规范的元数据来对物理介质及数字对象资源进行数字化标识和描述,辅以行业化分类标准实现对数字化资源的有效管理和存储,从而将您的宝贵资源变为多媒体信息库的形式的数字化资产,得以长期保存。
信息资源全生命周期管理
CBDInfoBaser符合CBD内容管理理念,对信息对象进行全生命周期管理,
发挥资源规模化优势,提升信息资源价值
CBDInfoBaser将原本分散的各类资料形成统一表述的数字化仓储,并支持联合共建模式,使得同类资源经过深度加工后形成具备标准化、规模化、行业化、领域化的特色资源,大大提升单体资源的价值,具备商业化价值。
为网络化知识平台的建立提供重要工具
CBDInfoBaser是数字图书馆、数字档案馆等将物理馆藏变为数字馆藏的重要工具,是使孤立信息变为关联知识的重要手段,是利用互联网展示自身资源、提供知识服务的重要途径。
产品概述
随着网络的迅速发展和信息资源需求的不断增大,特色资源保存、管理和服务成为图书馆等资源收藏和服务机构迫切需要解决的问题,同样,出版社和书店也存在大量纸本或数字资源需要规范化描述和管理,利用数字化手段长久保存并迅速检获,通常这类工作会面临资源的电子化加工、资源的转换、元数据的标引和著录、资源的服务、资源的安全、资源的评估和反馈等诸多环节。
为解决这些问题,CBD结合在信息处理方面多年经验积累,针对信息资有种类繁多、结构各异、加工和服务方式多样等特点,研制了一套遵循标准、灵活定制、操作简便的信息资源库建设系统,即CBDInfoBaser,以满足各类特色资源建设和服务的需要。
CBDInfoBaser系统集成了信息资源的加工、传递、服务等功能,是资源数字化建设的完整解决方案。
针对特色资源的介质不同,CBDInfoBaser加工模块提供了纸本资源加工和电子资源转换等模块;针对资源交换和存储的需要,CBDInfoBaser系统采用标准的XML文件作为元数据和数据的存储格式,方便与其他资源管理系统进行交换;针对服务的多样性和安全性,CBDInfoBaser系统提供了浏览、导航和检索三种服务方式,提供了三种不同层次的安全级别。
概括来说,不论是纸本的资源还是各类非标准格式的数字资源,CBDInfoBaser系统都提供相应的功能模块和流程用以解决资源规范化建设问题。
产品功能
信息资源库的创建、维护与注册
内置11种信息库模板,元数据标准符合科技部规范,并可根据需要灵活定义描述结构,迅速创建符合应用需求的信息库。
信息资源加工标引
提供强大易用的工具,对信息对象根据元数据规范进行标引,支持各种媒体对象的挂接和转换,自动抽取元数据,集成CBDCKM中文知识管理工具包,智能提取文章的主题词、摘要以及抽取文本内容。
信息分类
支持对信息对象按照分类标准进行分类描述,提供分类导航,内置中图法、科图法、发行分类法、学科分类法,并可自定义分类描述。
数据的导入、导出
支持RDBMS数据,MARC、CCFC等记录数据以及文本格式数据等自动批量导入并转换为信息库标准格式。
信息库数据支持按照XML格式和CBD记录格式的批量导出能力,便于与其它系统交换信息。
资源记录审核维护
提供审核机制控制记录的内容和质量,保证资源库记录的一致性、合法性及可用性。
用户管理
提供用户的注册、登录、管理等功能,区分加工用户、著录用户、系统管理员以及资源访问者,提供用户名密码及IP访问控制等机制。
数据导航
发布后的信息资源可按照分类导航、信息首字母导航及按字段导航,帮助用户快速浏览到所需资源。
数据检索
内嵌CBD强大的检索功能,支持对信息资源的简单检索、一般检索、二次检索、扩展检索及高级检索功能。
开放链接
支持CALIS资源调度服务,支持OPENURL开放链接解析。
数据交换
提供基于OAI和Mets规范的的数据交换方式。
日志与统计
系统提供对各类操作的日志记录,并可根据日志提供多种类型的统计,包括用户操作、资源分布、检索频率、资源下载、访问量、OAI、MET访问等等。
系统管理和配置
提供对加工系统、服务系统、交换系统等等各个模块全方位的配置管理能力。
产品架构
CBDInfoBaser系统采用三层架构的设计模式,分为数据存储层、逻辑层和服务层,实现了信息资源加工、管理和发布流程,涵盖了信息资源的生命周期,其系统结构如下图所示:
根据特色资源加工和服务的不同特点,CBDInfoBaser分别采用了C/S和B/S的不同技术架构。
特色资源加工模块基于Windows的C/S结构,具有成熟稳定、快速高效和使用简单等特点;特色资源服务模块基于B/S接口,具有部署容易、维护简单和易于使用等特点。
在资源加工和服务之间采用WebService的技术进行交互,具有简单、开放等特点。
CBDInfoBaser特点和优势
•架构开放
广泛采用XML用于数据的定义、存储和交换。
基于XML的元数据规范定义,易于实现跨行业和新类型的扩展;基于XML的元数据存储,易于交换与移植;基于XML的元数据交互,提供了最大限度的扩展和适应性。
•符合通用规范
内置科技部的11种元数据规范,加工、发布、交互都符合CALIS要求,支持CALIS的OAI、Mets和资源调度协议,统一的CALIS-OID标识符。
交互模块采用DC等元数据标准。
实现元数据到DC元素的定义、映射和交换。
•简单易用
特色库的创建、维护、注册、发布采用向导方式引导用户操作;元数据的著录、审核界面友好,整个系统易于理解和操作。
•全文检索
采用CBDServer支持非结构化和结构化数据的统一管理,实现XML数据全息检索。
允许使用文中的任意字、词、短语、句和片段进行检索,支持中英文或其它语种的混合检索以及结构化、非结构化数据的混合检索。
内置分词词典、主题词表,根据词典进行扩展和相关检索。
•文本智能
CBD特色库系统集成CBD文本挖掘基础件,提供自动提取关键词,自动摘要,自动分类等文本挖掘功能。
最大限度的辅助加工人员,增加系统的易用性。
通过文本挖掘基础件,使得检索应用可以支持拼音/同音检索、相关短语检索和相似性检索等功能,提高用户检索的易用性。
•数据智能处理
系统自动提取数据的各种类型的元数据,包括管理元数据、描述元数据和技术元数据等。
例如:
提取WORD/EXCEL/POWERPOINT/RTF/PDF等类型文档的作者、标题、日期、关键词等描述元数据;提取图片的分辨率、尺寸等技术元数据。
•方便定制
系统采用置标和模板技术,通过定制发布模板可以发布不同的页面效果,同时可以定制发布服务的导航类型和字段,支持首字母导航、分类导航和字段导航。
第三章CBD数据处理工具
(CBDDataProcessor)
集成化加工、元数据标注、智能化处理数据。
产品概述
CBDDataProcessor加工、标引、加载本地各种类型的数据到CBD数据库中,优化后续的检索、发布和服务。
CBDDataProcessor对已进入CBD数据库中的数据进行元数据加工等深层次联机加工,增强了数据加工处理能力,释放了CBD全文检索服务器的内在潜能,降低了产品实施维护成本。
CBDDataProcessor结合用户实际需求,提供集成化的文档处理数据加工功能和众多智能的、便捷的操作模式,提高了资源的加工速度,适应现代快节奏的工作模式,使用户更加得心应手。
产品架构
产品功能
集成平台
•多种文件加工
CBDDataProcessor可以把WORD、EXCEL、POWERPOINT、RTF、PDF、HTML、XML、TXT、音、视频等不同类型的文件进行文本抽取,并装载到CBD数据库中。
•多样加载方式
CBDDataProcessor对文件可以按目录加载、按类型加载,也可以一次加载多种类型,内部的智能处理极大的方便了用户前端操作。
智能处理
•元数据标注(MetadataTag)
支持元数据标准,通过标注元数据信息,提供灵活分类。
•分类完善
CBDDataProcessor提供了完善的分类功能(自带了四个分类法:
中图法、中科院图书分类法、发行分类法、学科分类法等)和分类法维护、创建功能,并支持直接拖放分类节点进行记录分类。
•智能信息处理
CBDDataProcessor集成了知识挖掘基础件(CBDCKM),可以智能提取文件的主题词。
高效易用
•配置灵活
CBDDatabaseServer的集群成倍提高系统的计算能力和扩展能力,并可轻松扩展系统规模,满足用户随需应变的需要。
•标引方便
自动分库功能对用户完全透明,适应企业级海量数据的快速增长;跨库检索实现检索效能和检索质量的完美平衡。
•自动链接
提供了数据上传的功能,本地文件可以放在FTP服务器上进行管理,并与CBD数据库中该文件对应的记录进行关联,数据发布后可以自动生成链接。
第四章CBD文本挖掘基础件
(CBDCKM)
以文本挖掘为核心的智能信息处理技术
产品概述
近年来随着Internet的大规模普及和企业信息化程度的提高,有越来越多的信息积累,而需要信息的人还没有特别方便的工具去从来自异构数据源的大规模的文本信息资源中提取符合需要的简洁、精炼、可理解的知识,文本挖掘正是解决这一问题的一个方法。
CBDCKM的主要功能是为中文文本挖掘应用提供强有力的开发接口。
它集成了CNERP公司最新推出的多项中文信息处理技术,具体包括:
CBD文本分类系统、CBD文本相似性检索系统、CBD文本摘要系统、CBD文本信息过滤系统、CBD拼音检索系统、CBD相关短语检索系统、CBD(政治)常识校对系统、CBD文本聚类系统、CBD文本分词系统。
CBDCKM相关产品和技术可以广泛的应用于以下领域和系统中:
企业知识门户、信息增值服务、智能搜索引擎、数字图书馆、情报分析、信息安全和过滤、电子商务系统。
产品功能
自动分类
文本分类是指计算机根据文献内容进行类别划分的功能,CBD的文本分类系统支持两种分类方法:
基于统计原理的自动分类和基于语义规则的规则分类。
用户可以根据具体需求选择一种或者”两种结合”的方式进行分类支持。
CBD的文本分类系统支持多种分类标准和分类体系,支持多级分类和类别复分,支持中英文分类和中英文混合分类,并且可根据用户需求扩展到其他语种。
可以用于新闻分类、报纸分类、期刊分类、出版分类、发行分类等诸多应用。
•自动分类
基于内容、不需人工干预的文本自动分类技术。
系统提供分类训练工具,允许用户自行根据自己的分类需求和数据特点设定分类结构,自动生成特征模板,进行分类训练。
CBD自动分类支持反馈学习机制,可以根据用户的反馈自动对分类模板进行完善,从而逐步增加分类的准确率。
CBD自动分类技术适用于用户基于内容的分类需求,例如:
将互联网新闻按照“国际”、“国内”、“法制”、“体育”等进行分类。
•规则分类
基于规则的文本分类技术。
规则的书写满足与、或、非等逻辑运算规则,具有设定词频数功能。
同时系统提供方便的规则定义界面,用户可以根据需求书写和调整规则,达到预期的分类目标。
规则表达式示例:
作者=(李四+王某)-正文=外汇、标题=世界杯*正文=(汉城+中国队)。
CBD规则分类技术适用于用户基于关键词的分类需求,通过和自动分类技术相结合,为用户提供高准确度的多级分类支持。
相似性检索
•相似性检索是指对于给定样本文献,在文献数据集合中查找出与之内容相似的文献的技术。
实践表明应用相似性检索技术可以达到很好的网络内容自动排重、相关文章推荐效果。
利用内容的相似性进行排重判断,准确性高,不会因为标题或内容的少许变化而产生漏判,即使把标题进行了改头换面,系统也会正确判定。
系统支持用户根据个性化需求设定相似度阈值和检索结果集大小,达到预期的相似检索、内容排重目标。
支持中英文文本的相似性检索,并可根据用户需求扩展到其他语种。
该技术可应用于稿件查重、版权保护等诸多领域。
自动聚类
•基于相似性算法的自动聚类技术。
根据文本内容的相似度,将内容聚合成不同的类别,同时对每一个聚得的类别,给出精确的类别主题词。
系统聚类速度快、精度高,支持中英文聚类,并可根据用户需求扩展到其他语种。
该技术可应用于可视化文献分析等诸多领域。
自动摘要
•CBD自动摘要技术采用统计技术设计,自动提取文本的主题,生成文章摘要,为用户快速预览文章内容提供快捷的方式。
同时用户可根据需求调整自动摘要的长度。
支持中英文文本的自动摘要,并可根据用户需求扩展到其他语种。
该技术可应用于新闻采编、搜索引擎等诸多领域。
自动分词
•基于规则与统计相结合的分词技术。
内嵌分词歧义规则库,有效解决大部分的切分歧义,准确识别人名、地名、组织机构名等信息,并提供词性标注功能。
应用于文献检索、搜索引擎等诸多领域。
拼音检索
•基于统计的汉字注音技术和多音排歧技术。
通过超大的拼音词典支持,支持同音检索、全拼检索和简拼检索,支持拼音输入校正。
可用于信息检索、搜索引擎等系统,向用户提供同音查询建议,帮助用户更好地进行检索。
相关短语检索
•基于人工整理和数据挖掘方法结合的相关短语技术。
根据语义信息、短语结构、短语词典等计算短语之间的相关关系,获取相关短语。
可用于信息检索、搜索引擎等系统,向用户提供短语查询建议,帮助用户更好地进行检索。
点击体验新华社多媒体数据库相关短语检索
自动过滤
•基于统计和机器学习的文本过滤技术。
CBD文本信息过滤系统的主要功能是有效地识别和过滤各种有害文本信息,帮助用户摆脱有害信息的侵扰。
可应用于互联网络信息过滤、垃圾邮件过滤、法轮功信息过滤等内容安全领域。
政治常识校对
•基于语义的校对技术。
可以校对党和政府的领导人名字、党和政府领导人的称谓、党和政府领导人的排序以及政治术语不当引用,可应用于稿件校对审查等方面。
产品优势
性能优异,各项指标位居世界前列
自动分类达到85%~~90%的准确率
自动分类支持多层分类,缺省每层最多支持100个类,层数不受限制
分类速度在每秒40篇以上。
(P2-500128M内存)
20万篇文章以内,相似性检索平均速度在1s内;121.5万篇文章,相似性检索平均速度在2~3s(P3-9331G内存)。
自动文摘速度可达每秒十篇以上。
拼音检索速度平均为支持每秒100次检索以上。
(测试环境为:
P42.4G,512M内存)
文本信息过滤的准确性达到90%以上。
文本信息过滤的平均速度为每秒40篇以上。
(测试环境:
p41.5G,512M内存)
成熟度高,多领域的成功应用
•CBDCKM相关技术和产品广泛的应用于政府的互联网内容安全领域、媒体的信息资产加工领域、企业的情报分析领域等,经过了海量信息和复杂环境的考验,具有很高的成熟度和可用性。
开放性好,易于开发和应用集成
•产品提供本地动态库调用(CAPI)和SOAPAPI调用(WebServices)两种接口方式,使得用户可以很容易的利用这些技术开发前端应用,或者集成到其他文本应用软件中。
一体化强,和CBDDatabaseServer搭建一体的非结构化数据管理解决方案
•CBDDatabaseServer全文数据库服务器的核心功能是实现对海量非结构化信息的全文检索和统一存储。
通过CBDDatabaseServer和CBDCKM的有机结合,不但提供海量非结构化信息的统一存储和全文检索,而且提供自然语言检索和相似性检索等全方位智能检索,以及智能化信息处理加工,从而构成一体的非结构化数据管理解决方案。
第五章CBD电子出版数据处理工具
(CBDCEL)
产品概述
CBDCEL是数据加工、预处理、辅助标引和数据库加载的集成化工具。
融合了CBDPS解释器,从而彻底解决了激光照排数据的分析和转换的需求。
同时还能自动分析、提取和转换普遍使用的Office文档和PDF文件。
产品功能
强大的PS解释器完整、正确地理解postscript语言,能够理解、分析和利用PS文件,包括颜色、图形、图像、字体等所有方面,同时根据主流排版系统来优化执行过程、提高效率。
以前版本的CBDCEL和其他所有同类数据转换软件一样,会受到方正或华光排版系统修改格式的困扰,需要不停的更新维护,CBDCEL6.0以上版本内嵌的PS解释器,有效和彻底地解决了这个长期困扰出版和信息服务界的老大难问题。
能够支持WITS,FIT等所有版本的S2,PS2,PS,S72,S92等照排文件。
智能化标引技术
市场上一些同类软件只能对PS文件进行简单的文本提取,CBDCEL采用智能化版面标引技术,能够最大限度地自动提取文字和其他特征信息,如正文、标题、日期、版次、图像等。
CEL独创的标题-正文关联技术,可以正确分析并组合文章的正文和标题;可以灵活地实现在浏览原版式时进行单篇转换、选择转换和全部转换模式。
表格图片自动识别
表格和图片处理一直是电子出版数据处理中的难点,CBDCEL能够正确识别表格,自动加载各种格式的图片,并进行符合实际需要的处理。
灵活的输出格式
CBDCEL不是简单的输出文本文件,根据使用要求的不同,CBDCEL能够把PS数据转换输出成DHTML,PDF满足了Web出版的要求。
对HTML、Word、PDF文件可自动提取相应的特征信息。
除了支持S2,PS2,PS,S72,S92等照排文件格式外,还支持HTML,Word,PowerPoint,Excel,PDF等其他专业数据格式的处理、标引和转换。
支持书版数据的多页浏览
数据装库可按文件和记录装库,也可以同时打开多个窗口对多个文件进行标引入库。
能够随时完成数据库的加载,实现转换、编辑、装库的流水线作业。
支持一次装载多个服务器的多个数据库。
产品应用
报纸/期刊(电子文档)数据转换/网络出版
当前的报纸/期刊采用方正飞腾软件进行排版的,该软件所形成的PS格式文件无法直接被因特网浏览器所支持。
因此如何将面向印刷出版的数据格式转化为面向网络出版的数据格式,使报纸/期刊的录入排版过程与报纸/期刊的上网制作相衔接,并做到最高效、最经济,是我们要解决的一个关键技术问题,也是目前国内报纸/期刊数字化建设中面临的一个重要问题。
采用CBD软件技术灵活、方便、有效地对方正飞腾生成的PS文件直接转换为网络上可分发的PDF文件格式。
这样,编辑排版后所产生的电子文件可直接提供在网上,实现一次编辑,两种方式出版。