非结构化数据管理系统Word文件下载.docx
《非结构化数据管理系统Word文件下载.docx》由会员分享,可在线阅读,更多相关《非结构化数据管理系统Word文件下载.docx(9页珍藏版)》请在冰豆网上搜索。
下列术语和定义适用于本文件。
非结构化数据 unstructureddata
没有明确结构约束的数据,如文本、图像、音频、视频等。
非结构化数据管理系统 unstructureddatamanagementsystem
对非结构化数据进行管理、操作的大型基础软件,提供非结构化数据存储、特征抽取、索引、查询等管理功能。
5 缩略语
下列缩略语适用于本文件。
IDF:
逆向文件频率(InverseDocumentFrequency)
MFCC:
梅尔频率倒谱系数(MelFrequencyCepstrumCoefficient)
PB:
千万亿字节(PetaByte)
SIFT:
尺度不变特征转换(Scale-invariantFeatureTransform)
TF:
词频(TermFrequency)
6 功能性要求
6.1 总体要求
非结构化数据管理系统的总体要求如下:
d)应包括存储与计算设施、存储管理、特征抽取、索引管理、查询处理、访问接口、管理工具七个基本组成部分;
e)宜包括转换加载、分析挖掘、可视展现三个扩展组成部分。
6.2 存储与计算设施
基本要求
存储与计算设施基本要求如下:
f)应支持磁盘、磁盘阵列、内存存储、键值存储、关系型存储、分布式文件系统等一种或多种存储设施;
g)应支持单机、并行计算集群、分布式计算集群等一种或多种计算设施。
扩展要求
无。
6.3 存储管理
存储管理基本要求如下:
h)应提供涵盖原始数据、基本属性、底层特征、语义特征的概念层存储建模功能;
i)应提供逻辑层的存储建模功能;
j)支持整型、浮点型、布尔型、字符串、日期、日期时间、二进制块等基本数据类型;
k)支持向量、矩阵、关联等数据类型;
l)应支持根据建好的逻辑层存储模型创建存储实例;
m)应支持在创建好的存储实例上插入、修改、删除非结构化数据;
n)应支持删除存储实例;
o)应支持非结构化数据操作的原子性。
存储管理扩展要求如下:
p)应支持全局事务的定义并保证事务的原子性、一致性、隔离性和持久性;
q)应支持数据类型的多值结构和层次结构;
r)应支持在不同的存储设施上创建存储实例并实现自动映射;
s)应支持PB级数据存储。
6.4 特征抽取
特征抽取总体要求
特征抽取基本要求的总体要求如下:
t)应支持从非结构化数据中抽取名称、类型、创建者和创建时间等基本属性;
u)应支持文本、图像、音频、视频中至少一种非结构化数据特征的抽取。
文本特征抽取
文本特征抽取基本要求如下:
v)应支持从文本中抽取词;
w)应支持从文本中抽取停用词;
x)应支持从文本中抽取TF-IDF特征;
y)应支持从文本中抽取关键词。
图像特征抽取
图像特征抽取基本要求如下:
zz)应支持从图像中抽取颜色空间、主导颜色、色彩内容、颜色结构、颜色布局等颜色特征;
aa)应支持从图像中抽取均匀纹理、边缘直方图等纹理特征;
bb)应支持从图像中抽取区域形状、轮廓形状等形状特征。
音频特征抽取
音频特征抽取基本要求如下:
cc)应支持从音频中按静音抽取片段;
dd)应支持从音频中抽取音频波谱特征;
ee)应支持从音频中抽取MFCC特征。
视频特征抽取
视频特征抽取基本要求如下:
ff)应支持从视频中按镜头抽取片段;
gg)应支持从视频中抽取关键帧。
应支持文本、图像、音频、视频中两种及以上非结构化数据特征的抽取。
文本特征抽取扩展要求如下:
hh)应支持从文本中抽取人名、地名、机构名、时间等内容;
ii)应支持从文本中抽取主题词;
jj)应支持从文本中抽取摘要;
kk)应支持从文本中抽取语义特征。
图像特征抽取扩展要求如下:
ll)应支持从图像中抽取SIFT局部区域描述特征;
mm)应支持从图像中抽取语义特征。
音频特征抽取扩展要求如下:
nn)应支持从音频中抽取音频指纹特征;
oo)应支持从音频中抽取旋律特征;
pp)应支持从音频中抽取音色和响度特征;
qq)应支持从音频中抽取语义特征。
视频特征抽取扩展要求如下:
rr)应支持从视频中抽取运动特征;
ss)应支持从视频中抽取语义特征。
6.5 索引管理
应提供索引建立、维护和删除功能。
索引管理扩展要求如下:
tt)应支持B+树索引、倒排索引、全文索引和高维索引多种索引类型;
uu)应支持PB级数据索引。
6.6 查询处理
查询处理基本要求如下:
vv)应支持范围查询、全文查询、样例查询、语义查询和跨媒体查询多种查询方式;
ww)应提供查询结果排序和批量返回功能。
查询处理扩展要求如下:
xx)应提供查询相关性反馈功能;
yy)应支持PB级数据查询。
6.7 访问接口
访问接口基本要求如下:
zzz)应依从GB/TAAAAA-AAAA中第4章规定的查询语言访问接口要求;
aaa)应依从GB/TAAAAA-AAAA中第5章规定的应用程序访问接口要求。
应依从GB/TAAAAA-AAAA中第6章规定的Web服务访问接口要求。
6.8 管理工具
管理工具基本要求如下:
bbb)应提供安装部署工具;
ccc)应提供逻辑层模型定义工具;
ddd)应提供查询分析工具。
应提供任务管理工具。
6.9 转换加载
转换加载基本要求如下:
eee)应支持常用格式的文本数据转换加载;
fff)应支持常用格式的图像数据转换加载;
ggg)应支持常用格式的音频数据转换加载;
hhh)应支持常用格式的视频数据转换加载。
应提供面向医疗、工业控制、金融等特定应用领域的非结构化数据转换加载工具集。
6.10 分析挖掘
分析挖掘基本要求如下:
iii)应支持分析模型定义;
jjj)应支持分析模型执行;
kkk)应支持挖掘模型定义;
lll)应支持挖掘模型执行。
应提供数据挖掘工具集。
6.11 可视展现
可视展现基本要求如下:
mmm)应支持文本数据展现;
nnn)应支持图像数据展现;
ooo)应支持音频数据展现;
ppp)应支持视频数据展现;
qqq)应提供柱状图可视化方法;
rrr)应提供折线图可视化方法;
sss)应提供饼图可视化方法。
可视展现扩展要求如下:
ttt)应提供标签云可视化方法;
uuu)应提供关系图可视化方法;
vvv)应提供基于地图的可视化方法。
6.12 统计信息
时间统计信息
应提供系统平均数据插入时间的统计信息。
应提供系统平均查询响应时间的统计信息。
容量统计信息
应提供系统可支持的数据量的统计信息。
应提供系统可支持的并发用户数的统计信息。
7 质量要求
7.1 信息安全性
信息安全性基本要求如下:
www)应支持创建、删除用户;
xxx)应支持用户设置密码;
yyy)应支持创建、删除角色;
zzzz)应支持用户角色的授予、收回、查看;
aaaa)应提供权限体系;
bbbb)应支持用户和角色权限的授予、收回、查看;
cccc)应支持数据加密。
应支持用户审计。
7.2 易用性
易用性基本要求如下:
dddd)应提供完整的用户手册;
eeee)应提供联机帮助;
ffff)应提供图形化管理界面;
gggg)应提供模型定义和数据操作的交互工具。
应提供向导工具。
7.3 维护性
维护性基本要求如下:
hhhh)应支持非结构化数据的导入与导出;
iiii)应支持数据多副本;
jjjj)应支持日志机制;
kkkk)应支持存储实例的备份与恢复;
llll)应提供故障恢复工具。
应支持系统模块的热插拔。
7.4 兼容性
兼容性基本要求如下:
mmmm)应支持多种操作系统运行环境;
nnnn)应支持GB18030的强制部分。
oooo)应支持C++或Java主流编程语言。