外文翻译中文.docx

资源描述

外文翻译中文.docx

《外文翻译中文.docx》由会员分享，可在线阅读，更多相关《外文翻译中文.docx（11页珍藏版）》请在冰豆网上搜索。

外文翻译中文.docx

外文翻译中文

一个面向对象的新闻点播多媒体数据库系统应用程序

数据库系统研究实验室

计算机科学系

阿尔伯塔大学

埃德蒙顿，阿尔伯塔

加拿大T6G2H1

[摘要]我们描述了一种多媒体数据库管理系统的分布式新闻点播多媒体信息系统。

新闻点播是一个应用,它利用宽带网络服务提供给用户的新闻文章的形式的多媒体文件。

不同的新闻机构插入到数据库，然后在远程用户访问，通过宽带网络。

我们的设计细节是面向对象的方法,严格遵守国际标准,特别是SGML和HyTime。

多媒体数据库系统有一个可视化查询机制,也是本文所描述的。

可视化查询接口提供了三个主要的设施为最终用户:

演示、导航和查询的多媒体新闻文档。

主要的焦点是多媒体对象的查询存储在数据库中。

[关键词]数据库管理SGMLHyTime面向对象设计

1.介绍

特征特性之一的多媒体信息系统的集成大量复杂的结构化数据。

这个特点使得他们的极佳选使用数据库管理系统（DBMS）的技术。

不幸的是,它仍然是罕见的发现多媒体信息系统,该系统使用的dbms。

这就排除了系统支持标准的数据库管理系统功能,如查询、更新通过控制事务,等。

因为大多数的当前一代的多媒体系统是单用户系统在个人电脑,这还没有成为一个主要的问题。

然而,随着下一代多用户系统开发（例如新闻点播、协作和互动的工作,电子出版）需要开发多媒体。

dbms提供本地支持这些功能也有可能增加。

DBMS技术的另一个原因,迄今还没有渗透到这个应用程序领域是人选的关系型DBMS技术对手头的任务。

我们听取了第四节详细讨论的缺点关系dbms支持多媒体信息系统。

简单地说,关系系统善于支持商业数据处理的应用程序,但不是很适合于支持“先进的应用程序“例如多媒体信息系统。

因此他们的角色被限制在存储和管理元数据信息（例如,几乎一个目录服务）而不是多媒体数据。

新兴的面向对象的DBMS技术（Dogac1994年）是专门针对这些应用程序域。

我们强调使用DBMS技术在多媒体信息系统的支持,尽管存在大量的“多媒体文件系统”。

其中一个原因是标准的理论支持dbms文件系统留给用户格式化文件的责任为多媒体对象的管理大量的数据。

多媒体计算机系统的发展可以受益于传统DBMS服务,比如数据独立（数据抽象）,高层访问通过查询语言,应用中立性（开放）,控制的多用户访问（并发控制）、容错（事务,恢复）,和访问控制。

第二个重要的原因是,多媒体对象有时间和空间关系,比如同步和显示之间的信息标题文本、视频和声音。

这些关系应该显式地建模的一部分存储数据。

因此,即使多媒体数据存储在文件、它们的关系需要存储元数据的一部分在一些DBMS。

如上所示,这是传统的角色dbms在多媒体信息系统;这个词“多媒体数据库”通常指一个集中的目录服务,为数据存储在不同的文件系统。

最后,多媒体应用通常是分布式的。

两个目标应用程序（新闻点播）和许多其他多媒体应用程序需要多个服务器来解决他们的存储需求。

因此,分布式数据库管理系统技术可有效地和透明地管理数据分布;分布式文件系统都不适合分布式的功能的DBMS

在本文中,我们描述了我们设计的面向对象的多媒体信息系统设计来支持新闻点播应用程序。

这种中心设施的设计是一个多媒体类型的系统,使得高水平的多媒体应用程序建模。

第二个的重点领域的发展是一个可视化查询工具。

大多数的现行的多媒体用户接口只支持浏览。

然而,随着多媒体数据库变得越来越大,越来越复杂,需要临时查询将会更加突出。

因此,我们决定关注这两个中央数据库管理问题早期的和这些是本文的重点。

除了中央利用面向对象的DBMS技术如上面所讨论的,另一个功能,就是描绘我们的工作是要严格遵守标准通用标记语言（SGML）和超媒体/基于时间的结构性条款HyTime标准。

这些是ISO标准,足够丰富的支持目标应用程序,并获得广泛流行。

SGML主要处理文本文件而HyTime增加支持对超媒体文件。

在本文中,我们假设一些基本熟悉面向对象的技术。

我们不提供的详细描述SGML和HyTime要么,即使我们总结这些特性的这些标准,为我们的设计是至关重要的。

第2节中,我们首先概述目标应用程序,新闻点播。

第三节论述了系统架构,我们也在发展。

部分4和5是至关重要的,纸和展示设计的类型系统和设计的可视化查询接口,分别。

我们比较我们的工作与一些更重要的设计工作在第6节。

最后,第7节中,我们概述了当前的发展状态和方向,我们遵循泄露。

2.应用程序环境

2.1新闻点播应用程序

新闻点播是一个应用程序,它提供了用户（或终端用户）的服务访问多媒体文档（新闻文章）都被插入到一个分布式数据库由新闻提供者（或者信息来源）。

新闻提供者是商业新闻采集/编译组织比如电线服务,电视网络和报纸。

他们提供的新闻项被注解和组织成多媒体文件的服务提供者（也可能是新闻提供商）。

这个用户访问该多媒体数据库并检索新闻文章或部分相关的新闻文章。

这是一个典型的分布式服务的客户访问文章通过宽带网络从分布式服务器

新闻点播的应用提出了两个重要的问题,不是一般的所有多媒体系统,该系统使用数据库:

有好几个新闻提供商插入文档插入数据库从不同的远程网站,通过一个网络。

这需要一个开放的系统遵循的标准的新闻文章表示和编码,使在网络上传输和插入到数据库中。

有一个类似的问题。

在用户的尽头,在不同的浏览器和接口可用于访问的文章。

一旦插入到数据库中,新闻文章不更新通过新闻提供者或订阅者。

因此,我们有一个只读模式数据库。

新闻提供者可能插入更新版本的新闻文章,然而,随着时间的推移。

数据库管理系统将处理版本管理问题。

2.2多媒体新闻文档

一个文档是一个结构化的信息片段的集合相关的特定主题。

在多媒体文件,这些信息的不限于传统的文本,但包括其他媒介如音频、视频和图片。

这些媒体本身可以组合,所以,我们会有组合的音频和视频,图片和文字等。

文档的结构（即之间的相互关系,各种文档组件）使文档的内容能够理解读者。

这个结构有严格的等级制度的性质,与文档本身坐在树的根。

作为一个例子,一本书的章节组成;部分的章节由;部分由段落,等等。

这个结构是除了书的实际内容。

换句话说,是有区别的文档内容和文档结构。

两种类型的结构可以确定:

逻辑结构和表示文档结构。

逻辑结构是指文档组件的逻辑组织,表示结构是指组件的布局实际上显示给读者。

逻辑结构的书会被组织成章、节、段落等;而表示结构有数字的信息栏文本用于显示该文档,字体和字体大小用来显示章节的标题,无论是图像被显示在颜色或灰度等等。

文档通常都链接到其他文档或文档组件。

此类链接的常见例子在纸质文档是参考书目,脚注和参照。

文本都贴上一个称为超文本链接结构。

在案件的多媒体文件,这个术语是改变了对超媒体。

我们的模型的一个新闻文章是一个结构化的超媒体文件。

2.3一个示例的多媒体新闻文章

本节描述一个示例的多媒体新闻文档,将用作一个运行本文中示例。

我们用一篇文章,是关于科学的计算机系的阿尔伯达大学。

这篇文章被组织成一系列的新闻稿,是相互联系的。

我们将描述文档组件上的媒体出现在文档;完整的文档中描述了图2

文本部分包含标题、副标题的（可选）,关键词,一个（可选的）抽象段落的日期和地点的新闻稿称,段落,这篇文章的内容、作者和标题的任何图像中出现的文本。

这个信息包含数据,可能不会显示在文档的表示,如关键字。

这些文档是任何图片相关的主题文章。

在这种情况下,建筑物的照片该房屋的部门是包含在文档。

图像可以被存储在任何格式（GIF,JPEG,TIF,等等）。

所提交的图片也被独立的逻辑结构,因为我们可以选择复制图像嵌入文档的其余部分,或将它显示在一个单独的窗口。

他的声音或音频组件的文档记录的一个受欢迎的消息从系主任。

在这里,再次是独立的表示格式的文档的逻辑结构。

数量和基调的音频播放演示属性的示例。

视频组件是一个旅游设施。

表示格式的视频数据（peg,MJPEG,Quicktime等）,和表现方面（的帧率,窗户的大小,等等。

）可能不相关信息的文档的逻辑结构。

视频很少显示在自己的——有关联的媒体回放）,或同步连同视频。

因此,在这个视频短片的设施,评论员的声音是同步的视频观众未找到嘴唇动作的相位差的声音回放的声音。

可能会有文本字幕显示随着视频,给法国翻译的评论。

订阅者通常想了解更多不同的事件,人们在文章中提到,可能位于文档本身。

通过提供其他文档的链接,或文档组件,进一步的信息,可以找到这个文档增强它的信息能力。

另一个可能性是,用户可能想要使注释（注释）的文本上,可以看见下次的文档被检索。

在图2中,其他文档的链接标志是下划线文本。

可能有其他更明显的图标用于指示链接。

这可能取决于偏好的查看器或作者和显示终端的功能。

再一次,这是一个表示方面,独立于文档的逻辑结构。

重要的是要注意,图2代表只有一个可能“引渡”的新闻文章。

用户,例如,可能不愿意看到任何文字,或如果可用的显示是一个ASCII终端,只有文本部分可能提出,导致系统跳过检索的图像、音频和视频文件的组件。

3.系统架构

目前,这个原型的多媒体数据库管理系统是一个扩展了通用的面向对象的数据库管理系统称为对象存储。

这个扩展提供了多媒体数据库管理系统包括特定的支持多媒体信息系统。

概念架构,漏掉许多组件没有开发出,图3所示。

一个类型系统的发展,支持常见的多媒体类型的核心多媒体扩展。

我们的研究迄今集中在这一核心问题,也是一个兼容的发展可视化查询处理接口。

这两个组件支持高级建模和访问功能对应用程序开发人员和最终用户。

未来的工作,如第7节中讨论,包括应用程序的开发独立API2以及更强大的查询模型,该模型支持基于内容的图像和视频的查询,以及对这些查询优化器。

事实是,我们目前使用一个通用的面向对象的数据库管理系统介绍了一些重要的限制。

没有本机多媒体支持和没有访问源代码。

因此,唯一的方法来扩展通用DBMS是使用标准的面向对象技术来构建一个多媒体层。

我们的通用的面向对象的数据库将最终取代了我们自己的面向对象数据库在后面的阶段的研究。

这将使我们能够利用先进的功能,像时间模型,对多媒体应用程序的基础。

希望的后果之一,这个研究和其他类似的项目将会被说服商业的面向对象的数据库管理系统供应商工具的先进的面向对象的能力

目前,可视化查询接口——部分所描述的5-直接交互的对象存储与查询处理器通过多媒体类型系统。

每个菜单项是链接到一个对象存储查询,该查询时,会调用选择了。

由于我们的应用程序特定的查询处理器和优化器开发的进展,可视化查询接口将与它交互,而不是对象存储系统。

新的互动是用虚线所示。

该体系结构是开放的,这样就可以容纳各种多媒体服务器。

许多这些服务器文件系统服务器不需要完全的数据库管理功能。

如果文件系统服务器使用,但是应用程序需要的数据库功能,那么一个多媒体数据库管理系统层可以放在顶部的文件系统服务器和底层存储系统可以做出相应的修改。

正如前面指出的,这是一个分布式系统,其中数量的客户机访问大量的服务器通过宽带网络。

在我们的原型环境中,客户机和服务器是IBMRS6000/360互联的宽带ATM网。

这是一个多个客户机/服务器系统多个。

原始的媒体类型划分为连续的媒体,或不连续的媒体。

连续媒体指那些类型中提供某一特定的频率为一个特定的时间。

这些包括音频和视频。

连续媒体支持创建一些最困难的问题在多媒体信息系统和显著影响设计和系统的负载。

连续媒体如文本和静态图像没有实时约束的音频和视频。

在我们的系统中,连续媒体和连续媒体都存储在不同的服务器上。

因此,数据分布量之间的媒体服务器的数量（合格品服务器）和大量的连续媒体服务器（CM服务器）。

数据的分布对于用户是透明的,因为他们使用查询由客户机提供的设施DBMS模块,而不是直接访问单个服务器。

当前实现不整合连续媒体服务器与数据库。

连续媒体服务器是一个磁盘文件系统基于数组。

除了文本和静态图像,数据库存储所有的元数据信息的文件在连续媒体文件服务器。

最后,数据库存储关于环境的描述性信息,供服务质量的谈判代表和同步的例程。

数据库查询由客户端模块决定地点具体作品的多媒体数据。

在获得文件名称和它所存在的服务器,访问文件时直接从文件服务器。

该体系结构是必需的,因为数据库系统选择实现的应用程序并不提供任何原生支持连续媒体。

在以后的版本的系统,这两个组件将更加紧密地融为一体。

在客户端机器包含查询接口,多媒体数据库管理系统的客户端,同步模块和MPEG解码和JPEG格式的数据流。

检索文档所涉及到的一些系统组件,每个人都必须访问数据库,以确定必要信息,完成其任务。

简而言之,用户浏览数据库通过可视化查询接口描述在第五部分,然后选择要显示的文档。

订阅者然后使用QoS谈判者选择所需的质量水平和成本的访问。

同步组件然后接管通过协调的交付单媒体多种渠道的数据在网络上。

要做到这一点,它请求CM服务器和合格品服务器检索适当的文件和启动流

4.多媒体类型系统的设计

类型系统的设计实际上涉及到的观念设计,多媒体数据库。

有四个问题在设计一个多媒体数据库:

不同的媒体组件的文档（例如,文本、图像、音频和视频）需要建模和存储在数据库中。

这些被称为单媒体对象和它们在数据库中存储结构的良好表现是至关重要的。

一种表示需要对文档的逻辑结构。

并不是每一个多媒体信息系统表示文档结构明确。

例如,一个多媒体系统,它使用脚本文件文本文件包含图像,忽略了文档的层次结构。

它是很重要的,来表示这个结构明确两个查询和提交。

在多媒体文件,一个必须处理表现的空间和时间单媒体对象之间的关系。

这些关系都是重要的为了显示。

元和描述性信息经营必需的系统组件需要确定和存储在数据库中。

同时,访问例程需要被提供（API的一部分）,方便地访问这些信息。

在本部分中,我们重点前三个问题是至关重要的,数据库设计。

以下三个部分提出我们的方法来解决这些问题。

元和描述性信息存储在数据库中被描述。

正如前面指出的,我们使用面向对象的方法和遵循SGML/HyTime标准。

几句关于我们的设计决策是有序的。

我们使用对象技术——而不是关系——因为各种各样的原因。

首先,多媒体对象是复杂的结构。

原始对象（单媒体对象）不仅是简单的字符串或数字（如姓名,地址,和的员工的薪资）,而且还包括视频、数字化的语音和图像。

不支持这些类型在关系系统也没有一种方法来扩展的类型系统,以将其（可扩展关系系统是一个例外）。

“二进制大对象”（BLOBs）支持在一些关系系统并不足以使这些实体模型。

一个可以存储图像,比如一个BLOB,但是它不可能关系DBMS来解释这个BLOB（例如,访问它的部分或执行特定于映像的操作）。

面向对象的DBMS,尽管他们可能不支持这些类型通常至少可以扩展到包含它们的一部分,多媒体数据库管理系统的扩展。

第二,多媒体文档是结构化复杂对象包含一系列的这些原始对象。

对于一个数据库这样的多媒体文件存储,应该有设施（a）访问对象基于它们的语义内容,和（b）访问这些对象的不同组件。

此外,有多媒体对象之间的关系（例如,分类、专业化/归纳和聚集层次结构）需要建模。

第三,多媒体信息系统需要一个可扩展的数据模型,允许应用程序设计人员定义新类型作为模式的一部分。

此外,应用程序本身必须能够添加和删除新多媒体类型动态。

因此,多媒体系统必须没有静态模式和DBMS必须能够处理动态模式变化。

面向对象的系统可以满足所有这些需求比关系的人。

我们遵循国际标准多媒体文档表示,因为目标应用程序要求使用标准的表示方式,各种创作工具可用。

工具本身可能有所不同,但他们至少应该是基于相同的文档表示。

这是一种支持异构性的工具,同时提供一个统一的数据库表示。

SGML（ISO1986）被选为标准,因为跟它的适用性的目标应用程序,它的相对力量,它的广泛使用（例如,超文本标记语言,HTML格式,这是万维网的基础是一个应用程序的SGML）和其扮演的角色的基础HyTime（ISO1992）超媒体表示标准。

SGML主要处理文本文件而HyTime增加支持对超媒体文件（例如,链接、视频等等）。

这两个其他选择跟随一直办公文档体系结构（ODA）标准（ISO1989）和MHEG标准。

ODA不是足够丰富的要在此应用程序中使用和MHEG标准（即使在草案形式）是目前尚未发布当工作开始。

虽然SGML/HyTime是获得大家的认可和工具正在开发中,MHEG仍在草案形式。

4.1单媒体的建模对象

自从连续媒体文件服务器尚未结合多媒体数据库,我们只存储描述信息的音频和视频数据库中的对象。

文本和图像存储在数据库中。

因为对象存储不提供本地支持多媒体数据,多媒体数据库管理系统之上实现了这些对象存储的数据类型作为原子类型。

类型系统原子的类型

图4说明了类型层次结构用于原子类型。

在本文中,我们省略详细的描述（例如,属性和方法的）这些类型由于空间的考虑。

他们给出的（Vittal.1994年）。

原子类型的实例保存原始（单声道）媒体代表以及其他相关信息的QoS调度器和同步模块。

有两种亚型的原子媒体类型——一个用于连续媒体（NCMType）,另一个是连续媒体（CMType）。

属性和方法的一般两种媒体进行抽象原子类型。

这些是长度和一般的QoS参数如抖动、成本和延迟。

NCMType子类型的媒体进一步进入文本和图像媒体类型。

NCMType有这个属性的内容是的字符数组。

文本亚型有额外的方法:

比赛实现了一个模式匹配算法,并返回一个字符串对象文本的一部分给这两个整数代表的开始和结束位置。

图像类型有额外的属性,如宽度、高度和色彩的图像。

这两种类型属性的QoS参数特定于媒体,他们的模型。

图像类型可以进一步的子类型来反映不同的存储格式可能的。

一个类似的图表类型方案所看到CMType一侧的类型层次结构。

视频类型可以子类型来处理不同的存储格式。

同步的文本（SyncText）不是从文本子类型,因为它是存储在文件系统,而不是作为一个对象数据库。

匹配的方法,和子串不能应用于同步文本媒体。

颞超级类型的视频和音频的定义是,因为两个持续属性。

注意,实际的数据类型对象的对应CMType（及其子类型）都存储在连续媒体文件服务器控制之下的多媒体数据库管理系统。

因此,这些数据库中的对象只存储的元信息。

对于文本存储模型

文本（一个字符串）是一个原子的类型支持的数据库系统。

然而,在新闻文档、文本组件对这篇文章的丰富结构,包含许多层级安排组件（也称为元素）。

一个替代文本组件为代表的多媒体文档来定义对象类型为每种结构组成和副和他们每一个片段的完整文本的文章。

存储的文本内容本文通过肢解就是以这种方式会有严重的性能影响。

例如,存储的第二个实例在示例文档段落元素的图2,我们需要三个碎片——重点元素,link元素和文本的余下部分。

访问段落的文本现在涉及三个访问持久性存储

尽管有一些策略,如聚类的方法对提高性能,大型对象,参与,这些技术可能还不够。

在任何情况下,这些对象的指标拌和开销不能克服的集群。

此外,如果模式匹配方法上定义文本元素,就有必要重新组装整个文档的文本组件具有性能影响。

除了性能问题,也有建模并发症。

一个问题是要决定什么分裂的粒度应该是——段落呢?

句子吗?

单词吗?

可以确定的粒度的粒度的逻辑元素的文档。

因此,每个逻辑元素将包含文本的一个碎片。

例如,一个类型的实例重点强调逻辑元素。

这可能会导致几份同一块文本驻留在不同的逻辑元素实例。

第二个问题产生如下:

假设一个强调起价中的某些位置,一个词,将持续到某一位置的后续的词（即不包括完整的单词）。

因为有一种逻辑重点元素在本文档的标记,就有必要创建一个实例的重点强调的文本类型和存储的值的一个实例,这种类型。

然而,这排除了任何一个查询的可能性这两个词,参与强调字符串。

内容作为单个字符串。

把一种特定的实例元素的文本内容与我们储存的第一个和最后一个字符的文本部分的位置,在整个文本内容。

我们称之为对诸如此类的整数,注释。

使用这个模型的文本内容示例消息文档可以建模为图5所示。

在这个例子中,第一段实例有注释[33]。

链接的子元素段落有注释[264]。

每个文档实例数据库拥有一个“基地”对象的类型Article_root）与它相关联的存储文本字符串的形成的文本内容摘要,并列表相关联的注释的每个文本元素类型。

可以显示这些文件,浏览器可以扫描这些列表高效和确定陈述的文本。

我们这个表示类型映射系统通过定义一个类型,文本,它们的实例存储单个字符串,整个文本内容的文档作为代表在图5。

我们还定义了一个类型对应于每个允许的注释,如文档中指定的DTD。

有两个明显优势使用这个存储模型对于文本元素:

示文本变得更快,更有效率,因为多个访问持久性存储被避免了。

索引可以建立在这些注释对象这能帮助搜索元素实例。

例如,它可以搜索字符串放入一个文件强调。

有一个这种方法的缺点。

更新文本内容是昂贵的,因为改变文本的内容可能会导致许多注解来改变。

这可以在一定程度上避免了通过指定注释相对于一些封闭结构,说对一个段落。

然后,经过一个编辑,唯一的注解,变化是注解的子元素在编辑段落和注释的注释以下段落但不是为子元素的这些段落。

4.2建模文档结构

一个文档的逻辑结构是必要的,它的内容被理解。

例如,文档表示,某些查询和超链接所有依赖文档的逻辑结构。

SGML使用标记来表示这个信息。

标记、元素、文档类型定义和建筑形式

SGML是一种元语言,描述文档的逻辑结构,通过使用标记,标记边界的逻辑元素。

广义的标记的方法分离结构的SGML描述从处理结构。

哲学是,处理指令可以绑定到逻辑元素的格式,或显示。

描述性（或广义）标记标识逻辑元素使用开始标记和结束标记来标记自己的边界。

在SGML中严谨的标记（戈德法布1990年）,元素可以包含其他元素形成一个层次结构。

因此,章节标题和节元素可以包含元素;部分元素可以包含段落元素等。

这个层次结构是一个树,和整个子树可以操作作为一个单元。

换句话说,一种SGML文档包含实例文档元素的排列在一个层次结构。

SGML没有指定这些元素应该是,或者应该看起来像层次结构。

相反,列表的元素类型和它们之间的关系表示为一个正式的规范称为文档类型声明（DTD）。

SGMLDTD是写在由文档设计者为每个类别的设计文档。

在我们的例子中,我们需要编写一个DTD的多媒体新闻文章,但可能存在DTD对书籍、信函、技术说明书等。

一个DTD指定元素类型、元素类型之间的层次关系,与他们有关的属性。

属性包含的信息文档的一部分内容。

在示例文档的多媒体新闻图2,下面的元素类型可以确定:

文章,标题、日期、段落,Fig.,Fig.标题、强调、作者、链接。

注意,文章本身就被认为是一个元素,可能会有其他的元素（例如,关键词）,并不证明在图2的表演。

如果我们忽略的音频和视频元素,改过的样例消息文档看起来像如下:

展开阅读全文