ImageVerifierCode 换一换
格式:DOCX , 页数:42 ,大小:41.13KB ,
资源ID:26177103      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/26177103.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(大数据架构和模式.docx)为本站会员(b****7)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

大数据架构和模式.docx

1、大数据架构和模式资料范本 本资料为word版本,可以直接编辑和打印,感谢您的下载大数据架构和模式 地点:_时间:_说明:本资料适用于约定双方经过谈判,协商而共同承认,共同遵守的责任与义务,仅供参考,文档可直接下载或修改,不需要的部分可直接删除,使用时请详细阅读内容大数据架构和模式(一): 大数据分类和架构简介1.本文对大数据做了哪些分类?2.对数据进行分类后,如何将它与合适的大数据模式匹配?如何将大数据分为不同的类别大数据问题的分析和解决通常很复杂。大数据的量、速度和种类使得提取信息和获得业务洞察变得很困难。以下操作是一个良好的开端:依据必须处理的数据的格式、要应用的分析类型、使用的处理技术,

2、以及目标系统需要获取、加载、处理、分析和存储数据的数据源,对大数据问题进行分类。概述大数据可通过许多方式来存储、获取、处理和分析。每个大数据来源都有不同的特征,包括数据的频率、量、速度、类型和真实性。处理并存储大数据时,会涉及到更多维度,比如治理、安全性和策略。选择一种架构并构建合适的大数据解决方案极具挑战,因为需要考虑非常多的因素。这个 “大数据架构和模式” 系列提供了一种结构化和基于模式的方法来简化定义完整的大数据架构的任务。因为评估一个业务场景是否存在大数据问题很重要,所以我们包含了一些线索来帮助确定哪些业务问题适合采用大数据解决方案。从分类大数据到选择大数据解决方案如果您花时间研究过大

3、数据解决方案,那么您一定知道它不是一个简单的任务。本系列将介绍查找满足您需求的大数据解决方案所涉及的主要步骤。我们首先介绍术语 “大数据” 所描述的数据类型。为了简化各种大数据类型的复杂性,我们依据各种参数对大数据进行了分类,为任何大数据解决方案中涉及的各层和高级组件提供一个逻辑架构。接下来,我们通过定义原子和复合分类模式,提出一种结构来分类大数据业务问题。这些模式有助于确定要应用的合适的解决方案模式。我们提供了来自各行各业的示例业务问题。最后,对于每个组件和模式,我们给出了提供了相关功能的产品。第 1 部分将介绍如何对大数据进行分类。本系列的后续文章将介绍以下主题:定义大数据解决方案的各层和

4、组件的逻辑架构理解大数据解决方案的原子模式理解用于大数据解决方案的复合(或混合)模式为大数据解决方案选择一种解决方案模式确定使用一个大数据解决方案解决一个业务问题的可行性选择正确的产品来实现大数据解决方案依据大数据类型对业务问题进行分类业务问题可分类为不同的大数据问题类型。以后,我们将使用此类型确定合适的分类模式(原子或复合)和合适的大数据解决方案。但第一步是将业务问题映射到它的大数据类型。下表列出了常见的业务问题并为每个问题分配了一种大数据类型。按类型对大数据问题分类,更容易看到每种数据的特征。这些特征可帮助我们了解如何获取数据,如何将它处理为合适的格式,以及新数据出现的频率。来自不同来源的

5、数据具有不同的特征;例如,社交媒体数据包含不断传入的视频、图像和非结构化文本(比如博客文章)。表 1. 不同类型的大数据业务问题我们依据这些常见特征来评估数据,下一节将详细介绍这些特征:内容的格式数据的类型(例如,交易数据、历史数据或主数据)将提供该数据的频率意图:数据需要如何处理(例如对数据的临时查询)处理是否必须实时、近实时还是按批次执行。使用大数据类型对大数据特征进行分类按特定方向分析大数据的特征会有所帮助,例如以下特征:数据如何收集、分析和处理。对数据进行分类后,就可以将它与合适的大数据模式匹配:1、分析类型 对数据执行实时分析还是批量分析。请仔细考虑分析类型的选择,因为这会影响一些有

6、关产品、工具、硬件、数据源和预期的数据频率的其他决策。一些用例可能需要混合使用两种类型:2、欺诈检测;分析必须实时或近实时地完成。3、针对战略性业务决策的趋势分析;分析可采用批量模式。4、处理方法 要应用来处理数据的技术类型(比如预测、分析、临时查询和报告)。业务需求确定了合适的处理方法。可结合使用各种技术。处理方法的选择,有助于识别要在您的大数据解决方案中使用的合适的工具和技术。5、数据频率和大小 预计有多少数据和数据到达的频率多高。知道频率和大小,有助于确定存储机制、存储格式和所需的预处理工具。数据频率和大小依赖于数据源:按需分析,与社交媒体数据一样实时、持续提供(天气数据、交易数据)时序

7、(基于时间的数据)6、数据类型 要处理数据类型 交易、历史、主数据等。知道数据类型,有助于将数据隔离在存储中。7、内容格式(传入数据的格式)结构化(例如 RDMBS)、非结构化(例如音频、视频和图像)或半结构化。格式确定了需要如何处理传入的数据,这是选择工具、技术以及从业务角度定义解决方案的关键。8、数据源 数据的来源(生成数据的地方),比如 Web 和社交媒体、机器生成、人类生成等。识别所有数据源有助于从业务角度识别数据范围。该图显示了使用最广泛的数据源。9、数据使用者 处理的数据的所有可能使用者的列表:业务流程业务用户企业应用程序各种业务角色中的各个人员部分处理流程其他数据存储库或企业应用

8、程序10、硬件 将在其上实现大数据解决方案的硬件类型,包括商用硬件或最先进的硬件。理解硬件的限制,有助于指导大数据解决方案的选择。图 1 描绘用于分类大数据的各种类别。定义大数据模式的关键类别已识别并在蓝色方框中突出显示。大数据模式(将在下一篇文章中定义)来自这些类别的组合。图 1. 大数据分类结束语和致谢在本系列剩余部分中,我们将介绍大数据解决方案的逻辑架构和各层,从访问到使用大数据。我们将提供数据源的完整列表,介绍专注于大数据解决方案的每个重要方面的原子模式。我们还将介绍复合模式,解释可如何结合使用原子模式来解决特定的大数据用例。本系列最后将提供一些解决方案模式,在广泛使用的用例与各个产品

9、之间建立对应关系。感谢 Rakesh R. Shinde 在定义本系列的整体结构上提供的指导,以及对本系列的审阅和提供的宝贵评论。大数据架构和模式(二)如何知道一个大数据解决方案是否适合您的组织1.如何判断大数据问题是否需要大数据解决方案?2.如何评估大数据解决方案的可行性?3.可通过大数据技术获取何种洞察?4.是否所有大数据都存在大数据问题?简介在确定投资大数据解决方案之前,评估可用于分析的数据;通过分析这些数据而获得的洞察;以及可用于定义、设计、创建和部署大数据平台的资源。询问正确的问题是一个不错的起点。使用本文中的问题将指导您完成调查。答案将揭示该数据和您尝试解决的问题的更多特征。尽管组

10、织一般情况对需要分析的数据类型有一些模糊的理解,但具体的细节很可能并不清晰。毕竟,数据可能具有之前未发现的模式的关键,一旦识别了一种模式,对额外分析的需求就会变得很明显。要帮助揭示这些未知的未知信息,首先需要实现一些基本用例,在此过程中,可以收集以前不可用的数据。构建数据存储库并收集更多数据后,数据科学家就能够更好地确定关键的数据,更好地构建将生成更多洞察的预测和统计模型。组织可能也已知道它有哪些信息是不知道的。要解决这些已知的未知,组织首先必须与数据科学家合作,识别外部或第三方数据源,实现一些依赖于此外部数据的用例。本文首先尝试回答大多数 CIO 在实施大数据举措之前通常会提出的问题,然后,

11、本文将重点介绍一种将帮助评估大数据解决方案对组织的可行性的基于维度的方法。我的大数据问题是否需要大数据解决方案?大数据,曾几何时似乎很少出现组织多半会选择以增量方式实现大数据解决方案。不是每个分析和报告需求都需要大数据解决方案。如果对于对大型数据集或来自多个数据源的临时报告执行并行处理的项目,那么可能没有必要使用大数据解决方案。随着大数据技术的到来,组织会问自己:“大数据是否是我的业务问题的正确解决方案,或者它是否为我提供了业务机会?”大数据中是否隐藏着业务机会?以下是我从 CIO 那里听到的一些典型问题:如果我使用大数据技术,可能会获得何种洞察和 业务价值?它是否可以扩充我 现有的数据仓库?

12、我如何评估 扩展当前环境 或采用新解决方案的成本?对我现有的 IT 治理 有何影响?我能否 以增量方式实现 大数据解决方案?我需要掌握哪些 具体的技能 来理解和分析构建和维护大数据解决方案的需求?我的 现有企业数据 能否用于提供业务洞察?来自各种来源的 数据的复杂性 在不断增长。大数据解决方案对我有帮助吗?维度可帮助评估大数据解决方案的可行性为了回答这些问题,本文提出了一种依据下图中所示的维度来评估大数据解决方案的可行性的结构化方法。来自可通过分析数据获得的洞察的业务价值针对新数据来源和数据使用方式的治理考虑因素拥有相关技能和赞助商的承诺的人员捕获的数据量各种各样的数据源、数据类型和数据格式生

13、成数据的速度,需要对它执行操作的速度,或者它更改的速度数据的真实性,或者数据的不确定性和可信赖性对于每个维度,我们都给出了一些关键问题。依据业务上下文,为每个维度分配一个权重和优先级。评估会因业务案例和组织的不同而有所不同。您可以考虑在与相关的业务和 IT 利益相关者召开的一系列研讨会中探讨这些问题。业务价值:可通过大数据技术获取何种洞察?许多组织想知道,他们在寻找的业务洞察能否通过大数据解决方案解决。没有权威的指南能够用来定义可从大数据获取的洞察。具体场景需要由组织识别,而且这些场景在不断演变。在确定和识别在实现后会给企业带来重大价值的业务用例和场景的过程中,数据科学家起着至关重要的作用。数

14、据科学家必须能够理解关键绩效指标,对数据应用统计算法和复杂算法来获得一个用例列表。用例因行业和业务不同而有所不同。研究市场竞争对手的行动、发挥作用的市场力量,以及客户在寻找什么,会很有帮助。下表给出了来自各行各业的用例示例。表 1. 来自各行各业的示例用例潜在的客户正在社交网络和评论站点上生成大量新数据。在企业内,随着客户切换到在线渠道来执行业务和与公司交互,交易数据和 Web 日志与日俱增。确定数据的优先级首先为企业内存在的数据创建一个清单。识别内部系统和应用程序中存在的数据以及从第三方传入的数据。如果业务问题可使用现有数据解决,那么有可能不需要使用来自外部来源的数据。请考虑构建一个大数据解

15、决方案的成本,并权衡它与带给业务部门的新洞察的价值。在有关现有客户的归档数据的上下文中分析此新数据时,业务人员将获得对新业务机会的洞察。主要满足以下条件,大数据可提供可行的解决方案:从数据中开发的洞察所生成的价值,值得在大数据解决方案中投入的资本成本面向客户的场景可证明来自洞察的潜在价值评估通过大数据解决方案获取的业务价值时,请考虑您当前的环境是否可扩展并权衡此投资的成本。我当前的环境能否扩展?询问以下问题,确定您能否扩充现有的数据仓库平台?当前的数据集是否非常大,是否达到了 TB 或 PB 数量级?现有的仓库环境是否包含生成或获取的所有 数据的存储库?是否有大量冷数据或人们很少接触的数据未分

16、析,可以通过分析这些数据获得业务洞察?您是否需要丢弃数据,因为无法存储或处理它?您是否希望能够在复杂且大量的数据上执行数据探索?您是否希望能够对非操作数据执行分析?您是否有兴趣使用数据执行传统和新类型的分析?您是否试图延迟对现有数据仓库的升级?您是否在寻求途径降低执行分析的总体成本?如果任何这些问题的答案是 “是”,那么您就可以探索扩充现有数据仓库环境的方式。扩展我当前的环境的成本是多少?扩展现有数据仓库平台或 IT 环境与实现大数据解决方案的成本和可行性取决于:现有工具和技术现有系统的可伸缩性现有环境的处理能力现有平台的存储能力执行的治理和策略现有 IT 应用程序的异构性组织中存在的技术和业

17、务技能。它还依赖于将从新数据来源收集的数据量、业务用例的复杂性、处理的分析复杂性,以及获取数据和拥有恰当技能集的人员的成本。现有的资源池能否开发新的大数据技能,或者是否可从外部雇佣拥有稀缺技能的人员?请注意,大数据举措会对其他正在实施的项目产生影响。从新的来源获取数据具有很高的成本。您首先应当识别系统和应用程序内部存在的数据,以及目前收到的第三方数据,这一点很重要。如果业务问题可以使用现有数据解决,那么有可能不需要使用来自外部来源的数据。在生成新工具和应用程序之前,请评估组织的应用程序组合。例如,一个普通的 Hadoop 平台可能无法满足您的需求,您可能必须购买专业的工具。或者相对而言,Had

18、oop 的商业版本对当前用例而言可能很昂贵,但可能需要用作长期投资来支持一个战略性的大数据平台。考虑大数据工具和技术需要的基础架构、硬件、软件和维护的成本。对数据的治理和控制:对现有的 IT 治理有何影响?在决定是否实现一个大数据平台时,组织可能会查看新数据源和新的数据元素类型,而这些信息当前的所有权尚未明确定义。一些行业制度会约束组织获取和使用的数据。例如,在医疗行业,通过访问患者数据来从中获取洞察是否合法?类似的规则约束着所有行业。除了 IT 治理问题之外,组织的业务流程可能也需要重新定义和修改,让组织能够获取、存储和访问外部数据。请在您的情况的上下文中考虑以下治理相关问题:安全性和隐私

19、为了与当地法规一致,解决方案可以访问哪些数据?可以存储哪些数据?哪些数据应在移动过程中加密?静止数据呢?谁可以查看原始数据和洞察?数据的标准化 是否有标准约束数据?数据是否具有专用的格式?是否有部分数据为非标准格式?数据可用的时段 数据在一个允许及时采取操作的时段是否可用?数据的所有权 谁拥有该数据?解决方案是否拥有适当的访问权和权限来使用数据?允许的用法:允许如何使用该数据?我能否增量地实现大数据解决方案?大数据解决方案可以采用增量方式实现。明确地定义业务问题的范围,并以可度量的方式设置预期的业务收入提升,这样做会很有帮助。对于基础业务案例,请仔细列出问题的范围和解决方案带来的预期收益。如果

20、该范围太小,业务收益将无法实现,如果范围太大,获得资金和在恰当的期限内完成项目就会很有挑战性。在项目的第一次迭代中定义核心功能,以便能够轻松地赢得利益相关者的信任。人员:是否已有恰当的技能并调整了合适的人员?需要特定的技能来理解和分析需求,并维护大数据解决方案。这些技能包括行业知识、领域专长,以及有关大数据工具和技术的技术知识。拥有建模、统计、分析和数学方面的专业经验的数据科学家,是任何大数据举措成功的关键。在实施一个新的大数据项目之前,确保已安排了合适的人员:您是否获得利益相关者和其他愿意投资该项目的业务赞助者的支持?是否拥有熟悉该领域、能分析大量数据、而且能识别从数据生成有意义且有用的洞察

21、的途径的数据科学家?是否拥有可用于获取洞察的现有数据?所有组织都拥有大量未用于获取业务洞察的数据。这些数据包括日志文件、错误文件和来自应用程序的操作数据。不要忽略此数据,它是宝贵信息的潜在来源。数据复杂性是否在增长?查找数据复杂性增长的线索,尤其是在数据量、种类、速度和真实性方面。数据量是否已增长?如果满足以下条件,您可能希望考虑大数据解决方案:数据大小达到 PB 和 EB 级,而且在不久的将来,它们可能增长到 ZB 级别。这一数据量给使用传统方法(比如关系数据库引擎)存储、搜索、共享、分析和可视化数据带来的技术和经济挑战。数据处理目前可使用可用硬件上的大规模并行处理能力。数据种类是否已增多?

22、如果满足以下条件,各种各样的数据可能都需要大数据解决方案:数据内容和结构无法预期或预测。数据格式各不相同,包括结构化、半结构化和非结构化数据。用户和机器能够以任何格式生成数据,例如:Microsoft Word 文件、Microsoft Excel 电子表格、Microsoft PowerPoint 演示文稿、PDF 文件、社交媒体、Web 和软件日志、电子邮件、来自相机的照片和视频、信息感知的移动设备、空中感知技术、基因组和医疗记录。以前没有为了获得洞察而被挖掘的数据来源不断地在产生新的数据类型。领域实体在不同的上下文中具有不同的含义。数据的速度是否已增长或改变?考虑您的数据是否:在快速更改

23、,必须立即响应拥有过多的传统技术和方法,它们不再足以实时处理传入的数据您的数据是否值得信赖?如果满足以下条件,那么请考虑使用大数据解决方案:数据的真实性或准确性未知。数据包含模糊不清的信息。不清楚数据是否完整。如果数据的量、种类、速度或真实性具有合理的复杂性,那么有可能会适合地采用大数据解决方案。对于更复杂的数据,需要评估与实现大数据解决方案关联的任何风险。对于不太复杂的数据,则应该评估传统的解决方案。是否所有大数据都存在大数据问题?不是所有大数据情形都需要大数据解决方案。请在市场中寻找线索。竞争对手在做什么?哪些市场力量在发挥作用?客户想要什么?使用本文中的问题,帮助确定大数据解决方案是否适

24、合于您的业务情形和您需要的业务洞察。如果认为是时候实施大数据项目了,请阅读下一篇文章,其中会介绍如何定义一个逻辑架构,而且将会确定您的大数据解决方案需要的关键组件。作者: Divakar等来源: DeveloperWorksEnd.大数据架构和模式(三)理解大数据解决方案的架构层问题导读1.大数据解决方案通常哪些逻辑层组成?2.本文讲了大数据来源有哪些?3.大数据治理包含哪些因素?概述这个 “大数据架构和模式” 系列的 第 2 部分 介绍了一种评估大数据解决方案可行性的基于维度的方法。如果您已经使用上一篇文章中的问题和提示分析了自己的情况,并且已经决定开始构建新的(或更新现有的)大数据解决方案

25、,那么下一步就是识别定义项目的大数据解决方案所需的组件。大数据解决方案的逻辑层逻辑层提供了一种组织您的组件的方式。这些层提供了一种方法来组织执行特定功能的组件。这些层只是逻辑层;这并不意味着支持每层的功能在独立的机器或独立的进程上运行。大数据解决方案通常由以下逻辑层组成:1、大数据来源2、数据改动 (massaging) 和存储层3、分析层4、使用层大数据来源:考虑来自所有渠道的,所有可用于分析的数据。要求组织中的数据科学家阐明执行您需要的分析类型所需的数据。数据的格式和起源各不相同:格式 结构化、半结构化或非结构化。速度和数据量 数据到达的速度和传送它的速率因数据源不同而不同。收集点 收集数

26、据的位置,直接或通过数据提供程序,实时或以批量模式收集数据。数据可能来自某个主要来源,比如天气条件,也有可能来自一个辅助来源,比如媒体赞助的天气频道。数据源的位置 数据源可能位于企业内或外部。识别您具有有限访问权的数据,因为对数据的访问会影响可用于分析的数据范围。数据改动和存储层:此层负责从数据源获取数据,并在必要时,将它转换为适合数据分析方式的格式。例如,可能需要转换一幅图,才能将它存储在 Hadoop Distributed File System (HDFS) 存储或关系数据库管理系统 (RDBMS) 仓库中,以供进一步处理。合规性制度和治理策略要求为不同的数据类型提供合适的存储。分析层

27、:分析层读取数据改动和存储层整理 (digest) 的数据。在某些情况下,分析层直接从数据源访问数据。设计分析层需要认真地进行事先筹划和规划。必须制定如何管理以下任务的决策:生成想要的分析从数据中获取洞察找到所需的实体定位可提供这些实体的数据的数据源理解执行分析需要哪些算法和工具。使用层:此层使用了分析层所提供的输出。使用者可以是可视化应用程序、人类、业务流程或服务。可视化分析层的结果可能具有挑战。有时,看看类似市场中的竞争对手是如何做的会有所帮助。每一层包含多种组件类型,下面将会介绍这些类型。图 1. 逻辑和垂直层的组件该图显示了逻辑和垂直层的组件大数据来源此层包含所有必要的数据源,提供了解

28、决业务问题所需的洞察。数据是结构化、半结构化和非结构化的数据,而且来自许多来源:1、企业遗留系统这些系统是企业应用程序,执行业务需要的分析并获取需要的洞察:客户关系管理系统结算操作大型机应用程序企业资源规划Web 应用程序开发Web 应用程序和其他数据来源扩充了企业拥有的数据。这些应用程序可使用自定义的协议和机制来公开数据。2、数据管理系统 (DMS) 数据管理系统存储逻辑数据、流程、策略和各种其他类型的文档:Microsoft Excel 电子表格Microsoft Word 文档这些文档可以转换为可用于分析的结构化数据。文档数据可公开为领域实体,或者数据改动和存储层可将它转换为领域实体。3

29、、数据存储 数据存储包含企业数据仓库、操作数据库和事务数据库。此数据通常是结构化数据,可直接使用或轻松地转换来满足需求。这些数据不一定存储在分布式文件系统中,具体依赖于所处的上下文。4、智慧设备 智慧设备能够捕获、处理和传输使用最广泛的协议和格式的信息。这方面的示例包括智能电话、仪表和医疗设备。这些设备可用于执行各种类型的分析。绝大多数智慧设备都会执行实时分析,但从智慧设备传来的信息也可批量分析。5、聚合的数据提供程序 这些提供程序拥有或获取数据,并以复杂的格式和所需的频率通过特定的过滤器公开它。每天都会产生海量的数据,它们具有不同的格式,以不同的速度生成,而且通过各种数据提供程序、传感器和现

30、有企业提供。其他数据源 有许多数据来自自动化的来源:地理信息:地图地区详细信息位置详细信息矿井详细信息人类生成的内容:社交媒体电子邮件博客在线信息传感器数据:环境:天气、降雨量、湿度、光线电气:电流、能源潜力等导航装置电离辐射、亚原子粒子等靠近、存在等位置、角度、位移、距离、速度、加速度声音、声震动等汽车、运输等热量、热度、温度光学、光、成像、见光度化学压力流动、流体、速度力、密度级别等来自传感器供应商的其他数据数据改动和存储层因为传入的数据可能具有不同的特征,所以数据改动和存储层中的组件必须能够以各种频率、格式、大小和在各种通信渠道上读取数据:数据获取 从各种数据源获取数据,并将其发送到数据

31、整理组件或存储在指定的位置中。此组件必须足够智能,能够选择是否和在何处存储传入的数据。它必须能够确定数据在存储前是否应改动,或者数据是否可直接发送到业务分析层。数据整理 负责将数据修改为需要的格式,以实现分析用途。此组件可拥有简单的转换逻辑或复杂的统计算法来转换源数据。分析引擎将会确定所需的特定的数据格式。主要的挑战是容纳非结构化数据格式,比如图像、音频、视频和其他二进制格式。分布式数据存储 负责存储来自数据源的数据。通常,这一层中提供了多个数据存储选项,比如分布式文件存储 (DFS)、云、结构化数据源、NoSQL 等。分析层这是从数据中提取业务洞察的层:分析层实体识别 负责识别和填充上下文实体。这是一个复杂的任务,需要高效的高性能流程。数据整理组件应为这个实体识别组件提供补充,将数据修改为需要的格式。分析引擎将需要上下文实体来执行分析。分析引擎 使用其他组件(具体来讲,包括

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1