GreenPlum使用手册.docx

上传人:b****1 文档编号:230657 上传时间:2022-10-07 格式:DOCX 页数:46 大小:930.36KB
下载 相关 举报
GreenPlum使用手册.docx_第1页
第1页 / 共46页
GreenPlum使用手册.docx_第2页
第2页 / 共46页
GreenPlum使用手册.docx_第3页
第3页 / 共46页
GreenPlum使用手册.docx_第4页
第4页 / 共46页
GreenPlum使用手册.docx_第5页
第5页 / 共46页
点击查看更多>>
下载资源
资源描述

GreenPlum使用手册.docx

《GreenPlum使用手册.docx》由会员分享,可在线阅读,更多相关《GreenPlum使用手册.docx(46页珍藏版)》请在冰豆网上搜索。

GreenPlum使用手册.docx

GreenPlum数据库集群

安装说明及使用手册

开心十二月总结

****年**月**日

目录

1 体系结构介绍 4

2 安装 10

2.1 安装 10

2.1.1 安装准备 10

2.1.2 安装gp-db 11

2.1.3 配置通讯 13

2.1.4 建立数据存储池 17

2.1.5 同步系统时间 17

2.1.6 验证安装是否成功 17

2.1.7 初始化 17

2.1.8 数据库的启停 18

2.2 Master双机热备 19

2.3 Segment节点互备 20

3 GP数据库的使用 22

3.1 pgAdminIII工具 22

3.1.1 安装和第一次使用pgAdminIII 22

3.1.2 主窗体 23

3.1.3 导航菜单 23

3.1.4 工具栏介绍 24

3.1.5 数据库与表的创建 25

3.1.6 使用pgAdminIII备份数据库 25

3.2 JDBC配置 26

3.3 GP数据库两个重要概念 27

3.3.1 什么是Schema 27

3.3.2 数据分布存储 28

3.4 GP的SQL语法 28

3.4.1 数据加载 28

3.4.2 SQL并行查询 31

3.4.3 聚合函数 31

3.4.4 索引 31

3.4.5 分区 32

3.4.6 函数 34

4 维护数据库 38

4.1 数据库启动gpstart 38

4.2 数据库停止gpstop 40

4.3 查看实例配置和状态 40

4.4 查看数据库运行状态gpstate 40

4.5 查看用户会话和提交的查询等信息 42

4.6 查看数据库、表占用空间 42

4.7 查看数据分布情况 42

4.8 实例恢复gprecoverseg 42

4.9 查看锁信息 43

4.10 数据库的备份与恢复 43

5 调优、排错 43

6 附件 43

6.1 DBA常用命令 43

7 Q&A 44

7.1 不支持触发器 44

7.2 更新操作中的若干问题 44

1体系结构介绍

Greenplum数据库产品——下一代数据仓库引擎和分析方法

Greenplum公司是企业数据云计算解决方案的创始人,为客户提供灵活的数据商业智能和分析方法。

能够以极低的成本代价,提供业界领先的计算性能。

客户遍及美国知名企业:

Nasdaq、NYSE、Ebay、FoxInteractiveMedia……等。

Greenplum公司的Greenplum数据库产品是用于建造下一代数据仓库和巨大规模分析系统的软件解决方案。

支持SQL和MapReduce并行处理,更适合管理TB级~PB级的海量数据,并以极低的成本代价提供了业界领先的计算性能。

使用独有的sharing-nothingMPP架构,服务器的集群工作起来,就像是一个独立的超级计算机!

优化了BI和分析方法,自动化分区数据和并行查询,比传统数据库执行速度提高10倍~100倍!

Greenplum数据库的特色:

Ø大规模地并行分析处理能力

Greenplum数据库可以跨越100~1000颗CPU,实现统一的并行操作引擎,让处理过程尽可能地靠近数据。

Greenplum是业界最快的和最普及的高端数据仓库解决方案!

用传统方式需花费数天才能完成的复杂查询,现在使用Greenplum只需要几分钟完成!

Ø核心的MPP架构

Greenplum数据库提供数据和查询的自动化并行:

数据被自动分区跨越集群中的所有节点;查询以高度协作的方式,在集群的所有节点上执行。

Ø高速PB级数据装载

利用独有的MPPScatter/GatherStreaming技术,实现高速的数据装载。

每增加1个节点,每小时装载吞吐量提高4TB!

Ø数据库内部压缩

利用业界领先的压缩技术提高性能和降低存储空间。

在有效较少1/3~1/10空间的同时,相应地提高了I/O性能。

Ø多级容错能力

Greenplum数据库利用多级冗余技术,在硬件或软件故障时,保障操作可以继续执行。

Ø在线系统扩展

为提高存储容量、处理性能,增加新的服务器到集群中,扩展的操作在后台完成,数据库可以继续保持正常工作状态不受影响。

处理性能和存储容量,随服务器的个数增加成正比显著提高!

Ø自有的MapReduce技术

MapReduce是Google和Yahoo的大规模数据分析方法。

Greenplum使用独有的并行引擎执行MapReduce。

Greenplum数据库架构原理解密:

Greenplum数据库通过分布负载到多个服务器主机,实现操作存储和处理大规模的数据。

数据库实际上由1个Master服务器和若干个独立的Segment服务器组成,一起协调工作,每个服务器都是独立的PostgreSQL数据库。

如图1所示,Master服务器是数据库的入口,验证客户端,处理输入的SQL,分布工作到若干Segment服务器,统一协调各个Segment返回的结果,汇总最终结果返回客户端。

Master不存储任何用户数据,只有全局系统视图。

图1:

Greenplum数据库架构

如图2所示,Segment服务器是真正数据存储的地方,并承担主要的查询工作。

用户数据(表、索引)被分布存储到有效的若干Segment,通过Hash算法,每个Segment存放数据的不同部分。

图2:

Segment服务器真正存储数据

图3展示了一套完整的Greenplum数据仓库实施架构示例。

独立的Master服务器,通过千兆网络连接在一起的若干Segment服务器,每个Segment服务器挂载独立的RAID存储。

服务器基于X86-64位硬件平台,安装Linux操作系统,获得极高的性价比。

图3:

Greenplum数据库完整实施架构示例

图4记录了一次完整的MPP并行查询过程。

Master作为查询调度器,为客户端提供连接工作;Segment独立管理数据片和数据操作。

调度过程如下:

1.Master验证客户端用户。

2.Master连接到所有远程Segment实例。

3.Master解析SQL语句。

4.Master建立1个优化的并行查询计划。

5.Master分布查询计划到所有的Segment实例。

6.Master协调查询计划在所有Segment上并行执行。

7.Master收集所有Segment的查询结果并返回到客户端。

图4:

一次查询调度过程

Greenplum独有的Sharing-Nothing架构:

数据仓库在执行全表扫描查询时,通常速度被存储的带宽限制,即瓶颈大多集中在I/O。

Greenplum的Sharing-Nothing架构物理分离数据,存储到若干Segment服务器,每个Segment使用多个、专用的、独立的、高速的通道独立连接到磁盘,并把管理数据库资源:

buffer、lock、block的职责委派到各个Segment,不使用Master统一管理资源!

从图5中可以看出与Sharing-Everything架构(如OracleRAC)对比,存在2个明显区别:

Segmentn

Segment2

Segment1

图5:

sharing-everying对比sharing-nothing数据库架构

1)数据库物理存储方式不同:

在RAC环境下,数据库集中存储,集群中的所有节点共享I/O通道访问数据,随着TB级别海量数据的增加,I/O瓶颈可想而知。

2)集群节点间内部通信管理方式不同:

如图6,RAC使用GRD(GlobalResourceDirectory)统一管理数据库资源,管理内部节点间通信。

用户对每个block的访问,都要经过GRD的协调调度,极其繁琐且需要额外的进程通信负担;随着节点个数的增加,GRD会增加管理的复杂度,可能会导致产生性能问题!

图6:

OracleRAC的GRD架构

2安装

2.1安装

2.1.1安装准备

CentOS-6.3-x86_64-bin-DVD1.iso

VMwareWorkstation

greenplum-db-4.2.1.0-build-3-CommunityEdition-RHEL5-x86_64.zip

2.1.1.1os的配置

以root用户操作

2.1.1.2检查系统条件

检查系统名称,版本,内核.

#uname-a

检查磁盘空间

#df-h

2.1.1.3设置主机名

#vi/etc/sysconfig/network

HOSTNAME=*single*(*变量*,以后出现*string*,均指变量)

2.1.1.4设置集群各个机器ip与主机的对应表

#vi/etc/hosts

127.0.0.1singlelocalhost

配置运行参数:

#vi/etc/sysctl.conf添加修改:

kernel.sem=25064000100512

kernel.shmmax=500000000(最大共享内存)

kernel.shmmni=4096

kernel.shmall=4000000000(共享内存总量)

kernel.sem=25064000100512

kernel.sysrq=1

kernel.core_uses_pid=1

kernel.msgmnb=65536

kernel.msgmax=65536

net.ipv4.tcp_syncookies=1

net.ipv4.ip_forward=0

net.ipv4.conf.default.accept_source_route=0

net.ipv4.tcp_tw_recycle=1

net.ipv4.tcp_max_syn_backlog=4096

net.ipv4.conf.all.arp_filter=1

dev_max_backlog=10000

vm.overcommit_memory=2

#vi/etc/security/limits.conf

添加修改

*softnofile65536

*hardnofile65536

*softnproc131072

*hardnproc131072

2.1.1.5关闭iptables

[root@localhost~]#serviceiptablesstop

iptables:

清除防火墙规则:

[确定]

iptables:

将链设置为政策ACCEPT:

filter[确定]

iptables:

正在卸载模块:

[确定]

[root@localhost~]#chkconfigiptablesoff

[root@localhost~]#serviceip6tablesstop

ip6tables:

清除防火墙规则:

[确定]

ip6tables:

将chains设置为ACCEPT策略:

filter[确定]

正在卸载模块:

[

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 考试认证 > IT认证

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1