superset用户使用流程手册Word下载.docx
《superset用户使用流程手册Word下载.docx》由会员分享,可在线阅读,更多相关《superset用户使用流程手册Word下载.docx(11页珍藏版)》请在冰豆网上搜索。
登录到部署superset主机
1.进入superset的Web界面,点击sources下拉选项的Databases,如下图:
2.进入数据库界面,点击“+”按钮进入数据库连接界面,填写正确字段后保存,操作如下:
3.查看已经连接好的数据库
2.1.2添加数据表
Sources->
Tables
点击加号(+)新增数据表
Database选择之前创建好的数据源,TableName必须是数据源中对应真实的表名,表中必须包含一个Date或者Timestamp类型的字段
2.1.3数据表查看、编辑
Tables可看到所有已连接的数据表
可对表结构、数据类型、是否可进行group、filter、count、sum、min、ma*操作等进行编辑
2.2数据探索分析与可视化展示
Table定义好维度字段和指标之后,即可针对该表进行数据探索分析与可视化展示,在ListTable页面,点击一个表名,即可进入。
在分析页面中,可以针对某一个表事先定义的时间字段、维度及指标字段进行数据探索分析,并可以选择相应的图表进行可视化展示。
2.2.1可视化图表类型选择
选择可视化图表类型。
Superset自带的图表类型如上,包括柱状图、饼图、时间序列线图、堆积图、图表、热词图等。
2.2.2数据时间围选择
选择:
时间所在数据列。
时间粒度,时间跨度
2.2.3维度展示选择、图表可视化选择
Groupby:
*轴统计维度
Metrics:
y轴展示的数据指标(包括指标的sum、avg等)
SortBy:
排序依据
可视化选择
配色
图例
是否堆积/分布
……
2.2.4坐标轴编辑
选择*、Y轴数据格式
编辑*、Y轴标签
编辑Y轴边界
2.2.5自定义查询/过滤
自定义SQL语句
where、having语句、置in/notin过滤器
2.2.6查询可视化保存
将查询结果保存为slice
将slice增加到已有的dashboard/新增dashboard中
2.2.7Dashboard编辑
编辑每个Slice对应的模块,可以自由拖拽位置和大小,并保存整个Dashboard的布局。
2.2.8多表关联查询
在数据表编辑界面,可通过DatabaseE*pression,运用SQL语句实现多表关联查询。
3.Superset操作数据库
经过上边的步骤就连接上了数据库,下边就可以进行数据的可视化操作了。
首先点击SQL测试下拉菜单下的SQL编辑器按钮。
如下图所示:
SQL语句的执行结果如下:
点击Visualize按钮进入数据可视化编辑窗口:
4.superset部分图形使用案例
4.1Distribution–BarChart(分布-条形图)
案例需求:
统计每个state的总人数,总女生人数,总男生人数。
SELECTstateASstate,
sum(num)ASsum__num,
sum(sum_girls)ASsum__sum_girls,
sum(sum_boys)ASsum__sum_boys
FROM
(select*
frombirth_names)ASe*pr_qry
WHEREds>
='
1917-07-0518:
21:
31'
ANDds<
2017-07-0518:
GROUPBYstate
ORDERBYsum__numDESCLIMIT50000
进入可视化界面,可按需求显示图形:
在图形的右上方有对图形的保存等一些操作:
图表的保存:
查看保存的图表:
3.2TableView–表视图
需求1:
根据name,gender分组,统计总人数。
SQL:
SELECTnameASname,
genderASgender,
sum(num)ASsum__num
24:
GROUPBYname,
gender
3.3PivotTable–数据透视表
数据透视表(PivotTable)是一种交互式的表,可以进行某些计算,如求和与计数等。
所进行的计算与数据跟数据透视表中的排列有关。
按照name,gender分组,对每个state人数进行统计。
SELECTgenderASgender,
stateASstate,
nameASname,
25:
21'
GROUPBYgender,
state,
name
3.4TimeSeries–LineChart–时序线图
查看每个state人数总数随时间的变化。
dsAS__timestamp,
INNERJOIN
(SELECTstateASstate__,
FROM
WHEREds>
26:
35'
GROUPBYstate
ORDERBYsum__numDESCLIMIT50)ASanon_1ONstate=state__
GROUPBYstate,
ds
3.5TimeSeries–Stacked–时序面积图
面积图强调数量随时间而变化的程度,也可用于引起人们对总值趋势的注意。
例如,表示随时间而变化的产生的数据可以绘制在面积图中以强调总数据量。
根据每个state每年的总人数的时序图-叠图。
27:
06'
GROUPBYstate,ds
3.6TimeSeries–BarChart–时序柱形图
比较不同的年份每个state的人数差异的时序柱形图。
SQL:
WHEREstateNOTIN('
other'
)
ANDds>
28:
57'
ANDstateNOTIN('
3.7Distribution–NVD3-PieChart–饼图
案例:
比较每个state的人数占总人数的比例。
29:
51'
3.8BubbleChart–气泡图
SQL语句:
SELECTcountry_nameAScountry_name,
regionASregion,
SUM(`SP_POP_TOTL`)AS`sum__SP_POP_TOTL`,
SUM(`SP_RUR_TOTL_ZS`)AS`sum__SP_RUR_TOTL_ZS`,
SUM(`SP_DYN_LE00_IN`)AS`sum__SP_DYN_LE00_IN`
FROMwb_health_population
WHEREyear>
=STR_TO_DATE('
2011-01-0100:
00:
00'
'
%%Y-%%m-%%d%%H:
%%i:
%%s'
ANDyear<
2011-01-0200:
ANDcountry_codeNOTIN('
TCA'
MNP'
DMA'
MHL'
MCO'
S*M'
CYM'
TUV'
IMY'
KNA'
ASM'
ADO'
AMA'
PLW'
)
GROUPBYcountry_name,
region
ORDERBY`sum__SP_POP_TOTL`DESCLIMIT50000
3.9MarKup–标记图
4.10WordClould–文字云
显示所有的name,且看到使用这个名字的人数比重。
1917-07-0517:
39:
23'
2017-07-0517:
GROUPBYname
3.10Sunburst–图
第一层gender,第二层name,统计人数。
56:
3.11ParallelCoordinates–平行坐标图
平行坐标图为一种数据可视化的方式。
以多个垂直平行的坐标轴表示多个维度,以维度上的刻度表示在该属性上对应值,以颜色区分类别。
每个样本在各个维度上对应一个值,相连而得的一个折线表示该样本。
SUM(`SH_DYN_AIDS`)AS`sum__SH_DYN_AIDS`,
AVG(`NY_GNP_PCAP_CD`)AS`avg__NY_GNP_PCAP_CD`
GROUPBYcountry_name
3.12Bo*plot–盒图
盒图(bo*plot):
摆弄数据离散度的一种图形。
它对于显示数据的离散的分布情况效果不错。
在软件工程中,Nassi和Shneiderman提出了一种符合结构化程序设计原则的图形描述工具,叫做盒图,也被称为N-S图。
SELECTregionASregion,
yearAS__timestamp,
SUM(`SP_POP_TOTL`)AS`sum__SP_POP_TOTL`
(SELECTregionASregion__,
FROMwb_health_population
WHEREyear>
1960-01-0100:
2017-07-1109:
46:
33'
GROUPBYregion
ORDERBY`sum__SP_POP_TOTL`DESCLIMIT25)ASanon_1ONregion=region__
GROUPBYregion,
year