HadoopPPT课件下载推荐.pptx
《HadoopPPT课件下载推荐.pptx》由会员分享,可在线阅读,更多相关《HadoopPPT课件下载推荐.pptx(20页珍藏版)》请在冰豆网上搜索。
四方伟业大数据基础平台SDCHadoop,成都四方伟业软件股份有限公司,2022/10/22,DataDiscoveryFamily,用户管理,系统监控,资源管理,部署管理,资源调度,安全管理,日志审计,运维平台,融合数据(ETL),数据治理平台,数据标准,数据共享,数据质量,数据地图,银行业务,工商业务,政务业务,税务稽查,智能交通,智慧医疗,Hive,HBase,HDFS,YARN,Impala,MapReduce,Spark,ElasticSearch,搜索引擎,推荐引擎,舆情监控,反欺诈,图像识别,语音识别,用户画像,智能管理,共享服务/APISDK,应用&@#@服务,采集,存储&@#@计算,批量采集(Kettle),网络爬虫(PySpider),实时采集(Flume),校验和清洗,实时消息(Kafka),数据探索,统计分析,敏捷BI,数据洞察Insight,OLAP,数据挖掘,机器学习,算法库,人工智能Miner,模型库,实时分析,实时数据库,流数据处理,流计算Streaming,数据流规则,分析,可视设计UE,Dashboard,移动/微应用,实时大屏,四方伟业大数据平台,开源hadoop:
@#@开源hadoop集群环境中在安装部署、安全、稳定性、低延迟、大量小文件处理、文本处理、易用性等方面存在局限性,还需要再进行深度改造才能具备商用软件能力,目前很多Hadoop发行版厂商都在基于Hadoop进行生态整合。
@#@,Hadoop生态现状,主要功能,运行监控任务监控、采集监控、索引监控、昨夜监控,数据管理文件管理、SDCHive、SDCHBase、全文检索、数据共享,运维管理智能部署、集群安装、服务监控、主机监控、统一告警、多租户管理,系统管理安全管理、用户管理、系统日志,数据开发标设计、检索设计、数据采集、数据计算、调度管理,分布式缓存层(Alluxio、Redis),大数据存储计算平台定位,伟业大数据存储计算平台是为政府、军工、金融等行业提供大数据存储、计算、分析的统一平台,能够帮助客户快速构建海量数据信息处理系统,通过对海量数据实时与非实时的分析,发现全新的商业价值,主要平台能力有如下特色:
@#@,SDCHadoop主要特色,大数据产品能力认证,互联网部署,局域网,只需简单配置,可视化界面安装具体软件服务,运维管理软件仓库,运维管理快速安装流程,运维管理集群安装,运维管理多维监控,集群监控CPU、内存、网络、磁盘、HDFS容量等,主机监控CPU、内存、网络、磁盘、进程、平均负载等,组件监控HDFS、HBase、Hive、Pig、MapReduce、YARN、Sqoop、Oozie、Zookeeper、Flume、Kafka、Ranger等,关键业务,默认配置系统为各组件内置故障告警指标,主要包括指标名称、描述、告警级别以及阈值等信息。
@#@,自定义配置用户可能根据实际需要更改系统默认配置,例如告警级别、阈值等用户可通过系统提供的API自定义监控指标或者监控模板,运维人员接收到短信或者邮件告警及时对告警进行处理保障集群正常运行,故障告警,当触发阈值时产生故障告警,处理告警,运维管理故障告警,运维管理无宕机升级,启动,进行中,多租户,可用性,安全管理,扩展性,程序,代码采集、计算提供一个集成环境,需要编写程序完成。
@#@,SQL,SQL语句提供常用的SQL语句进行查询、清洗、计算。
@#@,拖动,拖动完成提供一组组件,针对每个组件提供含义,组件之间系统支持互斥和关联,实现拖拽完成。
@#@,界面配置,界面配置基于程序封装API,支持界面输入和选择完成。
@#@,易用性,随着大数据时代到来,需要处理的数据量越来越大,因此在性能方面存在瓶颈,对Hadoop性能调优迫在眉睫,集群环境主要涉及操作系统、组网、部署方式以及系统参数等,算法针对kmeans、贝叶斯等算法进行调优,HBase任务GC的相关参数配置集群参数配置,SQL任务支持HiveonSpark2,针对spark配置、参数等进行调优,检索效率优化ES,提升索引和检索效率,MapReduce任务数据合理槽位数目,调整心跳配置,磁盘块配置,设置RPC和线程数据等,性能优化,