FPGA深度学习硬件加速方案PPT资料.pptx

资源描述

FPGA深度学习硬件加速方案PPT资料.pptx

《FPGA深度学习硬件加速方案PPT资料.pptx》由会员分享，可在线阅读，更多相关《FPGA深度学习硬件加速方案PPT资料.pptx（23页珍藏版）》请在冰豆网上搜索。

FPGA深度学习硬件加速方案PPT资料.pptx

FPGA硬件加速为Hadoop+深度学习插上翅膀,专业引领梦想,我们致力于提供硬件加速的专业技术解决方案、产品和服务。

@#@加速云硬件加速产品可以广泛应用于数据中心、云计算、机器视觉、深度学习、仿真、金融、高性能计算等领域。

@#@,云计算,深度学习金融计算,仿真,网络安全,医疗健康,基因比对,天气预报,分子化学,地震预测,加速云的技术应用场景,专业的解决方案和产品,01,02,解决方案Hadoop平台加速方案深度学习加速方案网络安全加速方案仿真加速和硬件在环仿真方案Spark平台加速方案金融行业数据加速方案大数据存储加速方案高性能计算方案机器视觉加速方案,硬件平台PCIe加速卡加速模块VPX加速平台机器视觉加速套件高密度服务器定制加速服务器,软件及IP集成开发环境（SIDE）深度学习库IPOPENBLAS库IP压缩解压缩IP纠删码IP加解密IPFFTIP各种定制IP03,硬件加速平台-PCIe加速板卡SC-OPM,硬件加速平台-PCIe加速板卡SC-OPS,最新14nm工艺FPGAS10,逻辑容量2800K，9.2TFLOPS单精度浮点,18.4TFLOPS16位定点8个内存控制器，支持2400MHz72bitDDR4（ES2133MHz），最大支持64GB内存PCIe3.08lane或16lane（H-Lite支持）支持2个40GE或100GE接口（H-Lite支持）标准全高3/4长（112*250mm）正在研发阶段，预计2017年4月份出样机，6月份量产,硬件加速平台-核心计算模块SC-IMB,硬件加速平台-机器视觉开发套件SC-VMB,高密度异构计算平台,SC-HPC08S,19英寸4U标准机箱支持8个PCIe3.016Lane槽位220V3+1冗余电源，最大支持4000W两个E5处理器，每个支持32GB内存2*PCIe3.016Lane（20GB）互联带宽（X86和异构计算卡之间）支持FPGA加速卡（SC-OPM/SC-OPS）,支持GPGPU卡（K20/K40/K80/M4/M60/P4/P40）在FPGA加速卡时卡间支持40GE/100GE（接口也可以配置为SRIO/infinband/Serdes/）互联超高性能功耗比（在插入SC-OPS时，整个系统支持73.6TFLOPS单精度浮点，功耗为1200W）可以广泛应用于数字信号处理、高性能计算、深度学习等领域,高密度异构计算平台,SC-HPC16S,19英寸5U标准机箱支持16个PCIe3.016Lane槽位220V3+1冗余电源，最大支持8000W两个E5处理器，每个支持32GB内存2*PCIe3.016Lane（20GB）互联带宽（X86和异构计算卡之间）支持FPGA加速卡（SC-OPM/SC-OPS）,支持GPGPU卡（K20/K40/K80/M4/M60/P4/P40）在FPGA加速卡时卡间支持40GE/100GE（接口也可以配置为SRIO/infinband/Serdes/）互联超高性能功耗比（在插入SC-OPS时，整个系统支持150TFLOPS单精度浮点，功耗为2000W）可以广泛应用于数字信号处理、高性能计算、深度学习等领域,为什么选择FPGA,更高的性能功耗比更高的性能功耗比可以节省数据中心运营成本,支持更多应用场景对随机操作、位操作和串行算法很好支持可以适应更多应用场景，提高系统性能；@#@低功耗和小型化可以满足更多对功耗小型化有要求的场景,更灵活快速部署通过加速云FPGA深度学习编译器具有快速迁移相应深度学习算法到加速卡上。

@#@利用局部可重构技术可以远程快速部署，满足数据中心云化需求,更高性价比低功耗可以降低系统运营成本，高集成度可以降低建设成本，更高的性能功耗比使的整体系统获得更高性价比,01,02,04,03,解决方案和产品优势,FPGA加速深度学习,01,海量数据,计算能力,03,02,算法,深度学习的应用模式,高性能灵活的RTL级加速库,深度学习库FDNN,高性能计算库FBlas,参数可配的深度学习基础库：

@#@卷积、池化、全连接、非线性函数参数可配置的CNN/DNN/RNN库，可以兼容CAFFE/TensorFlow模型数据常见各种模型：

@#@VGG16,Goolenet,Lenet，Yolo，SSD，Resnet,Faster-RCNN参数可配置的深度学习训练库：

@#@除CNN/DNN/RNN库外，后向更新算法、随机初始化算法、SGD算法,参数可配的OpenBlas库Level2/3:

@#@矩阵乘、矩阵分解、矩阵求逆线性方程求解、微分方程求解三角函数、非线性函数、超越函数傅里叶运算接口兼容OpenBlas库接口,“所设即所加速”的深度学习加速器,接口适配层,模型分析层,模型配置层,DDR4,PCIe,DMA,40GE,深度学习模型,深度学习库/底层驱动FPGA深度学习加速器框架,通过加速云高性能FPGA深度学习加速器，可以方便和CaffeTensorFlow集成，快速将CaffeTensorFlow训练的模型和数据运行到加速云的FPGA加速卡上（SC-OPM）取得很好的加速比。

@#@也可以和加速云高密度异构计算平台配合实现高效的深度学习训练。

@#@,17,深度学习加速解决方案,采用SC-OPM加速卡（半高半长：

@#@56*167mm）AlteraArria10GX660器件,集成660kLE和1.5TFLOPS单精度浮点处理能力整体网络为7层，总运算量为84M单精度浮点，激活函数为sigmod/softmax各层网络参数可以软件配置下载单卡可以实现60路（单精度浮点）语音识别声学模型，8ms全部完成，功耗33瓦单卡可以实现120150路（16位定点）语音识别声学模型，8ms全部完成采用SC-HPC08S/SC-HPC16S高密度异构计算平台可以实现更高密度语音加速池方案（单系统实现7201440路语音识别），整体系统最高不超过900W功耗17,18,深度学习加速解决方案,18,采用SC-OPM加速卡（半高半长：

@#@56*167mm）AlteraArria10GX660器件,集成660kLE和1.5TFLOPS单精度浮点处理能力四层LSTM+1层全连接，各层网络参数可以软件配置下载可以实现40000T/S的流量，延时超低，数据长度可以混合长度单卡只有33W,Convert,LSTMFWCELL0,Matrix,Bais,LSTMBWCELL0,Matrix,Bais,Inputdata,N.10,01.N,Bais,01.N,LSTMFWCELL1,Matrix,Bais,LSTMBWCELL1,Matrix,Bais,01.N01.NConcat,FCMatrix,01.N,01.N,01.N,01.N,LSTM模型,全连接模型,Wiwfwowc（256*256）（256*256）（256*256）（256*256）,uiwfwowc（256*256）（256*256）（256*256）（256*256）,56,2,256,256,256,256,256,LSTM参数矩阵,LSTM偏置矩阵,19,深度学习加速解决方案,19,采用SC-OPM加速卡（半高半长：

@#@56*167mm）AlteraArria10GX660器件,集成660kLE和1.5TFLOPS单精度浮点处理能力2层卷积和2层全连接27400帧/S，单卡只有33W,FPGA加速Hadoop,压缩,EC,排序,KVS,网络,安全,21,Hadoop加速解决方案,21,采用SC-HPC08S/SC-HPC16S高密度异构计算平台可以实现更高密度压缩解压缩，纠删码加速池方案（单系统实现1632GB的压缩解压缩性能或2448GB的纠删码性能），整体系统最高不超过900W功耗,FPGA加速Hadoop应用,视频分析,Hadoop生态,直播,数据库,HPC,数据挖掘,基因处理,广告推送,CPU,FPGA,基于FPGA硬件加速的Hadoop融合架构,HAI,DDR4,PCIe,DMA,40GE/100GE,算法,加速库,底层驱动,

展开阅读全文