新华三通用大模型算力底座方案:为AI时代注入强大动力

在人工智能技术日新月异的今天,大模型作为推动AI进步的重要驱动力,是百行百业不断追逐的热点。大模型以其强大的泛化能力、卓越的模型效果和广泛的应用场景,正改变着人工智能的未来。作为国内领先的ICT解决方案提供商,新华三集团凭借其在算力服务器、无损网络、高性能存储和算力调度平台等领域的丰富经验和技术实力,推出了新华三通用大模型算力底座方案,旨在为AI时代注入强大动力。

大模型发展的机遇与挑战

大模型是指具有大量参数的机器学习模型,不同领域内,大模型的参数量级有所不同:自然语言(NLP)类模型,普遍认为超过50亿(5B)参数才算是大模型;而要达到与ChatGPT相仿的能力一般需千亿规模(100B)参数,例如我们常提到的GPT-3(175B)就属于生成式语言模型;而计算机视觉(CV)类模型,目前50亿(5B)参数的就属于大模型级别了。

大模型的优势在于其强大的泛化能力,通过在海量数据上进行预训练使得大模型能够学习到大量通用知识、捕捉到更多细节,这使得大模型在面临新的任务时,只需要进行微调就能迅速适应,从而在具体任务中取得更好的表现;同时,大模型还具有广泛的应用场景,从文本生成、机器翻译到图像识别、语音识别,大模型都能发挥重要作用。

大模型关键技术支撑

大模型业务分为预训练、微调、推理三个主要阶段,每个阶段具体内容如下图所示:
在这里插入图片描述

大模型训练技术简述:
一、并行策略选择:

大模型多机并行训练时,大部分会用到模型并行和数据并行策略,少部分会用到专家并行策略;模型并行又分为张量并行和流水线并行,以下仅对常用的三种并行策略进行简要说明:

1、张量并行:
在这里插入图片描述
将模型进行层内切分,每张GPU保存模型同一层的部分参数,所有GPU共享同一批数据;模型参数进行层内切分后部署不同的设备,在前向和反向过程中都需要接收其他设备产生的结果(点对点Send/Recv),同时每 个设备的梯度同样需要聚合后再分发给各个设备进行模型参数更新(AllReduce);通信量与模型规模正相关,单卡可达10GB+,一个Step一次通信。

2、流水线并行:
在这里插入图片描述
将模型进行层间切分,每张GPU保存模型的部分层,同时将Mini Batch划分为若干Micro Batch传入流水线;通过层间切分位置(边界层)点对点Send/Recv同步激活与梯度,正向传激活,反向传梯度;通信量与层间交互相关,一般在MB级别,一Step几十次通信。

3、数据并行:
在这里插入图片描述
相同的模型分布在不同的GPU/计算节点/计算集群上,对数据集进行切分后并行计算;训练时每台设备负责处理不同的mini-batch,由此会产生不同的梯度,系统会将不同设备产生的梯度聚合到一起,计算均值, 再分发给各个设备进行模型参数更新,通信开销主要来源于梯度的聚合和分发,Allreduce同步矩阵乘结果;通信量与batchsize有关,矩阵可达GB级别,一个Step几十次通信。

二、多机训练过程简述:

如下图所示,每个计算POD之间是数据并行,每个POD内部,单台机器内部是张量并行,多台机器之间是流水线并行,下面的示意图是进行一轮Epoch训练的过程。

在这里插入图片描述
第一步,数据并行:数据集按照POD数量拆分后作为样本输入,并行传入到多个模型副本当中。

第二步,张量并行:切分后的每份模型,在第一台机器内部,按照多张GPU执行顺序进行张量并行计算,期间进行多次数据集合运算。

第三步,流水线并行:第一台机器内部的GPU计算完成后通过流水线并行传输到第二台机器的GPU当中,传输的数据为上一台GPU计算的结果(实际会更复杂)。

第四步,重复进行张量并行和流水线并行,直到单一计算POD内的最后一台GPU服务器完成了数据集合运算。

第五步,权重同步:所有计算POD内的多个模型副本在完成一轮Epoch计算后,采用数据并行进行一次全量的权重同步,之后开始进行下一轮Epoch训练,直到收敛为止。

大模型推理技术简述:

在这里插入图片描述
如上图所示,推理服务经程序封装后可看作是需要GPU运行的应用程序,推理服务不持久化数据,所以服务可重入,若需要对推理结果进行沉淀,需要用大数据的手段在服务之外进行API分流监控;由于应用程序无状态,可进行应用程序的负载均衡,以提升推理的并发能力,此部分和普通应用相同;基础设施故障后,应用可以根据策略迁移到其他设备上,但GPU的类型和型号需要和原环境保持一致;若容器形式部署,可以像微服务应用程序一样进行业务层面的编排;若为虚拟机,则可以用基于云上的业务编排系统进行业务编排。

综上对训练和推理技术的分析,可以得出,大模型是一个复杂的系统工程,从数据采集开始,最后到提供相应的大模型服务,落地一个垂直领域的大模型不仅需要高效算法,更需要全面的业务规划和基础设施规划,才能保证大模型高效部署落地。

在这里插入图片描述

当今大模型的发展也面临着如下挑战:

算力层面:受限于部分GPU供应问题,替代方案性能无法延续原有技术方案;此外,众多的GPU卡型号导致测试标准不统一、主机厂商适配进度不一、交付周期不定等问题。

存力层面:需要大模型场景专用存储;提供更高的存储读、写带宽及IOPS;具备良好的扩展性;拥有灵活的数据保护策略。

运力层面:具备高带宽、低延时特性;支持RDMA或RoCE通信协议;可实现快速部署、便捷调优;达到可视化运维、快速定位问题所在。

管理平台:面向大模型业务的专业调度管理平台;多元算力可快速适配、全面纳管;具备大模型全生命周期服务能力;具有完善的运维功能。

总之,大模型是一个复杂的系统工程,从数据采集开始,最后到提供相应的大模型服务,落地一个垂直领域的大模型不仅需要高效算法,更需要全面的业务规划和算力底座规划,才能保证大模型高效部署落地。

新华三算力底座解决方案

面对上述挑战和需求,新华三集团凭借在做的丰富经验和技术实力,推出了新华三通用大模型算力底座方案。该方案可以帮助用户从无到有建设一个私域的大模型算力底座集群,助力垂直行业大模型加速落地。

新华三通用大模型算力底座方案架构图:
在这里插入图片描述

算力解决之道:

新华三秉承多元算力发展理念,采用与NVIDIA高端卡性能接近的国产化加速卡或满足合规要求的Intel或AMD GPU卡;并与多家GPU卡厂商深度合作,基于不同厂商优势特性,形成算力芯片评测标准,以客户不同算力需求为导向匹配最优选择,并自建适配标准、实现快速交付,形成多元高效的算力体系。
在这里插入图片描述
存力解决之道:

新华三针对大模型场景,推出专用CX系列存储;单节点20GB/s+带宽、30万IOPS;轻松扩展至PB级可用容量,性能线性增加;数据保护采用多副本或纠删码,供用户按需选择。
在这里插入图片描述
运力解决之道:

新华三SeerFabric或Infiniband满足高带宽、低延时要求;提供优化后的RoCE或原生RDMA通信协议;一键自动化部署、动态闭环调优;网络可视化、智能分析,让运维更高效。
在这里插入图片描述
管理解决之道:

新华三自研大模型场景专用管理平台,傲飞算力平台;自研GPU通用适配框架,适配周期缩短至2周以内;内置大模型全栈工作流,助力AI业务探究;监控、告警全面直观,让运维更轻松。
在这里插入图片描述
AI时代,“算力即生产力”,新华三集团依托“AI in ALL”技术战略,为AI时代的大模型应用提供了全方位的支持。未来,新华三集团将继续秉持“精耕务实,为时代赋智慧”的理念,持续升级产品及解决方案,充分发挥“算力×联接”的倍增效应,持续进化通用大模型算力底座方案,加速百行百业拥抱AI技术的美好未来。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/765138.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【刷题汇总--牛牛的快递、最小花费爬楼梯、数组中两个字符串的最小距离】

C日常刷题积累 今日刷题汇总 - day0021、牛牛的快递1.1、题目1.2、思路1.3、程序实现1.4、程序实现(扩展) 2、最小花费爬楼梯2.1、题目2.2、思路2.3、程序实现 3、数组中两个字符串的最小距离3.1、题目3.2、思路3.3、程序实现3.4、补充0x3f3f3f3f 4、题目链接 今日刷题汇总 - d…

解码未来城市:探秘数字孪生的奥秘

在科技日新月异的今天,"数字孪生"(Digital Twin)这一概念如同一颗璀璨的新星,照亮了智慧城市、智能制造等多个领域的前行之路。本文将深入浅出地解析数字孪生的定义、技术原理、应用场景及未来发展,带您一窥…

亚马逊TM商标跟卖,同行截流采集,人工手动跟卖选品更方便!

区分TM标,软件自动查询,人工手动查询方便。 大家好,跟大家说下如何区分TM标。 选择相对于的站点,选择TM。 软件采集出来的已备案、未备案TMR标,现在点击TM标就会跳到美国商标局。 可以清晰的看到这个地方只有一个序…

电力授时设备常用:低功耗定位授时模块ATGM332D-5T

ATGM332D有5N微星定位模块系列和5T授时模块,其中我们今天要解读的是一款拥有高性能、低功耗、低成本优势且适用于各类授时设备并支持BDS/GNSS的定位授时模块ATGM332D-5T。 该系列模块产品是基于中科微第四代低功耗GNSS SOC单芯片—AT6558,支持多种微星导…

【实战】EasyExcel实现百万级数据导入导出

文章目录 前言技术积累实战演示实现思路模拟代码测试结果 前言 最近接到一个百万级excel数据导入导出的需求,大概就是我们在进行公众号API群发的时候,需要支持500w以上的openid进行群发,并且可以提供发送openid数据的导出功能。可能有的同学…

《昇思25天学习打卡营第1天|基本介绍》

文章目录 前言:今日所学:昇思MindSpore相关链接: 前言: 今天非常荣幸的收到了昇思25天学习打卡营的邀请。昇思MindSpore作为华为昇腾AI全栈的重要一员,他支持端、边、云独立的和协同的统一训练和推理框架,…

电脑录歌用什么软件好?分享电脑录音软件:6款

短视频普遍的今天,越来越多的人喜欢通过电脑进行音乐创作和录制。然而,面对市面上琳琅满目的电脑录音软件,很多人可能会感到困惑:电脑录歌用什么软件好呢?本文将为大家分享六款精选的录音软件,帮助大家找到…

某网页gpt的JS逆向

原网页网址 (base64) 在线解码 aHR0cHM6Ly9jbGF1ZGUzLmZyZWUyZ3B0Lnh5ei8 逆向效果图 调用代码(复制即用) 把倒数第三行换成下面的base64解码 aHR0cHM6Ly9jbGF1ZGUzLmZyZWUyZ3B0Lnh5ei9hcGkvZ2VuZXJhdGU import hashlib import time import reques…

git提交实战

以新项目为例,如何在新项目新分支提交代码。 1.查看文件所在位置 git init 2.克隆项目到本地并完成身份配置 3.将需要新增的文件放到指定目录路径下 4.进入新克隆的文件 cd XXX 5.切换分支 git checkout XXX 6.标红者即为新提交的文件 git status 7.加入 git …

AI图生视频工具测试

环境: 即梦 pika LUMA 可灵 问题描述: AI图生视频工具测试下面是原图 解决方案: 1.即梦 效果 2.pika 生成效果 3.LUMA 生成效果还行 4.可灵 生成效果最好

AI模特换装试衣软件定制服务公司

🌟 最强AI模特换装试衣模型训练、定制服务公司出炉 —— 触站AI🚀 🎨 在AI技术的浪潮中,触站AI以其专业和创新,成为企业AI图像领域的技术解决方案服务公司,为设计界带来了革命性的变化。 🛠️ …

Hadoop3:Yarn的Tool接口案例

一、需求 依然以wordcount案例为基础,进行开发 我们知道,用hadoop自带的example.jar执行wordcount 命令如下 hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount -D mapreduce.job.queuename…

线性代数--行列式1

本篇来自对线性代数第一篇的行列式的一个总结。 主要是行列式中有些关键点和注意事项,便于之后的考研复习使用。 首先,对于普通的二阶和三阶行列式,我们可以直接对其进行拆开,展开。 而对于n阶行列式 其行列式的值等于它的任意…

【Linux进程通信】使用匿名管道制作一个简单的进程池

进程池是什么呢?我们可以类比内存池的概念来理解进程池。 内存池 内存池是在真正使用内存之前,先申请分配一定数量的、大小相等(一般情况下)的内存块留作备用。当有新的内存需求时,就从内存池中分出一部分内存块,若内存块不够再继…

昇思25天学习打卡营第9天|FCN图像语义分割

FCN是Fully Convolutional Networks的简称,即全卷积网络。区别于全连接网络,全连接网络每层直接cell全部连接,全卷积网络即每层都进行卷积。全卷积网络不包含全连接层。 卷积说有点像缩放,具体的可以参考其他专门的介绍文章。 之…

WPF UI 3D 多轴 机械臂 stl 模型UI交互

鼠标交互(没有强调场景的变换) 鼠标命中测试(HitTest 不推荐) 平面对象加载 数据绑定(数据与动作) 环境配置与相关方法 模型准备:Blender/SolidWorks 模型导入 HelixToolkit更多案例…

Profibus转Modbus网关在智能化水处理系统优化改造的应用

一、背景 在现代水处理行业中,智能化系统的应用已经成为提高效率和降低成本的关键。特别是在水厂中,罐内压载水处理系统的自动化和监控对于保障水质安全至关重要。而在这一过程中需要将水泵、阀门、传感器等设备连接到中控系统上。 二、方案 在控制器与…

SpringBoot + 虚拟线程,性能炸裂!

一、什么是虚拟线程 虚拟线程是Java19开始增加的一个特性,和Golang的携程类似,一个其它语言早就提供的、且如此实用且好用的功能,作为一个Java开发者,早就已经望眼欲穿了。 二、虚拟线程和普通线程的区别 “虚拟”线程&#xf…

C语言+ MSSQL技术开发的 PACS系统源码:CT后处理技术之仿真内镜CTVE

C语言 MSSQL技术开发的 PACS系统源码:CT后处理技术之仿真内镜CTVE 仿真内窥镜VE VE是利用医学影像作为原始数据,融合图像处理、计算机图形学、科学计算可视化、虚拟现实技术,模拟传统光学内镜的一种技术。 又叫做腔内重建技术,是…

海参海胆数据集:探索现实世界水下图像增强的创新之旅(目标检测)

亲爱的读者们,您是否在寻找某个特定的数据集,用于研究或项目实践?欢迎您在评论区留言,或者通过公众号私信告诉我,您想要的数据集的类型主题。小编会竭尽全力为您寻找,并在找到后第一时间与您分享。 在当今…