首页>动态>正文
大模型上不了智能汽车?
2023-05-31 10:45:58    来源:佐思汽车研究

什么是大模型?没有统一的定义,目前来说超过1000亿参数的深度学习模型叫大模型,未来可能是10000亿参数。深度学习从采集数据到标注数据,到训练出炉,最后得到的权重模型,这个权重模型98%就是参数,模型大小基本等于参数量的大小。以AlexNet为例,参数量在6000万,假设每个参数都是一个FP32格式,即4个字节,总字节就是24000万字节,则24000万字节/1024/1024 = 228MB,如果是车载领域常用的INT8格式,每个参数就是一个字节,容量会缩小到FP32格式的1/4,当然精度也会下降。


(资料图片)

OpenAI在2020年提出了大模型的规模定律,基本近似于半导体领域的摩尔定律,这就是《Scaling Laws for Neural Language Models》,模型参数规模N,数据集大小D,模型形状(包括:transformer Block数量,宽度,attention heads和feed forward hidden dimension), 喂入序列长度和batch_size。当然还有训练模型的计算量C。其中,模型性能强烈依赖于参数规模N,数据集大小D和计算量C。考虑到自动驾驶全面引入了NLP领域的Transformer,所以这个定律对自动驾驶完全有效。

给定计算量的时候,模型性能的提升主要在于增加参数规模而不是增加数据集。所以后续各种模型训练大家就非常关注于持续增加参数量,数据集并没有相应的倍增。一句话,参数越多效果越好。

来看一个典型的大模型:ChatGPT, 大部分网络消息都说它有 1750 亿个参数,通常用 INT8 格式来存储 LLM 权重,以便进行更低延迟的推理、更高的吞吐量和更低的内存需求(比用 float16 格式来存储要少两倍的内存)。每个 INT8 参数需要 1 个字节进行存储。简单的计算就知道,模型需要 175GB 的存储空间,实际会需要180-190GB左右。

GPT 风格的语言模型在每次前向传递时都是「自回归」的,它预测下一个最可能的 token(对于类似 ChatGPT 的 RLHF 模型,它会预测其人类标注者更偏好的下一个 token)。这意味着要生成 200 个 token,因此需要执行 200 个前向传递。对于每个前向传递,我们需要将模型的所有权重从高带宽(HBM)内存加载到矩阵计算单元(GPU 的张量计算核)中, 也就是说需要为每个前向传递加载 175GB 的权重。为什么不在GPU内部的存储上加载权重模型?因为贵到3万美元一片的英伟达H100其内部的SRAM也不到0.3GB,根本装不下。

在微软OpenAI ChatGPT上用的A100 SXM8,这是针对云服务器厂家供应的版本,一个节点即上图中的一个A100 SXM8,每个节点包含8个 A100 。这意味着每个模型实例的最大张量并行度是 8。因此,其实不需要为每个前向传递加载 175GB 的权重,而只需要为每个前向传递的每个 GPU 加载 21.87GB,因为张量并行性可以在所有 GPU 上并行化权重和计算。

在 A100 80GB SXM 8版本上,最大内存带宽是 2TB/s。这意味着在 batchsize=1 的情况下(受内存带宽限制),2000/21.87=91.4,也就是说前向传递最大的理论速度将达到 91 次 / 秒,这个次是对话的次数,实际是达不到这一水平的,也有人用这个反推,ChatGPT的参数没有达到1750亿个,但迟早会达到这个参数量。这个还没考虑后端计算,部分后端计算是CPU更擅长的。显然,90%时间都花在加载权重上,而不是计算矩阵乘法,高算力毫无用武之地。

我们不考虑算力,只考虑模型加载与存储间的关系,假设特斯拉用了这么大的模型,特斯拉初代 FSD 使用的 LPDDR4,型号是 MT53D512M32D2DS-046 AAT,容量为 16Gb,总共 8 片,I/O 频率 2133MHz,单通道的话,其带宽为 2133*64*16,即 273GB/s。那么速度就是273/175=1.56,也就是每秒可以加载1.56次权重模型。

特斯拉最新的自动驾驶大脑 FSD,不惜血本用上了 GDDR6。以特斯拉的 16 颗 GDDR6 为例,带宽是 56*16=896GB/s,896/175=5.12,即每秒加载5.12次权重模型,即便你的算力是100000TOPs,每秒运算次数也不会超过6次。

车载领域,摄像头帧率高的可以到60Hz,每帧可以看做ChatGPT的每次会话,也就是说每秒至少要加载60次权重模型,考虑到后端计算也要消耗时间,每秒至少要90次才合格,换句话说内存带宽要达到16TB/s,每 GB 的 HBM2 售价大约 20 美元,HBM3大约30美元,每片英伟达A100板卡对应80GB的HBM2,每个节点是8片,合计480GB,每片内存带宽2TB/s,合计16TB/s, 合计480*20=9600美元,最新的H100标配96GB的HBM3,每片板卡是8个芯片,合计8*96*30=23040美元, 而特斯拉最新FSD对应的GDDR6,16颗合计价格大约是150-200美元,价格差别巨大。

退一步,我们不用ChatGPT这种大模型,我们用Transformer。典型Transformer的参数是1.1亿个,但这是针对NLP自然语言的,而自动驾驶领域的是针对视频的,参数量最少增加10倍,即11亿个,也就是1.1GB的权重模型。如果是特斯拉用的16颗GDDR6,那么896/1.1=814.5,也就是每秒最多运算不超过815次,但这16颗GDDR6可并非只为AI计算服务的,同时也为CPU服务,它在加载权重模型的同时,也在为CPU缓存数据。实际运算次数至少减半。回到老旧的目标检测模型,其模型尺寸大小通常只有20MB,运算速度自然高很多,非常复杂的一般都不超过300MB。但是小模型不仅性能不佳,鲁棒性和可移植性也很差,因此人类AI的发展方向就是越来越大的模型,参数越来越多,机器视觉的奠基者ResNet 50是2500万个参数,谷歌的ViT变种是20亿个参数,GPT3是惊人的1750亿。

模型平均每两年会增加240倍,内存带宽每两年只会增加两倍。

存储模型最佳载体是SRAM,其带宽是最好的,但成本远超AI服务器领域的HBM。目前AI模型尺寸越来越大,超过20GB已是常态,用SRAM来存储的话,芯片价格轻易突破100万美元,即使是不太在乎价钱的服务器也承受不起,因此人类只能退而求其次,这就是HBM,即High Bandwidth Memory,每GB的HBM售价大约20美元。

HBM如上图,简单地说HBM就是将SDRAM用TSV工艺堆叠起来,就像盖楼一样,层和层之间会有金属层等间隔,同时通过TSV联通各个存储单元。TSV(硅通孔)是内存能够堆叠的关键,它能够在各个存储层之间以及层内构建出硅通孔的通路,存储单元的访问就通过这些通孔完成。在堆叠上,现在一般只有2,4,8三种数量的堆叠,立体上最多堆叠4层,8堆叠是由两列4堆叠构成。

在继续了解HBM之前,我们需要明白几个内存基本概念,那就是密度、速度和带宽。

密度很简单,就是容量。速度有两种描述,一是频率即MHz,另一种是MT/s,后一种方式越来越成为主流。速度就好比高速公路的最高时速,带宽就好比高速公路的车道数。HBM是以牺牲速度来提高带宽的。1MHz=1000KHz=1000000Hz等于1秒内高低电平信号切换100万次。MT/s全称 Million Transfers Per Second意为每秒百万次传输,1T/s和1Hz,这两个单位前者指的是每秒做了一次传输,后者指每秒1时钟周期。又因为DDR内存信号每个时钟信号可以传输2次,所以实际的传输速率为1Hz等于2T/s,1MHz等于2MT/s。在DDR5发布后,JEDEC的态度有了一些变化,内存性能规格的单位选择了MT/s为主,英特尔和金士顿、美光、威刚、芝奇等PC行业的领头企业也纷纷跟进该策略,将内存性能的衡量单位改为了MT/s。对CPU来说,主要是串行数据流,速度就比较重要,而AI和GPU是并行计算,带宽比速度重要。

系统最大内存带宽 = 内存标称频率*内存总线位数*通道数内存带宽 = 内存标称频率*内存总线位数*实际使用的通道数实际内存带宽=内存核心频率*内存总线位数*实际使用的通道数*倍增系数

我们以车载领域的LPDDR为例来描述带宽。

历代LPDDR参数,注意位宽等同于Maximum density,这是CPU一次能拿走的数据最大密度,用于GPU的最大密度就可以轻易达到384bit。特斯拉初代FSD使用的LPDDR4,型号是MT53D512M32D2DS-046 AAT,容量为16Gb,总共8片,I/O频率2133MHz,单通道的话其带宽为2133*64*16,即273GB/s。

HBM是物理堆叠的,它的总线位宽可以是并联形式,每个die有2个128bit位宽的通道,HBM1只有4层堆叠叫做4-Hi,带宽可以达到4*2*128=1024bit,HBM2的I/O频率是1107MHz,倍频系数是2,以英伟达V100S加速器为例,用了4颗HBM2,带宽是1107*2*4*1028/8/1000,即1134GB/s。比LPDDR4要高很多。HBM3频率提到1600MHz,堆叠提高到16层,比HBM1高出4倍,英伟达最新旗舰H100有多个版本,其中顶配使用HBM3内存5颗,每颗16GB,带宽是5*1600*2*16*1028,也就是3350GB/s。

HBM通过基板的硅互联层与主处理器连接,物理距离远远小于PCB上内存与处理器之间的连接,几乎逼近L3缓存的连接距离,尽管其运行频率不高,但是这个速度是真实速度。顺便说一下,HBM只对AI友好,对CPU不太友好,CPU需要的是速度,AI需要的是带宽,两者是矛盾的,所以大部分自动驾驶厂家会选择价格更低的LPDDR,毕竟大部分时候CPU是主力。

目前SK Hynix全球独家供应HBM3,而大模型带来的服务器需求暴增,HBM3严重供不应求。

据说HBM3的价格涨了5倍,当然这是夸张的说法。

那么未来HBM3价格会下降吗?绝无可能,因为相对于1100亿美元的DRAM市场,HBM市场小得可怜,预计2023年不过10亿美元,就算最乐观的预测到2025年也不过30亿美元,与DRAM市场相比可以忽略不计。目前,能生产HBM3的全球只有SK Hynix和三星,它们同时也占据了60%以上的DRAM市场,为了这一点微不足道的市场,它们当然不会降价抢市场,服务器领域对价格的敏感度又特别低,未来HBM价格不会下降,只会上升。

想要大模型上车,单单存储系统增加的成本就是3万美元,芯片运算部分至少也会增加数万美元成本。

上表是运行大模型的常见芯片,至少一个节点也就是8颗才能流畅运行。

上表是运行大模型服务器一个节点的价格,如百度这样的企业需要数千台乃至上万台这样的服务器,这还是中国特供版A800的价格。换到嵌入式系统,至少也要增加2-3万美元左右的成本。

自动驾驶系统如果要上大模型要增加至少5万美元成本,未来大模型进一步变大,成本会增加10万美元都有可能,当然,实力企业不在乎这5万美元,可又会有多少销量呢?退一步讲,大模型会导致计算系统功率轻松超过500瓦功率,这必然导致续航明显下降,也绝不可能达到车规。所以,大模型不会上车。

关键词:

大模型上不了智能汽车?

什么是大模型?没有统一的定义,目前来说超过1000亿参数的深度学习模型叫大模型,未来可能是10000亿参数。2023-05-31

创世兵魂小黑辅助怎么样_创世兵魂小黑辅助 全球热消息

1、我有个能飞天能穿箱子的。2、要不。3、免费的。本文就为大家分享到这里,希望小伙伴们会喜欢。2023-05-31

江苏气温稳步回升,6月2日再次迈入30℃+_报道

在气温的反复横跳中,江苏今年入夏进程显得有些拖沓。在经历了上一轮高温天气后,江苏入夏大部队有新成员加2023-05-31

环球微头条丨“行走的课堂”很精彩

亲近自然,感受文化,了解科技,研学游不断推陈出新“行走的课堂”很精彩本报记者尹婕随着暑期临近,不少家2023-05-31

410开头的身份证是哪里的城市_410开头的身份证是哪里的|天天短讯

1、你好,4101是河南省郑州市的代码,但是,郑州市没有代码为16的县(区),请你查正。2、410106——河南省2023-05-31

华润三九(000999.SZ):目前999澳诺成长为补钙第一品牌 有在尝试做维D等产品

格隆汇5月31日丨华润三九(000999)(000999 SZ)召开现场会议、电话会议,就“澳诺业务未来发展规划?”公司回2023-05-31

世界无烟日丨无烟,为成长护航 ! 焦点资讯

央广网哈尔滨5月31日消息(记者庞淼实习生郭珂彤)2023年5月31日是第36个世界无烟日,今年的主题是“无烟为2023-05-31

湿气重怎么调理最快拔火罐(湿气重怎么调理最快)

今天小红来为大家带来的是湿气重怎么调理最快拔火罐,湿气重怎么调理最快,让我们一起往下看看吧!1、调理2023-05-31

2019年互联网行业热门专业有哪些?-环球聚焦

学厨师是很不错的,现在随着人们生活品质的提高,外出就餐的频率也越来越多了,所现在餐饮业的发展很是迅速2023-05-31

美联储巴金:通货膨胀将比许多人希望的更加顽固-每日看点

美联储巴金:通货膨胀将比许多人希望的更加顽固,巴金,加息,美联储,高通胀,小说家,散文家,科学家,通货膨胀,2023-05-31

陈梦王楚钦传恋爱绯闻?更多蛛丝马迹被扒,孙颖莎坐不住了 天天速读

球迷们对于王楚钦和陈梦的恋情充满期待,他们注意到德班世乒赛结束后,王楚钦在社交媒体上发文感谢教练和队2023-05-31

员工活动有哪些比赛项目_员工活动有哪些_世界热消息

1、多少员工?如果是沟通的话,建议到近的时候郊游不要去远,远了以后就会有很多麻烦,反而会有些员工不满2023-05-31

即时焦点:大门双开门尺寸-鲁班尺双开大门尺寸

1、好大门是气口,属内外气流动的必经之地,是与外界联系的咽喉和屏障。2、要因势利导,因环境、地域、大气2023-05-31

1660和1060性能差距多大(1660和1060对比) 聚焦

小常来为大家解答以上问题。1660和1060性能差距多大,1660和1060对比很多人还不知道,现在让我们一起来看看吧!2023-05-31

世界快资讯:神舟十六号3名航天员顺利进驻中国空间站

在载人飞船与空间站组合体成功实现自主快速交会对接后,神舟十六号航天员乘组从飞船返回舱进入轨道舱。翘盼2023-05-31

费城76人签约冠军教头尼克纳斯,重塑全新时代

据ESPN名记报道,费城76人已与前猛龙主帅尼克纳斯达成合作协议,开启了一个全新的教练时代。纳斯作为一位拥2023-05-31

环球最资讯丨汽车报道:长城剑指新能源依靠成熟技术有望后来居上

了解汽车资讯,掌握汽车知识,所以大家有空还是需要多看看汽车方面的信息哦,那么今天小编也是来给大家分享2023-05-30

世界关注:珀莱雅明星单品被罚20万:销售费用天价狂飙,创始人今年疯狂减持

《港湾商业观察》王心怡精准拿捏“成分党”喜好的珀莱雅双抗精华近期被监管部门以广告违法为由处罚20万元。2023-05-30

环球快讯:通讯:中国杂交水稻专家深耕马达加斯加

塔那那利佛5月29日电5月的马达加斯加正值金秋。在距离首都塔那那利佛35公里外的马义奇镇,中国国家杂交水稻2023-05-30

电脑闪屏怎么修复视频_电脑闪屏怎么修复|今日热文

1、电磁干扰。2、公司笔记本闪屏最为常见的是一接上电源就会抖动,而不接电源则没事,包含电视机和投影机都有2023-05-30

环球观天下!獐子岛“摘帽”股价涨停,唯一重仓私募正清算

华夏时报记者宋婕王兆寰北京报道  在经过一天的短暂停牌后,5月30日,“摘帽”的獐子岛(002069 SZ)股价2023-05-30

【全球播资讯】中国的情人节是元宵节_中国情人节是元宵节还是七夕节

今天小编肥嘟来为大家解答以上的问题。中国的情人节是元宵节,中国情人节是元宵节还是七夕节相信很多小伙伴2023-05-30

护照能买国内航班机票吗?武汉天河机场:所有流程用同一证件即可

护照能买国内航班机票吗?武汉天河机场:所有流程用同一证件即可---酒可以带上飞机吗。近日,有旅客就乘坐2023-05-30

温州这些领导干部退休了!

关注我们了解每日新鲜来源:温州老干部封面来源网络,与本文无关版权归原作者所有如有侵权请及时联系删除52023-05-30