全国 【切换城市】欢迎您来到装修百科!
关注我们
我要装修

腾讯云 AIGC 存储解决方案全面升级,数据清洗、训练效率翻倍

发布:2024-09-19 浏览:65

核心提示:4月8日,在腾讯云存储技术发布会上,腾讯云宣布其面向AIGC场景的云存储解决方案实现全面升级。据悉,使用新的解决方案,大模型的数据清洗和训练效率可提升一倍,所需时间缩短一半,为AI大模型的研发和应用提供了强有力的支持。腾讯云AIGC云存储解决方案的核心竞争力在于其全面自研的存储引擎技术。该方案由对象存储COS、高性能并行文件存储CFS Turbo、数据加速器GooseFS和数据万象CI等产品组成,是国内首个实现存储引擎全面自研的云存储解决方案。目前,已有80%的头部大模型企业,如百川智能、智谱、元象等,选

4月8日,在腾讯云存储技术发布会上,腾讯云宣布其面向AIGC场景的云存储解决方案实现全面升级。
据悉,使用新的解决方案,大模型的数据清洗和训练效率可提升一倍,所需时间缩短一半,为AI大模型的研发和应用提供了强有力的支持。
腾讯云AIGC云存储解决方案的核心竞争力在于其全面自研的存储引擎技术。
该方案由对象存储COS、高性能并行文件存储CFS Turbo、数据加速器GooseFS和数据万象CI等产品组成,是国内首个实现存储引擎全面自研的云存储解决方案。
目前,已有80%的头部大模型企业,如百川智能、智谱、元象等,选择了腾讯云的AIGC云存储解决方案。
在AI大模型的研发生产流程中,数据采集与清洗、模型训练、推理是三大关键环节,每个环节都涉及海量的数据处理。
腾讯云对象存储COS支持单集群管理百EB级别存储规模,提供便捷、高效的数据公网接入能力,并支持多种协议,充分满足大模型PB级别的海量数据采集需求。
COS通过自研数据加速器GooseFS提升数据访问性能,实现高达数TBps的读取带宽,显著提升数据清洗效率。
在模型训练环节,腾讯云自主研发的并行文件存储CFS Turbo,经过专门优化,每秒总读写吞吐达到TiB/s级别,每秒元数据性能高达百万OPS,为业界领先。
CFS Turbo能够在10秒内完成3TB checkpoint文件的写入,大幅提升大模型训练效率。
此外,数据万象CI为大模型推理场景提供图片隐式水印、AIGC内容审核、智能数据检索metaInsight等能力,全面优化AIGC内容生产与管理模式,顺应监管导向,拓宽存储边界。
随着大模型应用的普及,存储需求将变得更加多样化和复杂化。
在应对这一挑战的同时,腾讯云推出了metalnsight产品,以满足多模态数据搜索的需求,并且在存储层面创新性地应对这些挑战。
当前存储技术主要应用于大模型的训练阶段,但随着大模型应用的普及,存储技术将逐步向智能存储和数据应用方向发展。
同时,当前存储领域仍然需要解决稳定性、性能和性价比等核心问题,但随着大模型应用的持续增长,智能存储、数据治理和数据应用等方面将成为未来存储技术发展的重点。
会后,腾讯云存储总经理马文霜、腾讯云存储总经理陈峥、腾讯云文件存储总监陆志刚以及腾讯云智能存储总监叶嘉梁接受了极客公园在内的多家媒体群访,分享了腾讯云存储在AIGC场景下的能力升级,以及新一代的存储发展趋势,群访内容如下:训练与存储策略问:在大模型的训练环节有一个指标是Checkpoint写入时间,可否详细解释一下这个操作具体是什么,以及为什么重要?马文霜:Checkpoint它其实是GPU的显存,刚刚也提到如果我们没有把Checkpoint周期性的保存下来的话,那么它的训练的话就像刚刚陆志刚讲的,比如说我们写个文档你没有保存的话,中途没有保存的话,一旦断电以后你的文档内容就全没了,大模型的训练其实也是一样的,它中间的这些结果的话如果你不保存的话,,一旦遇到任何一个卡掉卡或者任何一台机器宕机,前期的训练全部的功亏一篑了。
所以说我们需要去写这个Checkpoint,那写这个Checkpoint为什么需要快才行呢?第一,你写这个Checkpoint的时候它是所有的GPU全部要停下来,等你Checkpoint写完了,就说每个GPU都要把自己的显存写到共享存储里面,必须是所有的GPU它都写完了那我的GPU才能继续开始训练。
也就是说,你这里写入的时间一定要非常短,如果你写的太长了,比如说你任何一个卡写慢了那可能其他人全部在等你,这样的话你GPU训练的效率就被拉低了,所以说我们就需要我们存储的话提供更高的写入带宽,让我们的写入包括刚刚陆志刚讲的,我们通过一些异步写入的方式让GPU的等待尽量的短。
问:在数据清洗环节腾讯云使用的是对象存储COS,但实际上在训练和推理阶段用到的是并行文件存储CFS Turbo,为什么在不同环节用不同的存储产品?在这个基础上底层的引擎也不一样,这两个环节的不同之处分别是什么?马文霜:这个我来回答一下吧。
清洗环节它的对象是互联网上原始数据,所以它的数据量是比较大的,一般到PB级甚至到EB级的。
但是比如说清洗完了以后,可能它只是里面符合我们需要的那个内容其实只是里面的一小部分,所以说我们把原始数据放到COS里面的话主要是考虑到COS它的价格是更便宜,那这样的话我是可以付出更小的成本先把原始数据先存下来。
我清洗完了以后,我里面有效的数据我提取出来了以后,那我放到Turbo里面,Turbo因为它是一个高带宽、高OPS、高IOPS的一个存储,它的存储的价格的话是比对象存储要高的。
为什么要放到Turbo里面呢?主要还是你在训练这个环节,因为它是要涉及到GPU集群效率的一个提升,因为如果你在训练这个环节你还是去用COS低成本存储的话,前面我们也讲过,因为它是一个regions的一个服务,标准是通过HTPP的方式去访问的,它的延迟自然是比较高的。
那如果我们还去用COS的话那,我们GPU训练的效率就上不来,自然我们整个你训练的周期就会拉长。
问:在训练推理阶段用到的是异步模式,正常情况下Checkpoint是后面检查完了之后再进行下一阶段的训练,有看到其实是并行的,在这个过程中Checkpoint如果出问题了,后面的环节是不是反而会更多的花费时间?陆志刚:我们设计这个异步模式就是考虑到这一点,它如果是中间会出问题的话,那我们下面存储的服务会去做一些重拾,数据不会丢掉,即使后端整个集群重启,这中间缓存的数据也会在集群重启之后刷入到后端的存储。
我们这里做到的是客户使用原生的pinpoint(音)直接写入就可以,有些友商也做了类似的功能,但是它是需要去改pinpoint结构,去给它打一些补丁,要求客户安装补丁之后再去做到异步的操作。
问:看到腾讯云用了文件存储、对象存储来解决整个AIGC的问题,数据是怎么移动的?马文霜:其实我们数据的话还是以整个COS数据湖作为底座,包括我们做完清洗你的数据的话,比如说我们现在一般用户它都会有一些数据平台它会去做一些数据的移动,比如说在我们的Turbo和COS之间做移动。
我们现在也有一些能力,像我们Turbo它其实跟我们底座COS它是打通的,其实我们之前有一些用户案例,因为跟这次的AIGC不是太相关,比如说它的数据它是先放在Turbo里边,一段时间以后我们可以通过Turbo下沉到COS里面去降成本,相当于它在Turbo里面只需要不太大的一个集群或者说容量来为它提供很好的性能,那这里的话其实它就不用再去付出它有对应的存储容量的成本,其实就是一个提升性价比的一个方案了。
问:对象存储COS在推理和训练中也会从上面读数据,CFS Turbo打通的话它是不是就通过Turbo那边直接在读数据,对象存储的数据不需要通过GooseFS了?马文霜:我们提供的方案有两种,可以GooseFS作为加速,可以根据用户的场景用户自己来选择了。
比如说有些用户他喜欢更全的文件访问的语义,这个就是我们Turbo提供更全的访问的语义,他可能更喜欢用Turbo来去完成的业务的处理。
比如说有些用户他说我不想再去买一个Turbo,我就用COS加Goose加速器GooseFS那我也没有太多的语义需求的话,主要是读、写、删,做一些最佳什么的,其实GooseFS的话也能满足它的诉求,主要还是说我们提供了多种解决方案,还是为了方便用户的使用。
问:就PC或者手机而言,怎么看待存储在云端或者在本地?陈峥:包括我们对象存储也好,其实我们提供了全链路的安全访问一些策略、措施,从数据的上云、清理、域训练包括最后的训练,就是我们对存储的数据都是做了一些加密的,用户的访问也是通过Tbps这种协议防止数据被篡改或者读取。
其实我们的数据跟计算都是尽量的把数据推到训练所在的GPU或者一些清洗的一些CPU的附近,其实也就是你刚才讲的尽量做到本地,其实云上已经可以做到这种状态了。
你自己再去做一些私有化的部署,其实跟我们云上所做的事情是类似的。
还有一个云上能够提供一个多住户的一个模式,可以基于我们计算资源也好或者存储资源也好,用户它是按需或者说有一些云上的一些错峰也好,能够给我们云上的客户提供更优质的,成本相对低廉的或者效率更高的,有可能我们会利用我们整个云上弹性的资源,就是说用户有一些业务突发或者有一些峰值的时候云上能够扛住的,反而你去做本地化的部署,你的资源就那么多,你的业务一下子涨了2倍、3倍,其实你的服务器就被打乱了。
腾讯云的技术路线问:腾讯云一些技术架构上的创新,放在国际上或者业内的话怎么看?对于存储容量的需求不断增长,如何看待当前的存储需求上限和未来的发展趋势?随着用户数量的增加,大模型的性能和效果可能会提升,但这也导致成本的增加。
随着模型参数的增加,总体成本仍在上升。
是否现有的降成本措施在面对未来更大模型的需求时可能只是杯水车薪?马文霜:我先回答第一个、第二个问题。
现在Turbo或者高性能存储在国际上或者说业内吧,业内并没有给用户提供一个开箱即用或者说用户需要这么高的带宽的时候它其实现在还是没有很好的产品形态能够满足用户的需求的,包括刚刚我们提到的我们友商也在做一些OEM这样的一个产品策略也是说想能够快速的满足用户对高带宽的这么一个诉求。
第二个,到底性能的天花板在哪里。
现在有点说不清楚,为什么呢?因为我感觉大模型现在整个的技术甚至它的这种环境都不停的在变化,我们云厂商要做的就是说我们能很好的跟随这个变化,当用户说后续还继续去做对GPU卡去提升算力,去做更大参数的大模型,那我们也就只能去跟随,我们让我们的存储在这里面能够很好的帮助用户去做这样的一个尝试。
如果另外的一个发展方向是说可能是要把模型精简化或者说去做不需要那么大的算力,包括像现在也有一些创业团队在去做,他们叫做更聪明的AI基础设施就是我不需要这么多的卡,归根结底还是说我们也时刻跟随这个行业的发展趋势,我们做满足行业需要的存储产品。
陈峥:第三个的话是这样的,随着我们训练参数的提升,它其实对模型所需要的算力更存力其实都是有不同程度的提升的,只是说我们整个云存储团队在做产品演进和产品规划的时候是我们尽量的去在提升我们产品规格和性能的同时能够在客户使用存储的时候能够尽量的去帮客户提供更高性价比的产品,这个是我们整个云存储团队的一个初衷。
但是说算力这里,业界目前比较多的一个玩法是什么呢?它会先训练一个大模型,基于大模型上面再架小模型,就是去做一些微调,变向做一些性价比的提升,我不需要在多轮的基于大模型的去做,因为我大模型出来以后我基于小模型再去做一些微调其实也是可以达到它想要的效果的,这是目前业界普遍的一种做法。
基于这些考虑,我们在算力跟存力同时具备的时候,我们怎么能够在算力这里能够给客户提供更高性价比的产品是我们主要考虑的一个地方。
图片

  • 收藏

分享给我的朋友们:

上一篇:云知声“嘀咕”智能电话机器人:助力企业降本增效,开启 AI 客服新时代 下一篇:天燃气热水器选购注意什么 天燃气热水器的禁忌是什么

一键免费领取报价清单 专享六大服务礼包

装修全程保障

免费户型设计+免费装修报价

已有312290人领取

关键字: 装修百科 装修咨询 装修预算表

发布招标得免费设计

申请装修立省30%

更多装修专区

点击排行