奇亿娱乐动态

逐浪AIGC丨浪潮信息再发大模型:时隔两年 源20与源10有何分裂?

Writer: admin Time:2023-12-04 Browse:71

  正式公布“源2.0”基本大模型,蕴涵1026亿、518亿、21亿三种参数规模,况且统统开源。

  在大模型方面,算是华夏商场的先行者。早在2021年9月,就发布了源1.0大模型,该模型参数为2457亿,是那时业界规模最大的大模型。

  从源1.0到源2.0,时分断绝了两年多,行业也发作了雄伟转移。极端是ChatGPT的发布,引发了一场簇新的工夫革命,而海浪消休行动“两个期间”的见证者,其先后颁布的两代大模型,也有着一齐分裂的布局。

  在海潮音信人工智能软件研发总监吴韶华看来,这轮大模型逐鹿,从OpenAI宣告GPT 3时就仍旧开头了。2020年5月,GPT 3宣布,它提出了一种新的大模型教授和使用模式,即基本大模型资历老师后,体验零样本或小样本指点的方式直接赋能行业欺骗。

  2021年8月,OpenAI举办了GPT 3.5的途演,在这个版本中,OpenAI在根本大模型之上,引入了指令微调的技术权术,并借此将模型技艺和人的贪图举行了对齐,让大模型可以明白人的希图,况且反馈更信得过的答复。

  在OpenAI持续迭代大模型产品的通过中,海浪讯息也在同步建设大模型。吴年华显露,源1.0选择了斗劲经典的transformer布局,这和GPT 3的布局很相仿。

  2022腊尾,ChatGPT的横空诞生,惊艳了世界,同时也带给了业界诸多的研商空间。然则,业界很快就获悉ChatGPT的教练方法——GPT 3+强化练习。对于浪潮音讯来谈,因为有源1.0的基本,在引入加强学习的手法后,也很速就做出了近似ChatGPT的一套形式,并且这套式样原先在迭代和鼎新,只然而海潮信歇从来没有对外发布。

  “比较ChatGPT,GPT 4带给业界的震动要更大”,吴时光坦言,“ChatGPT的本领还有迹可循,但GPT 4没有对外吐露,并且它体现出的才能要更扫数,也更繁荣”。

  以是2023年3月,GPT 4公布后,业界都在商酌它到底是经过什么样的才力来告终这样的模型才具,海潮讯休也不破例。而这些,在星期四的源2.0身上交出了答案,基于算法、数据层面的忖量,海潮音信渐渐酿成了一套较成熟的模型结构更始策动。

  据吴光阴介绍,源2.0的更始要紧体而今三个方面。开始是算法方面,源2.0提出并挑选了一种新型的属目力算法构造——局部耀眼力过滤加强机制(LFA:Localized Filtering-based Attention)。

  LFA资历先研习相邻词之间的干系性,尔后再打算全部干系性的本领,或许更好地进筑到自然叙话的部分和全体的言语特性。这使得模型也许在行使更少的老师算力、更小的模型参数的情状下,同样或者赢得更高的模型精度和浮现身手。

  其次是数据方面,源2.0资历欺骗中英文告籍、百科、论文等高质量中英文质料,消浸了互联网语料内容占比,并联结高效的数据清洗过程,为大模型锻练供给了高质料的专业数据集和逻辑推理数据集。

  比喻为了取得华文数学数据,海浪新闻洗刷了从2018年至今约12PB的互联网数据,终末获取到了约10GB的数学数据。

  最终在算力方面,源2.0抉择了非均匀流水并行的伎俩,综合诈骗“流水线并行+优化器参数并行+数据并行”的战略,让模型在流水并行各阶段的显存占用量撒播更均衡,不准产生显存瓶颈导致的教授效劳失望的问题。

  通过验证,源2.0大模型算力集群的线%,这远高于同类千亿参数大模型的算力集群线性施行效率(业界广博算力着力为27%-35%)。

  也正是收获于这些更始,使得源2.0的模型参数虽然比源1.0更小,可是在各方面能力上,却远超于源1.0。

  对付接下来的郁勃,吴年华体现,针对后续的源2.5、源3.0模型,海浪新闻照样会从算法和数据两个维度着手。“算法方面我们刚才加入一个新界线,这里值得寻找的内容还许多,而在数据方面,他们会构筑一套高质量数据自愿天生形式,来不绝为大模型提供高质料的数据。”

奇亿娱乐动态

CONTACT US

电话:400-123-4567

Email: admin@baidu.com

传真:+86-123-4567

手机:13888888888