贾扬清：大模型尺寸正在重走CNN的老路；马斯克：在特斯拉也是这样

导读 Transformer大模型尺寸变化，正在重走CNN的老路!看到大家都被LLaMA3.1吸引了注意力，贾扬清发出如此感慨。拿大模型尺寸的发展，和CNN的发展...

Transformer大模型尺寸变化，正在重走CNN的老路!

看到大家都被LLaMA3.1吸引了注意力，贾扬清发出如此感慨。

拿大模型尺寸的发展，和CNN的发展作对比，就能发现一个明显的趋势和现象:

在ImageNet时代，研究人员和技术从业者见证了参数规模的快速增长，然后又开始转向更小、更高效的模型。

听起来，是不是和GPT哐哐往上卷模型参数，业界普遍认同Scaling Law，然后出现GPT-4o mini、苹果DCLM-7B、谷歌Gemma2B如出一辙?

贾扬清笑称，“这是前大模型时代的事儿，很多人可能都不咋记得了:）”。

而且，贾扬清不是唯一一个感知到这一点的人，AI大神卡帕西也这么觉得:

他甚至拍着胸脯打赌，表示我们一定能看到又好、又能可靠地思考的模型。

而且是参数规模很小很小的那种。

连马斯克都在卡帕西的评论区连连称是:

以上，大概可以称之为“大佬所见略同”。

展开说说

贾扬清的感慨，要从只在最强王座上短暂待了一天的LLaMA3.1说起。

那是首次实现“最强开源模型=最强模型”，不出意外，万众瞩目。

However，贾扬清在这个时候提出了一个观点:

“但我认为，行业会因小型垂直模型而真正蓬勃发展。”

至于啥是小型垂直模型，贾扬清也说得很清楚，比如以Patrouns AI的Iynx（该公司的幻觉检测模型，在幻觉任务上超过GPT-4o）为代表的那些很棒的中小模型。

贾扬清表示，就个人喜好而言，他本人是非常喜欢千亿参数模型的。

但现实情况里，他观察留意到，7B-70B参数规模之间的大模型，大家用起来更顺手:

它们更容易托管，不需要巨大的流量即可盈利;

只要提出明确的问题，就能得到质量还不错的输出——与和之前的一些看法相反。

与此同时，他听说OpenAI最新的、速度很快的模型也开始变得比“最先进的”大模型尺寸更小。

“如果我的理解是正确的，那么这绝对表明了行业趋势。”贾扬清直接表明了自己的观点，“即在现实世界中，使用适用的、具有成本效益、且仍然强大的模型。”

于是乎，贾扬清简单梳理了CNN的发展历程。

首先，是CNN的崛起时代。

以AlexNet（2012）为起点，开启了大约三年的模型规模增长时期。

2014年出现的VGGNet就是一个性能和规模都非常强大的模型。

其次，是缩小规模时期。

2015年，GoogleNet把模型大小从“GB”缩小到了“MB”级别，即缩小了100倍;但模型性能并没有因此骤减，反而保持了不错的性能。

遵循类似趋势的还有2015年面世的SqueezeNet模型等。

然后的一段时间，发展重点在追求平衡。

后续研究，如ResNet（2015）、ResNeXT(2016)等，都保持了一个适中的模型规模。

值得注意的是，模型规模的控制并没有带来计算量的减少——其实，大伙儿都愿意投入更多的计算资源，寻求一种“同等参数但更高效”的状态。

紧接着就是CNN在端侧起舞的一段时期。

举个例子，MobileNet是谷歌在2017年推出的一项有趣的工作。

有趣就有趣在它占用的资源超级少，但是性能却非常优异。

就在上周，还有人跟贾扬清提到:“Wow～我们现在还在用MobileNet，因为它可以在设备上运行，而且在出色的特征嵌入泛化（Feature Embedding Generality）。”

最后，贾扬清借用了来源于Ghimire等人的《A Survey on Efficient Convolutional Neural Networks and Hardware Acceleration》里的一张图:

并再一次发出自己的疑问:

大模型尺寸，会遵循与CNN时代相同的趋势来发展吗?

网友怎么看?

其实GPT-4o mini这样走在大模型发展道路上“不大反小”的例子不在少数。

当上述几位表达出这样的观点后，立马有人点头如捣蒜，还拿出了一些别的类似例子，证明他们看到了相同的趋势。

有人立马跟上:

还有网友表示，开发更大的模型，意味着能给后续几代更小、更垂直的模型的训练“上强度”。

这个迭代过程最终会产生所谓的“完美训练集”。

这样一来，较小的大模型在特定领域，能与现在参数巨大的大模型一样聪明，甚至更聪明。

一言以蔽之，模型必须先变大，然后才能变小。

大多数讨论此观点的人，还是对这个趋势比较认同，有人直言“这是一件好事，比‘我的模型比你的模型大’参数竞赛更实用和有用。”

但是，当然了!

翻遍网络评论区，也有人发出不同的声音。

比如下面这位朋友就在贾扬清推文底下留言:

面对这个问题，贾扬清倒也及时回复了。

他是这么说的:“没错!我说大模型尺寸可能在走CNN的老路，绝对不意味着号召大家停止训练更大的模型。”

他进一步解释道，这么说的本意是，随着技术（包括CNN和大模型）落地实践越来越广，大家已经开始越来越关注性价比更高的模型了。”

所以，或许更高效的小·大模型，能够重新定义AI的“智能”，挑战“越大越好”的假设。

你赞同这个观点不?

请在手机微信登录投票

你赞同Transformer大模型尺寸会按CNN时代趋势发展，“先大后小”吗?单选我赞成我反对我就看看

相关热词：

免责声明：本文由用户上传，如有侵权请联系删除！

生活知识小技巧网

首页

国内研究

国外研究

健康新闻

健康资讯

养生资讯

社会百态

医学前沿

社会动态

生活知识

每日动态

贾扬清：大模型尺寸正在重走CNN的老路；马斯克：在特斯拉也是这样

相关推荐

最新文章

头条推荐 | 热门文章 | 精选文章

青霉素眼药水红霉素眼药水的作用和功效

张翰舞者百度百科（精舞门张翰）

久咳不愈的特效偏方大蒜久咳不愈的特效偏方

长期用腹带可以管理身材吗长期用腹带肚子会瘦吗

置换人工膝关节后怎样康复训练人工置换膝关节后有什么后遗症

血清总蛋白偏高说明什么问题血清总蛋白是什么呢？

hpv16阳性带套会传染吗 hpv16阳性带套能同房吗

解痉镇痛片解痉镇痛药有哪些

种植的头发多久进入生长期种植的头发多久才能长出来

人汗液中的成分人体的汗液有什么成分

贾扬清：大模型尺寸正在重走CNN的老路；马斯克：在特斯拉也是这样

猴头菌片的功效与作用中用法禁忌禁网猴头菌片有什么功效与作用

烧伤补液计算方式烧伤补液的计算方法

青春期胸下垂了怎么锻炼恢复青春期胸部下垂了怎么办,还可以恢复吗

生吃贡梨的功效与作用是什么生吃贡梨的功效与作用？

灌肤的方法和详细的步骤视频灌肤操作步骤是什么？

脸都是螨虫什么是螨虫啊脸上老是能挤出白色的东西

毛氏黑虎丸的功效与作用黑虎丸的功效与作用

吃银耳的功效和作用吃银耳的功效与禁忌

橙子是寒性水果吗?为什么吃多会上火橙子是寒性水果吗

菊花是指身体哪个部位菊花是指人体的哪个部位

喝水不吸收尿多怎么办男性喝水不吸收尿多怎么办

胃受凉怎么办快速解决方法图片胃受凉怎么办快速解决方法

成人大便有虫子要紧吗拉大便有小白虫严重吗

看电视用户激增！广电：电视套娃收费和操作复杂治理成效显著

正常人吃了抑郁症药物正常人吃抗抑郁药10天会怎样

躁狂症自测的方法有哪些呢视频躁狂症自测的方法有哪些呢

肝气郁结是很严重的病吗肝气郁结严重了会怎样要注意什么

炫舞怎么结婚步骤（炫舞怎么结婚）

葡萄糖浆和果葡糖浆的区别葡萄糖浆对人体有害吗