大不同手游网:为互联网用户提供安全可靠的手机应用资源下载!
刚刚,一位 AI 公司 CEO 细细扒皮了关于 Llama 4 的五大疑点。甚至有圈内人表示,Llama 4 证明 Scaling 已经结束了,LLM 并不能可靠推理。但更可怕的事,就是全球的 AI 进步恐将彻底停滞。
令人失望的 Llama 4,只是前奏而已。接下来我们恐将看到 —— 全球局势的改变,将彻底阻止 AI 进步!Anthropic CEO Dario 做出长视频,逐级对 Llama 4 身上的六大疑点进行了扒皮。
同时,纽约大学教授马库斯发出博客,总结了目前这段时间 AI 圈的状况。
Scaling 已经结束;模型仍然无法可靠推理;金融泡沫正在破裂;依然没有 GPT-5;对不可靠的语言模型的过度依赖让世界陷入了困境。我的 25 个 2025 年预测中的每一个,目前看起来都是对的。
大语言模型不是解决之道。我们确实需要一些更可靠的方法。
OpenAI 和 Anthropic 这样的公司,需要筹集资金来资助新模型本后的大规模训练运行,但他们的银行账户里并没有 400 亿或 1000 亿美元,来支撑庞大的数据中心和其他费用。
问题在于,如果投资者预见到了经济衰退,那就要么不会投资,要么投资较少。
更少的资金,就意味着更少的计算,也就是更慢的 AI 进展。
布鲁金斯学会 2025 年的一份报告称,若科研成本持续上升,美国在人工智能、生物技术和量子计算等关键领域的领先地位可能受到威胁。据估算,当前政策若持续实施五年,美国科研产出可能会下降 8%-12%。
在以前的一个采访里,Anthropic CEO Dario 曾被问到:到了如今这个阶段,还有什么可以阻止 AI 的进步?他提到了一种可能 —— 战争。
没想到,在这个可能性之外,我们居然提前见证了系统的另一种混沌。
而 Dario 也提前预测到,如果出现「技术不会向前发展」的信念,资本化不足,AI 进步就将停止。
逐级扒皮 Llama 4
最近闹出大丑闻的 Llama 4,已经证明了这一点。
我们很难说,Llama 4 系列三款模型中的两款代表了多少进展,显然在这个系列的发布中,夸大宣传的水分要比诚实的分析多得多。
疑点 1:长上下文大海捞针,其实是骗人?
Llama 拥有所谓业界领先的一千万个 token 的上下文窗口,听起来似乎很酷炫。
可是等等,24 年 2 月,Gemini 1.5 Pro 的模型,就已经达到 1000 万 token 的上下文了!
在极端情况下,它可以在视频、音频和共同文本上,执行惊人的大海捞针任务,或许,是谷歌忽然意识到,大海捞针任务意义非常重大。
正如这篇 Llama 4 博客所说,如果把所有哈利波特的书都放进去,模型都能检索到放入其中的一个密码。
不过,这位 CEO 表示,这些 48h 前发布的结果,不如 24 小时前更新的这个 fiction livebench 基准测试这么重要。
这个基准测试,用于长上下文的深度理解,LLM 必须将数万或数十万个 token 或单词拼凑在一起。
在这里,在这个基准测试中,Gemini 2.5 Pro 的表现非常好,而相比之下,Llama 4 的中等模型和小模型,性能极其糟糕。
而且随着 token 长度的增加,它们的表现越来越差。
疑点 2:为何周六发布?
这位 CEO 察觉到的第二大疑点就在于,Llama 4 为何选在周六发布?
在整个美国 AI 技术圈里,这个发布日期都是史无前例的。
如果阴谋论一点想,之所以选在周六发布,是因为 Meta 自己也心虚了,希望尽量减少人们的注意力。
此外,Llama 4 的最新训练数据截止时间是 2024 年 8 月,这就很奇怪。
要知道,Gemini 2.5 的训练知识截止时间是 2025 年 1 月。
这就意味着,在过去的 9 个月里,Meta 一直在使尽浑身解数,拼命让这个模型达到标准。
有一种可能性是,或许他们本打算早点发布 Llama 4,但就在 9 月,OpenAI 推出了 o 系列模型,今年 1 月,DeepSeek R1 又来了,所以 Meta 的所有计划都被打乱了。
疑点 3:大模型竞技场,究竟有没有作弊?
不过,这位 CEO 也承认,尽管全网充斥着对 Llama 4 群嘲的声音,但它的确也展示出了一些坚实的进展。
比如 Llama 4 Maverick 的活动参数量大概只有 DeepSeek V3 的一半,却取得了相当的性能。
那现在的核心问题就在于,Meta 究竟有没有在 LM Arena 上进行作弊,在测试集上进行训练?
目前,LM Arena 已经迅速滑跪,公开了 2000 多组对战数据给公众检阅,并且表示会重新评估排行榜。
目前姑且按照没有算,那就意味着我们拥有一个强大得惊人的基础模型了。
看看这些真实数字,假设没有任何答案进入 Llama 4 的训练数据,这个模型在 GPQA Diamond 上的性能(谷歌验证的极其严格的 STEM 基准测试)实际上是比 DeepSeek V3 更好的。
而在这个基础上,Meta 就完全可以创建一个 SOTA 级别的思维模型。
唯一的问题是,Gemini 2.5 Pro 已经存在了,而 DeepSeek R2 也随时会问世。
疑点 4:代码很差
还有一点,当 Llama 4 走出舒适区时,性能就会开始狂降。
以 ADA 的 Polyglot 这个编码基准测试为例,它测验了一些系列编程语言的性能。
但与许多基准不同,它不仅仅关注 Python,而是一系列编程语言,现在依然是 Gemini 2.5 Pro 名列前茅。
但是想要找到 Llama 4 Maverick,可就很难了,得把鼠标滚动很久。
它的得分当然惨不忍睹 —— 只有 15.6%。
这就跟小扎的言论出入很大了,显得相当讽刺。
就在不久前,他还信誓旦旦地断定说,Meta 的 AI 模型将很快取代中级程序员。
疑点 5:「结果仅代表目前最好的内部运行」
这一点,同样已经在 AI 社区引发了群嘲。
在下面这个表格中,Meta 将 Llama 4 和 Gemini2.0 Pro、GPT-4.5 等模型进行了比较,数字非常漂亮。
但仔细看脚注,却说的是 Llama 模型的结果代表了目前最好的内部运行情况,所以很大可能是,Meta 把 Llama 4 跑了 5 遍或 10 遍,取了其中的最好结果。
而且,他们还故意不将 Llama 4 Behemoth 跟 DeepSeek V3 进行比较,后者比它在整体参数上小三倍,在互动参数上小八倍,性能却相似。
如果从消极的角度下判断,就可以说 Llama 4 最大的模型参数上 DeepSeek V3 基础模型的许多倍,性能却基本处于同一水平。
还有在 Simple Bench 中,Llama 4 Maverick 的得分大概为 27.7%,跟 DeepSeek V3 处于同一水平,还低于 Claude 3.5 Sonnet 这类非思维模型。
另外,这位 CEO 还在 Llama 4 的使用条款中发现了这么一条。
如果你在欧洲,仍然可以成为它的最终用户,但却没有权利在它的基础上进行构建模型。
马库斯:Llama 4 的惨痛教训表明,Scaling 已经结束
而 Llama 4 的惨淡表现,也让 NYU 教授马库斯写出长文,断言 Scaling 已经结束,LLM 仍然无法推理。
他的主要观点如下。
大模型的 Scaling 已经彻底结束了,这证实了我三年前在深度学习正在撞墙中的预测。
一位 AI 博士这样写道:Llama 4 的发布已经证实,即使 30 万亿 token 和 2 万亿参数,也不能让非推理模型比小型推理模型更好。
规模化并不奏效,真正的智能需要的是意图,而意图需要远见,这都不是 AI 能做到的。
即使 LLM 偶尔能提供正确的答案,往往也是通过模式识别或启发式的捷径,而非真正的数学推理。
比如最近 ETU 团队关于 LLM 在美国奥数上糟糕表现的研究,就彻底击碎了「LLM 会做数学题」这个神话。
最终,生成式 AI 很可能会变成一个在经济回报上失败的产品。
泡沫可能真的要破灭了。英伟达在 2025 年的跌幅,就已经超过了三分之一。
而 Meta 的 Llama 4 的残酷真相,再次证实了马库斯在 2024 年 3 月预测 ——
达到 GPT-5 级别的模型,将会非常困难。很多公司都会有类似模型,但没有护城河。随着价格战进一步升级,许多只会有微薄的利润。
最终,马库斯以这样的方式总结了自己的发言 —— 大语言模型绝对不是解决之道,我们需要一些更可靠的方法。Gary Marcus 正在寻找对开发更可靠替代方法有兴趣的投资者。
参考资料:
//www.youtube.com/watch?v=wOBqh9JqCDY
//garymarcus.substack.com/p/scaling-is-over-the-bubble-may-be
上一篇:Switch2直面会来袭-银河战士Prime4等新游将亮相
下一篇:【VCT-太平洋-第一赛段】RRQ-2-0-ZETA-小组赛Omega
随着互联网的不断发展,各种平台和应用逐渐渗透到我们的生活中,满足了用户的多样需求。其中,“51吃瓜群众完整版”作为一款广受关注的娱乐类应用,吸引了大量年轻用户的关注。无论是在
在当今信息爆炸的时代,很多网站和服务都在不断地调整和优化,为用户提供更便捷的使用体验。而对于广大用户而言,掌握并记住新域名是避免不必要麻烦的关键。今天,我们特别提醒大家:请记住新域名紧急通知-请记住新
在现代快节奏的生活中,许多人总是难以找到时间进行深层的皮肤护理。而“试看10分钟保湿免费观看最新版”正是应对这一需求的创新产品。它通过精准的保湿配方和短暂的使用时间,让用
随着网络视频平台的普及,用户对各种高清内容的需求不断攀升。而《农夫新航道全集免费观看在线播放完整版》作为一款广受欢迎的影视资源,不仅能满足观众对精彩剧集的渴望,更凭
随着网络视频的普及,越来越多的人开始通过各类视频平台观看自己喜欢的影片。而在众多的选择中,45分钟一清二楚看大片免费观看最新版脱颖而出,成为用户热衷的选择之一。这款
随着数字娱乐的普及,越来越多的用户倾向于通过各种设备进行流媒体观看。作为游戏主机的领导者,Xbox不仅为玩家提供了丰富的游戏体验,还在影音娱乐方面展现了强大的潜力。特别是“xbox免费看电影-xbox
国际b站直播视频入口剧情创新版
日产一二三产区中文字幕无删减
hdmi色深模式444422超清流畅版
iphone私人网址午夜劲爆版
老奶奶bgmbgm人合集版
无人在线观看视频高清视直播版
庥豆传煤在线观看蓝光版
18色禁用小视频软件免费观看版
18款未成年禁看打扑克最新版地址
推特高危风险评估:九月一日免费版全面安装指南解析
17c.c-起草免费:为创作赋能-释放无限潜力
黄品汇全新推出9·7M色板,引领时尚潮流与潮流设计新风尚
糖豆
欧式少女16集全观看:你是否已经准备好迎接浪漫之旅?
探索生活百态的热点问答应用下载:靠逼软件
男生眼中的坤坤赛季:句号开元棋,女生们是否也心动了?
本站所有软件来自互联网,版权归原著所有。联系方式:anptzw@163.com 网站地图
Copyright©2025 大不同手游网 All Rights Reserved 备案号:粤ICP备2021027678号-1
五大疑点曝光:Llama-4-逐层扒皮-NYU-教授称-AI-Scaling-彻底结束
刚刚,一位 AI 公司 CEO 细细扒皮了关于 Llama 4 的五大疑点。甚至有圈内人表示,Llama 4 证明 Scaling 已经结束了,LLM 并不能可靠推理。但更可怕的事,就是全球的 AI 进步恐将彻底停滞。
令人失望的 Llama 4,只是前奏而已。接下来我们恐将看到 —— 全球局势的改变,将彻底阻止 AI 进步!Anthropic CEO Dario 做出长视频,逐级对 Llama 4 身上的六大疑点进行了扒皮。
同时,纽约大学教授马库斯发出博客,总结了目前这段时间 AI 圈的状况。
Scaling 已经结束;模型仍然无法可靠推理;金融泡沫正在破裂;依然没有 GPT-5;对不可靠的语言模型的过度依赖让世界陷入了困境。我的 25 个 2025 年预测中的每一个,目前看起来都是对的。
大语言模型不是解决之道。我们确实需要一些更可靠的方法。
OpenAI 和 Anthropic 这样的公司,需要筹集资金来资助新模型本后的大规模训练运行,但他们的银行账户里并没有 400 亿或 1000 亿美元,来支撑庞大的数据中心和其他费用。
问题在于,如果投资者预见到了经济衰退,那就要么不会投资,要么投资较少。
更少的资金,就意味着更少的计算,也就是更慢的 AI 进展。
布鲁金斯学会 2025 年的一份报告称,若科研成本持续上升,美国在人工智能、生物技术和量子计算等关键领域的领先地位可能受到威胁。据估算,当前政策若持续实施五年,美国科研产出可能会下降 8%-12%。
在以前的一个采访里,Anthropic CEO Dario 曾被问到:到了如今这个阶段,还有什么可以阻止 AI 的进步?他提到了一种可能 —— 战争。
没想到,在这个可能性之外,我们居然提前见证了系统的另一种混沌。
而 Dario 也提前预测到,如果出现「技术不会向前发展」的信念,资本化不足,AI 进步就将停止。
逐级扒皮 Llama 4
最近闹出大丑闻的 Llama 4,已经证明了这一点。
我们很难说,Llama 4 系列三款模型中的两款代表了多少进展,显然在这个系列的发布中,夸大宣传的水分要比诚实的分析多得多。
疑点 1:长上下文大海捞针,其实是骗人?
Llama 拥有所谓业界领先的一千万个 token 的上下文窗口,听起来似乎很酷炫。
可是等等,24 年 2 月,Gemini 1.5 Pro 的模型,就已经达到 1000 万 token 的上下文了!
在极端情况下,它可以在视频、音频和共同文本上,执行惊人的大海捞针任务,或许,是谷歌忽然意识到,大海捞针任务意义非常重大。
正如这篇 Llama 4 博客所说,如果把所有哈利波特的书都放进去,模型都能检索到放入其中的一个密码。
不过,这位 CEO 表示,这些 48h 前发布的结果,不如 24 小时前更新的这个 fiction livebench 基准测试这么重要。
这个基准测试,用于长上下文的深度理解,LLM 必须将数万或数十万个 token 或单词拼凑在一起。
在这里,在这个基准测试中,Gemini 2.5 Pro 的表现非常好,而相比之下,Llama 4 的中等模型和小模型,性能极其糟糕。
而且随着 token 长度的增加,它们的表现越来越差。
疑点 2:为何周六发布?
这位 CEO 察觉到的第二大疑点就在于,Llama 4 为何选在周六发布?
在整个美国 AI 技术圈里,这个发布日期都是史无前例的。
如果阴谋论一点想,之所以选在周六发布,是因为 Meta 自己也心虚了,希望尽量减少人们的注意力。
此外,Llama 4 的最新训练数据截止时间是 2024 年 8 月,这就很奇怪。
要知道,Gemini 2.5 的训练知识截止时间是 2025 年 1 月。
这就意味着,在过去的 9 个月里,Meta 一直在使尽浑身解数,拼命让这个模型达到标准。
有一种可能性是,或许他们本打算早点发布 Llama 4,但就在 9 月,OpenAI 推出了 o 系列模型,今年 1 月,DeepSeek R1 又来了,所以 Meta 的所有计划都被打乱了。
疑点 3:大模型竞技场,究竟有没有作弊?
不过,这位 CEO 也承认,尽管全网充斥着对 Llama 4 群嘲的声音,但它的确也展示出了一些坚实的进展。
比如 Llama 4 Maverick 的活动参数量大概只有 DeepSeek V3 的一半,却取得了相当的性能。
那现在的核心问题就在于,Meta 究竟有没有在 LM Arena 上进行作弊,在测试集上进行训练?
目前,LM Arena 已经迅速滑跪,公开了 2000 多组对战数据给公众检阅,并且表示会重新评估排行榜。
目前姑且按照没有算,那就意味着我们拥有一个强大得惊人的基础模型了。
看看这些真实数字,假设没有任何答案进入 Llama 4 的训练数据,这个模型在 GPQA Diamond 上的性能(谷歌验证的极其严格的 STEM 基准测试)实际上是比 DeepSeek V3 更好的。
而在这个基础上,Meta 就完全可以创建一个 SOTA 级别的思维模型。
唯一的问题是,Gemini 2.5 Pro 已经存在了,而 DeepSeek R2 也随时会问世。
疑点 4:代码很差
还有一点,当 Llama 4 走出舒适区时,性能就会开始狂降。
以 ADA 的 Polyglot 这个编码基准测试为例,它测验了一些系列编程语言的性能。
但与许多基准不同,它不仅仅关注 Python,而是一系列编程语言,现在依然是 Gemini 2.5 Pro 名列前茅。
但是想要找到 Llama 4 Maverick,可就很难了,得把鼠标滚动很久。
它的得分当然惨不忍睹 —— 只有 15.6%。
这就跟小扎的言论出入很大了,显得相当讽刺。
就在不久前,他还信誓旦旦地断定说,Meta 的 AI 模型将很快取代中级程序员。
疑点 5:「结果仅代表目前最好的内部运行」
这一点,同样已经在 AI 社区引发了群嘲。
在下面这个表格中,Meta 将 Llama 4 和 Gemini2.0 Pro、GPT-4.5 等模型进行了比较,数字非常漂亮。
但仔细看脚注,却说的是 Llama 模型的结果代表了目前最好的内部运行情况,所以很大可能是,Meta 把 Llama 4 跑了 5 遍或 10 遍,取了其中的最好结果。
而且,他们还故意不将 Llama 4 Behemoth 跟 DeepSeek V3 进行比较,后者比它在整体参数上小三倍,在互动参数上小八倍,性能却相似。
如果从消极的角度下判断,就可以说 Llama 4 最大的模型参数上 DeepSeek V3 基础模型的许多倍,性能却基本处于同一水平。
还有在 Simple Bench 中,Llama 4 Maverick 的得分大概为 27.7%,跟 DeepSeek V3 处于同一水平,还低于 Claude 3.5 Sonnet 这类非思维模型。
另外,这位 CEO 还在 Llama 4 的使用条款中发现了这么一条。
如果你在欧洲,仍然可以成为它的最终用户,但却没有权利在它的基础上进行构建模型。
马库斯:Llama 4 的惨痛教训表明,Scaling 已经结束
而 Llama 4 的惨淡表现,也让 NYU 教授马库斯写出长文,断言 Scaling 已经结束,LLM 仍然无法推理。
他的主要观点如下。
大模型的 Scaling 已经彻底结束了,这证实了我三年前在深度学习正在撞墙中的预测。
一位 AI 博士这样写道:Llama 4 的发布已经证实,即使 30 万亿 token 和 2 万亿参数,也不能让非推理模型比小型推理模型更好。
规模化并不奏效,真正的智能需要的是意图,而意图需要远见,这都不是 AI 能做到的。
即使 LLM 偶尔能提供正确的答案,往往也是通过模式识别或启发式的捷径,而非真正的数学推理。
比如最近 ETU 团队关于 LLM 在美国奥数上糟糕表现的研究,就彻底击碎了「LLM 会做数学题」这个神话。
最终,生成式 AI 很可能会变成一个在经济回报上失败的产品。
泡沫可能真的要破灭了。英伟达在 2025 年的跌幅,就已经超过了三分之一。
而 Meta 的 Llama 4 的残酷真相,再次证实了马库斯在 2024 年 3 月预测 ——
达到 GPT-5 级别的模型,将会非常困难。很多公司都会有类似模型,但没有护城河。随着价格战进一步升级,许多只会有微薄的利润。
最终,马库斯以这样的方式总结了自己的发言 —— 大语言模型绝对不是解决之道,我们需要一些更可靠的方法。Gary Marcus 正在寻找对开发更可靠替代方法有兴趣的投资者。
参考资料:
//www.youtube.com/watch?v=wOBqh9JqCDY
//garymarcus.substack.com/p/scaling-is-over-the-bubble-may-be
上一篇:Switch2直面会来袭-银河战士Prime4等新游将亮相
下一篇:【VCT-太平洋-第一赛段】RRQ-2-0-ZETA-小组赛Omega
51吃瓜群众-51吃瓜群众完整版v2.1.5
随着互联网的不断发展,各种平台和应用逐渐渗透到我们的生活中,满足了用户的多样需求。其中,“51吃瓜群众完整版”作为一款广受关注的娱乐类应用,吸引了大量年轻用户的关注。无论是在
请记住新域名紧急通知-请记住新域名紧急通知免费播放国语版v2.3.4
在当今信息爆炸的时代,很多网站和服务都在不断地调整和优化,为用户提供更便捷的使用体验。而对于广大用户而言,掌握并记住新域名是避免不必要麻烦的关键。今天,我们特别提醒大家:请记住新域名紧急通知-请记住新
试看10分钟保湿-试看10分钟保湿免费观看最新版v7.9.8
在现代快节奏的生活中,许多人总是难以找到时间进行深层的皮肤护理。而“试看10分钟保湿免费观看最新版”正是应对这一需求的创新产品。它通过精准的保湿配方和短暂的使用时间,让用
农夫新航道全集免费观看-农夫新航道全集免费观看在线播放完整版v2.0.9
随着网络视频平台的普及,用户对各种高清内容的需求不断攀升。而《农夫新航道全集免费观看在线播放完整版》作为一款广受欢迎的影视资源,不仅能满足观众对精彩剧集的渴望,更凭
45分钟一清二楚看大片-45分钟一清二楚看大片免费观看最新版v8.6.4
随着网络视频的普及,越来越多的人开始通过各类视频平台观看自己喜欢的影片。而在众多的选择中,45分钟一清二楚看大片免费观看最新版脱颖而出,成为用户热衷的选择之一。这款
xbox免费看电影-xbox免费看电影在线精品版v11.6.3
随着数字娱乐的普及,越来越多的用户倾向于通过各种设备进行流媒体观看。作为游戏主机的领导者,Xbox不仅为玩家提供了丰富的游戏体验,还在影音娱乐方面展现了强大的潜力。特别是“xbox免费看电影-xbox
国际b站直播视频入口剧情创新版
日产一二三产区中文字幕无删减
hdmi色深模式444422超清流畅版
iphone私人网址午夜劲爆版
老奶奶bgmbgm人合集版
无人在线观看视频高清视直播版
庥豆传煤在线观看蓝光版
18色禁用小视频软件免费观看版
18款未成年禁看打扑克最新版地址
推特高危风险评估:九月一日免费版全面安装指南解析
角色扮演17c.c-起草免费:为创作赋能-释放无限潜力
其他应用黄品汇全新推出9·7M色板,引领时尚潮流与潮流设计新风尚
角色扮演糖豆
欧式少女16集全观看:你是否已经准备好迎接浪漫之旅?
其他应用探索生活百态的热点问答应用下载:靠逼软件
角色扮演男生眼中的坤坤赛季:句号开元棋,女生们是否也心动了?
其他应用