Gate 广场「创作者认证激励计划」优质创作者持续招募中!
立即加入,发布优质内容,参与活动即可瓜分月度 $10,000+ 创作奖励!
认证申请步骤:
1️⃣ 打开 App 首页底部【广场】 → 点击右上角头像进入个人主页
2️⃣ 点击头像右下角【申请认证】,提交申请等待审核
立即报名:https://www.gate.com/questionnaire/7159
豪华代币奖池、Gate 精美周边、流量曝光等超 $10,000 丰厚奖励等你拿!
活动详情:https://www.gate.com/announcements/article/47889
美丽国的开源人工智能战略:两个实验室,一个问题——美丽国能否竞争?
解密的艺术、时尚和娱乐中心。
深入了解 SCENE
本周,两家美国人工智能实验室发布了开源模型,各自采取了截然不同的方法来解决同一个问题:如何与中国在公共可用人工智能系统中的主导地位竞争。
Deep Cogito 发布了 Cogito v2.1,这是一个庞大的 6710 亿参数模型,其创始人 Drishan Arora 称之为 “美国公司中最好的开放权重 LLM。”
不要那么快,艾伦人工智能研究所反驳道,它刚刚推出了Olmo 3,称其为“最佳完全开放的基础模型”。Olmo 3拥有完全的透明度,包括其训练数据和代码。
具有讽刺意味的是,Deep Cognito 的旗舰模型建立在中国基础之上。Arora 在 X 上承认,Cogito v2.1 “从 2024 年 11 月的开放许可 Deepseek 基础模型进行分叉。”
这引发了一些批评,甚至关于微调一个中国模型是否算作美国人工智能的进步,或者只是证明了美国实验室落后了多远的辩论。
无论如何,Cogito 相对于 DeepSeek 显示出的效率提升是真实的。
Deep Cognito 声称 Cogito v2.1 生成的推理链比 DeepSeek R1 短 60%,同时保持竞争力的性能。
使用阿罗拉所称的“迭代蒸馏与放大”——通过自我改进循环培养模型更好的直觉——这家初创公司在RunPod和Nebius的基础设施上,仅用75天就训练了其模型。
如果这些基准测试是真实的,那么这将是目前由美国团队维护的最强大的开源大型语言模型(LLM)。
为什么这很重要
到目前为止,中国在开源人工智能方面一直处于领先地位,而美国公司越来越依赖——无论是默默地还是公开地——中国的基础模型以保持竞争力。
这种动态是有风险的。如果中国实验室成为全球开放人工智能的默认基础设施,美国初创企业将失去技术独立性、议价能力以及塑造行业标准的能力。
开放权重的人工智能决定了谁控制着每个下游产品所依赖的原始模型。
目前,中国的开源模型(DeepSeek、Qwen、Kimi、MiniMax)在全球的采用中占主导地位,因为它们便宜、快速、高效,并且不断更新。 图片来源: Artificialanalysis.ai
许多美国初创公司已经在其上建立,尽管他们公开避免承认这一点。
这意味着美国公司正在建立基于外国知识产权、外国培训渠道和外国硬件优化的业务。从战略上讲,这使得美国处于与其曾经面临的半导体制造相同的境地:越来越依赖他人的供应链。
Deep Cogito 的方法——基于 DeepSeek 的分叉——展示了上行 (快速迭代) 和下行 (依赖)。
艾伦研究所的方法——以完全透明的方式构建 Olmo 3——展示了另一种选择:如果美国想要在人工智能领域保持领导地位,就必须从数据、训练配方到检查点重新构建整个堆栈。这是一个劳动密集型且缓慢的过程,但它保留了对基础技术的主权。
理论上,如果你已经喜欢 DeepSeek 并在线使用它,Cogito 大多数时候会给你更好的答案。如果你通过 API 使用它,你会更高兴,因为你将花更少的钱来生成良好的回复,这得益于它的效率提升。
艾伦研究所采取了相反的策略。整个 Olmo 3 模型家族与 Dolma 3 一起发布,这是一个从零开始构建的 5.9 万亿代币训练数据集,以及来自每个训练阶段的完整代码、配方和检查点。
该非营利组织发布了三个模型变体——Base、Think 和 Instruct——具有70亿和320亿个参数。
"在人工智能领域,真正的开放不仅仅是关于访问——它还涉及信任、问责和共同进步,"该机构写道。
Olmo 3-Think 32B 是首个在该规模下完全开放推理的模型,训练所用的标记大约是类似模型如 Qwen 3 的六分之一,同时实现了竞争力的性能。 图像:Ai2
Deep Cognito 在八月份获得了由 Benchmark 领投的 $13 百万种子资金。该初创公司计划发布高达 6710 亿参数的前沿模型,这些模型将在 “显著更多的计算能力和更好的数据集” 上进行训练。
与此同时,英伟达支持Olmo 3的开发,副总裁Kari Briski称其对"开发者使用开放的美国建模的AI进行扩展"至关重要。
该机构在Google Cloud的H100 GPU集群上进行训练,计算需求比Meta的Llama 3.1 8B低2.5倍
Cogito v2.1 可在此处免费在线测试。模型可以在此处下载,但请注意:它需要一张非常强大的显卡才能运行。
Olmo 在这里可供测试。模型可以在这里下载。这些更适合消费者,具体取决于您选择哪一个。