亲爱的广场用户们,新年即将开启,我们希望您也能在 Gate 广场上留下专属印记,把 2026 的第一句话,留在 Gate 广场!发布您的 #我的2026第一帖,记录对 2026 的第一句期待、愿望或计划,与全球 Web3 用户共同迎接全新的旅程,创造专属于你的年度开篇篇章,解锁广场价值 $10,000 新年专属福利!
活动时间:2025/12/31 18:00 — 2026/01/15 23:59(UTC+8)
🎁 活动奖励:多发多奖,曝光拉满!
1️⃣ 2026 幸运大奖:从全部有效帖子中随机抽取 1 位,奖励包含:
2026U 仓位体验券
Gate 新年限定礼盒
全年广场首页推荐位曝光
2️⃣ 人气新年帖 TOP 1–10:根据发帖量及互动表现综合排名,奖励包含:
Gate 新年限定礼盒
广场精选帖 5 篇推荐曝光
3️⃣ 新手首帖加成奖励:活动前未在广场发帖的用户,活动期间首次发帖即可获得:
50U 仓位体验券
进入「新年新声」推荐榜单,额外曝光加持
4️⃣ 基础参与奖励:所有符合规则的用户中随机抽取 20 位,赠送新年 F1 红牛周边礼包
参与方式:
1️⃣ 带话题 #我的2026第一条帖 发帖,内容字数需要不少于 30 字
2️⃣ 内容方向不限,可以是以下内容:
写给 2026 的第一句话
新年目标与计划
Web3 领域探索及成长愿景
注意事项
• 禁止抄袭、洗稿及违规
Io.net 基准测试揭示 RTX 4090 集群的性价比“最佳点”
一篇已通过同行评审并被第六届国际人工智能与区块链大会(AIBC 2025)录用的论文指出,闲置的消费级GPU(以Nvidia的RTX 4090为例),在与传统数据中心硬件配合使用时,可以显著降低大语言模型推理的运行成本。
这项题为《将闲置消费级GPU作为企业级硬件在LLM推理中的补充》的研究来自io.net,是首个在该项目去中心化云上公开发布异构GPU集群基准测试的研究。分析将消费级显卡集群与数据中心级H100加速器进行了对比,发现两者存在明显的成本-性能权衡,这可能会重塑组织设计推理集群的方式。
论文指出,由RTX 4090 GPU构建的集群能够以大约一半的成本实现H100 62%至78%的吞吐量。对于批处理工作负载或对延迟容忍的应用,单个token成本最多可降低75%。研究人员强调,当开发者能够容忍更高的尾部延迟,或将消费级硬件用于溢出与后台任务(如开发、批处理、嵌入生成和大规模评估)时,这些节省最具吸引力。
IOG基金会研究主管、该研究首席作者Aline Almeida表示:“我们的研究结果表明,企业级与消费级GPU的混合路由在性能、成本和可持续性之间提供了务实的平衡。与其做二选一,异构基础设施让组织能够根据自身的延迟与预算需求进行优化,同时减少碳排放。”
混合GPU集群
论文并未回避H100的优势:Nvidia的数据中心显卡即便在高负载下,也能维持低于55毫秒的P99首次token响应时间,这使其在实时、对延迟高度敏感的应用(如生产级聊天机器人和交互式代理)中不可或缺。相比之下,消费级GPU集群更适合可以容忍较高尾部延迟的流量;作者指出,对于许多科研和开发/测试任务,现实的P99延迟窗口为200–500毫秒。
能源与可持续性也是考量因素。虽然H100的每token能效大约高出3.1倍,研究指出,利用闲置的消费级GPU可以通过延长硬件寿命、利用可再生电力丰富的电网,从而降低计算的整体碳足迹。简而言之,战略性部署的混合集群既便宜又环保。
io.net CEO Gaurav Sharma表示:“这项同行评审分析验证了io.net的核心理念:计算的未来将是分布式、异构并且可访问的。通过同时利用数据中心级和消费级硬件,我们能够让先进AI基础设施的获取更加民主化,同时提升可持续性。”
论文的实际指导意见主要面向MLOps团队和AI开发者。作者建议,实时、低延迟路由使用企业级GPU,而开发、实验和批量任务则路由到消费级集群。他们报告称,四卡RTX 4090配置在每百万token成本方面达到最优($0.111至$0.149),同时提供了H100性能的相当比例。
除了基准测试外,该研究还强化了io.net的使命:通过将分布式GPU整合为可编程、按需的资源池来扩展计算能力。公司将其技术栈定位为全方位解决方案,结合io.cloud的可编程基础设施和io.intelligence的API工具包,服务于需要训练、代理执行和大规模推理但又无法负担全数据中心硬件投入的初创企业。
完整的基准测试和方法论已在io.net的GitHub仓库公开,供有兴趣深入数据和复现实验的人员查阅。这项研究为未来如何以可负担和可持续的方式扩展LLM部署的讨论,增添了重要且有实证基础的声音。