扫码下载 APP
qrCode
更多下载方式
今天不再提醒

前NASA工程师:建立太空资料中心是我听过最烂的馊主意

一位前 NASA 工程师兼 Google 云端专家解释为何在太空建立资料中心是完全不切实际的想法,从电力、散热到辐射耐受度等各方面都充满挑战。本文源自 Taranis 所着文章,由动区整理、编译及撰稿。 (前情提要:这男人想把比特币矿机送上太空:无限阳光+零冷却费是 BTC 挖矿圣地 ) (背景补充:把三峡大坝搬上太空》中国计划建造太阳能宇宙发电站,人类将迎能源自由? ) 为了澄清起见,我是一名前 NASA 工程师/科学家,拥有太空电子学博士学位。我也在 Google 工作了 10 年,在公司的各个部门工作过,包括 YouTube 和负责部署 AI 运算能力的云端部门,所以我很有资格在这个议题上发表意见。 简单来说:这绝对是个糟糕的想法,真的完全没有道理。原因有很多,但总归一句话就是,让资料中心运作所需的电子设备,特别是以 GPU 和 TPU 形式部署 AI 运算能力的资料中心,完全不适合在太空中运作。 如果你之前没有在这个领域工作过,我要提醒你不要凭直觉假设,因为让太空硬体在太空中实际运作的现实情况并不一定是显而易见的。 电力 人们想要这么做的首要原因似乎是太空中有充足的电力。事实并非如此。基本上你只有两个选择:太阳能和核能。太阳能意味着部署带有光电池的太阳能板阵列 — 基本上相当于我在爱尔兰家中屋顶上的设备,只是在太空中。它确实可以运作,但并不会神奇地比在地面上安装太阳能板更好 — 你通过大气层损失的电力并没有那么多,所以对所需面积的直觉大致上是对的。 太空中部署过最大的太阳能阵列是国际太空站(ISS)的系统,峰值时可提供略高于 200kW 的电力。重要的是要提到,部署这个系统需要好几次太空梭飞行和大量工作 — 它的面积约为 2,500 平方公尺,超过美式足球场的一半大小。 以 NVIDIA H200 为参考,每个 GPU 设备的功率需求约为每晶片 0.7kW。这些无法单独运作,而且电源转换也不是 100% 有效率,所以实际上每个 GPU 1kW 可能是更好的基准。因此,一个巨大的、ISS 大小的阵列大约可以为 200 个 GPU 供电。这听起来很多,但让我们保持一些视角:OpenAI 即将在挪威建造的资料中心打算容纳 100,000 个 GPU,每个可能都比 H200 更耗电。 要达到这个容量,你需要发射 500 个 ISS 大小的卫星。相比之下,一个单独的伺服器机架(如 NVIDIA 预先配置销售的)将容纳 72 个 GPU,所以每个巨型卫星只相当于大约三个机架。 核能也无济于事。我们这里不是在谈核反应炉 — 我们谈的是放射性同位素热电产生器(RTG),其典型功率输出约为 50W – 150W。所以甚至不足以运行单个 GPU,即使你能说服某人给你一块次临界的钸,并且不介意你有数百次机会在发射载具爆炸性自毁时将其散布在广泛区域。 热调节 ISS 先进热控制系统(波音) 我看到不少人对这个概念的评论说:「嗯,太空很冷,所以冷却会很容易,对吧?」 呃…不…真的不是。 地球上的冷却相对简单。空气对流效果很好 — 让空气吹过一个表面,特别是设计成具有大表面积与体积比的散热片,可以相当有效地将热量从散热片传递到空气中。如果你需要比直接冷却更高的功率密度(而高功率 GPU 绝对属于这类),你可以使用液体冷却将热量从晶片传递到其他地方的较大散热器/散热片。 在地球上的资料中心,通常会设置冷却循环,机器通过冷却剂(通常是水)冷却,冷却剂在机架周围泵送,提取热量并将冷却剂返回循环。通常冷却剂通过对流冷却到空气中,所以无论如何,这就是地球上的运作方式。 在太空中,没有空气。环境接近于绝对真空,没有实际差别,所以对流根本不会发生。在太空工程方面,我们通常考虑的是热管理,而不仅仅是冷却。事实是,太空本身并没有温度。只有物质才有温度。这可能会让你惊讶,但在地月系统中,几乎任何东西的平均温度基本上与地球的平均温度相同,因为这就是地球具有该特定温度的原因。 如果卫星在旋转,有点像烤架上的鸡,它会倾向于保持与地球表面大致相似的一致温度。如果它不旋转,背对太阳的一侧会逐渐变冷,由于宇宙微波背景的限制,大约 4 开尔文,略高于绝对零度。在向阳面,情况可能会变得相当热,达到数百摄氏度。因此,热管理需要非常仔细的设计,确保热量被仔细地引导到需要去的地方。因为真空中没有对流,这只能通过传导或某种热泵来实现。 我设计过在太空中飞行的太空硬体。在一个特定案例中,我设计了一个相机系统,需要非常小巧轻盈,同时仍提供科学级的成像能力。热管理是设计过程的核心。必须如此,因为小型太空船的电力稀缺,而热管理必须在保持质量最小化的同时实现。所以对我来说没有热泵或花哨的东西:我走了另一个方向,设计系统在峰值时最多消耗约 1 瓦特,当相机闲置时降至约 10%。 所有这些电力都会转化为热量,所以如果我只在捕获影像时消耗 1 瓦特,然后在数据进入 RAM 后立即关闭影像感测器,我可以将功耗减半,然后当影像下载到飞行电脑后,我可以关闭 RAM,将功率降低到相对微小的水平。唯一需要的热管理是将电路板边缘螺栓固定到机架上,这样电路板内部的铜层就可以传递产生的任何热量。 冷却哪怕是单个 H200 都将是绝对的噩梦。显然散热片和风扇根本不会起作用,但有液冷版本的 H200。假设使用了这个版本。这些热量需要传递到散热板 — 这不像你车里的散热器,记住没有对流?——它需要将热量辐射到太空中。假设我们可以将其指向远离太阳的方向。 ISS 上的主动热控制系统(ATCS)是这种热控制系统的一个例子。这是一个非常复杂的系统,使用氨冷却回路和大型热辐射板系统。它的散热限制为 16kW,所以大约 16 个 H200 GPU,略高于地面机架的四分之一。 热辐射板系统尺寸为 13.6m x 3.12m,即大约 42.5 平方公尺。如果我们以 200kW 为基准并假设所有这些电力都将供给 GPU,我们需要一个大 12.5 倍的系统,即大约 531 …

BTC0.8%
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)