掃描下載 Gate App
qrCode
更多下載方式
今天不再提醒

前NASA工程師:建立太空資料中心是我聽過最爛的餿主意

一位前 NASA 工程師兼 Google 雲端專家解釋為何在太空建立資料中心是完全不切實際的想法,從電力、散熱到輻射耐受度等各方面都充滿挑戰。本文源自 Taranis 所著文章,由動區整理、編譯及撰稿。 (前情提要:這男人想把比特幣礦機送上太空:無限陽光+零冷卻費是 BTC 挖礦聖地 ) (背景補充:把三峽大壩搬上太空》中國計劃建造太陽能宇宙發電站,人類將迎能源自由? ) 為了澄清起見,我是一名前 NASA 工程師/科學家,擁有太空電子學博士學位。我也在 Google 工作了 10 年,在公司的各個部門工作過,包括 YouTube 和負責部署 AI 運算能力的雲端部門,所以我很有資格在這個議題上發表意見。 簡單來說:這絕對是個糟糕的想法,真的完全沒有道理。原因有很多,但總歸一句話就是,讓資料中心運作所需的電子設備,特別是以 GPU 和 TPU 形式部署 AI 運算能力的資料中心,完全不適合在太空中運作。 如果你之前沒有在這個領域工作過,我要提醒你不要憑直覺假設,因為讓太空硬體在太空中實際運作的現實情況並不一定是顯而易見的。 電力 人們想要這麼做的首要原因似乎是太空中有充足的電力。事實並非如此。基本上你只有兩個選擇:太陽能和核能。太陽能意味著部署帶有光電池的太陽能板陣列 — 基本上相當於我在愛爾蘭家中屋頂上的設備,只是在太空中。它確實可以運作,但並不會神奇地比在地面上安裝太陽能板更好 — 你通過大氣層損失的電力並沒有那麼多,所以對所需面積的直覺大致上是對的。 太空中部署過最大的太陽能陣列是國際太空站(ISS)的系統,峰值時可提供略高於 200kW 的電力。重要的是要提到,部署這個系統需要好幾次太空梭飛行和大量工作 — 它的面積約為 2,500 平方公尺,超過美式足球場的一半大小。 以 NVIDIA H200 為參考,每個 GPU 設備的功率需求約為每晶片 0.7kW。這些無法單獨運作,而且電源轉換也不是 100% 有效率,所以實際上每個 GPU 1kW 可能是更好的基準。因此,一個巨大的、ISS 大小的陣列大約可以為 200 個 GPU 供電。這聽起來很多,但讓我們保持一些視角:OpenAI 即將在挪威建造的資料中心打算容納 100,000 個 GPU,每個可能都比 H200 更耗電。 要達到這個容量,你需要發射 500 個 ISS 大小的衛星。相比之下,一個單獨的伺服器機架(如 NVIDIA 預先配置銷售的)將容納 72 個 GPU,所以每個巨型衛星只相當於大約三個機架。 核能也無濟於事。我們這裡不是在談核反應爐 — 我們談的是放射性同位素熱電產生器(RTG),其典型功率輸出約為 50W – 150W。所以甚至不足以運行單個 GPU,即使你能說服某人給你一塊次臨界的鈽,並且不介意你有數百次機會在發射載具爆炸性自毀時將其散布在廣泛區域。 熱調節 ISS 先進熱控制系統(波音) 我看到不少人對這個概念的評論說:「嗯,太空很冷,所以冷卻會很容易,對吧?」 呃…不…真的不是。 地球上的冷卻相對簡單。空氣對流效果很好 — 讓空氣吹過一個表面,特別是設計成具有大表面積與體積比的散熱片,可以相當有效地將熱量從散熱片傳遞到空氣中。如果你需要比直接冷卻更高的功率密度(而高功率 GPU 絕對屬於這類),你可以使用液體冷卻將熱量從晶片傳遞到其他地方的較大散熱器/散熱片。 在地球上的資料中心,通常會設置冷卻循環,機器通過冷卻劑(通常是水)冷卻,冷卻劑在機架周圍泵送,提取熱量並將冷卻劑返回循環。通常冷卻劑通過對流冷卻到空氣中,所以無論如何,這就是地球上的運作方式。 在太空中,沒有空氣。環境接近於絕對真空,沒有實際差別,所以對流根本不會發生。在太空工程方面,我們通常考慮的是熱管理,而不僅僅是冷卻。事實是,太空本身並沒有溫度。只有物質才有溫度。這可能會讓你驚訝,但在地月系統中,幾乎任何東西的平均溫度基本上與地球的平均溫度相同,因為這就是地球具有該特定溫度的原因。 如果衛星在旋轉,有點像烤架上的雞,它會傾向於保持與地球表面大致相似的一致溫度。如果它不旋轉,背對太陽的一側會逐漸變冷,由於宇宙微波背景的限制,大約 4 開爾文,略高於絕對零度。在向陽面,情況可能會變得相當熱,達到數百攝氏度。因此,熱管理需要非常仔細的設計,確保熱量被仔細地引導到需要去的地方。因為真空中沒有對流,這只能通過傳導或某種熱泵來實現。 我設計過在太空中飛行的太空硬體。在一個特定案例中,我設計了一個相機系統,需要非常小巧輕盈,同時仍提供科學級的成像能力。熱管理是設計過程的核心。必須如此,因為小型太空船的電力稀缺,而熱管理必須在保持質量最小化的同時實現。所以對我來說沒有熱泵或花哨的東西:我走了另一個方向,設計系統在峰值時最多消耗約 1 瓦特,當相機閒置時降至約 10%。 所有這些電力都會轉化為熱量,所以如果我只在捕獲影像時消耗 1 瓦特,然後在數據進入 RAM 後立即關閉影像感測器,我可以將功耗減半,然後當影像下載到飛行電腦後,我可以關閉 RAM,將功率降低到相對微小的水平。唯一需要的熱管理是將電路板邊緣螺栓固定到機架上,這樣電路板內部的銅層就可以傳遞產生的任何熱量。 冷卻哪怕是單個 H200 都將是絕對的噩夢。顯然散熱片和風扇根本不會起作用,但有液冷版本的 H200。假設使用了這個版本。這些熱量需要傳遞到散熱板 — 這不像你車裡的散熱器,記住沒有對流?——它需要將熱量輻射到太空中。假設我們可以將其指向遠離太陽的方向。 ISS 上的主動熱控制系統(ATCS)是這種熱控制系統的一個例子。這是一個非常複雜的系統,使用氨冷卻迴路和大型熱輻射板系統。它的散熱限制為 16kW,所以大約 16 個 H200 GPU,略高於地面機架的四分之一。 熱輻射板系統尺寸為 13.6m x 3.12m,即大約 42.5 平方公尺。如果我們以 200kW 為基準並假設所有這些電力都將供給 GPU,我們需要一個大 12.5 倍的系統,即大約 531 …

BTC0.86%
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)