Utilizamos paralelismo de tuberías para dividir el modelo completo de 671GB entre dos dispositivos.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
9 me gusta
Recompensa
9
4
Republicar
Compartir
Comentar
0/400
LiquidityWizard
· hace23h
teóricamente paralelización subóptima, la verdad... pérdida de eficiencia ~31.4% según mis cálculos
Ver originalesResponder0
HashBard
· hace23h
wen mac studio beats nvidia fr...
Responder0
BlockchainRetirementHome
· hace23h
Dos M2 se atreven a entrenar grandes modelos.
Ver originalesResponder0
MiningDisasterSurvivor
· hace23h
No hay problema en hacer pruebas con el modelo, ya he pasado por desastres mineros, así que no tengo miedo de nada.
Ajusta DeepSeek 🐳 con dos Mac Studios + MLX 🚀
Utilizamos paralelismo de tuberías para dividir el modelo completo de 671GB entre dos dispositivos.