Nous utilisons le parallélisme de pipeline pour diviser le modèle complet de 671 Go entre deux appareils.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
9 J'aime
Récompense
9
4
Reposter
Partager
Commentaire
0/400
LiquidityWizard
· Il y a 23h
la parallélisation théoriquement sous-optimale tbh... perte d'efficacité ~31,4 % selon mes calculs
Voir l'originalRépondre0
HashBard
· Il y a 23h
wen mac studio beats nvidia fr...
Répondre0
BlockchainRetirementHome
· Il y a 23h
Deux M2 osent entraîner un grand modèle.
Voir l'originalRépondre0
MiningDisasterSurvivor
· Il y a 23h
Pas de souci à faire des essais avec le modèle, j'ai déjà vécu des désastres du minage, donc je n'ai plus peur de rien.
Affinez DeepSeek 🐳 avec deux Mac Studios + MLX 🚀
Nous utilisons le parallélisme de pipeline pour diviser le modèle complet de 671 Go entre deux appareils.