this post was submitted on 04 Feb 2025
34 points (90.5% liked)

DACH - Deutschsprachige Community für Deutschland, Österreich, Schweiz

3777 readers
577 users here now

Das Sammelbecken auf feddit.org für alle Deutschsprechenden aus Deutschland, Österreich, Schweiz, Liechtenstein, Luxemburg und die zwei Belgier. Außerdem natürlich alle anderen deutschprechenden Länderteile der Welt.

Für länderspezifische Themen könnt ihr euch in folgenden Communities austauschen:

___

Aus gegebenem Anlass werden Posts zum Thema Palästina / Israel hier auf Dach gelöscht. Dasselbe gilt zurzeit für Wahlumfragen al´a Sonntagsumfrage.
___

Einsteigertipps für Neue gibt es hier.
___

Eine ausführliche Sidebar mit den Serverregeln usw. findet ihr auf der Startseite von feddit.org

___

founded 10 months ago
MODERATORS
 

Archiv-Link

DeepSeek soll Zugriff auf Zehntausende GPU-Beschleuniger zur Entwicklung der eigenen KI-Modelle haben, darunter auch H100-GPUs, die unter die US-Exportverbote fallen. Die kolportierten Kosten von knapp 5,6 Millionen US-Dollar für DeepSeek v3 stellen vermutlich nur einen kleinen Teil der Gesamtrechnung dar.

Im Paper zum V3-Modell schreibt DeepSeek von einem vergleichsweise kleinen Rechenzentrum mit 2048 H800-Beschleunigern von Nvidia. Die Firma rechnet mit hypothetischen Mietkosten von 2 US-Dollar pro Stunde und H800-GPU. Bei aufsummiert knapp 2,8 Millionen Rechenstunden (verteilt auf 2048 GPUs) kommen die 5,6 Millionen US-Dollar zustande.

Die Entwickler selbst führen allerdings eine Einschränkung an: "Bitte beachte, dass die oben genannten Kosten nur das offizielle Training von DeepSeek-V3 beinhalten und nicht die Kosten, die mit früheren Forschungs- und Ablationsexperimenten zu Architekturen, Algorithmen oder Daten verbunden sind."

...

Semianalysis hat sich mit einer realistischen Kostenaufstellung beschäftigt. Laut den Analysten hat DeepSeek über das Mutterunternehmen High-Flyer Zugriff auf etwa 60.000 Nvidia-Beschleuniger: 10.000 A100 aus der Ampere-Generation, bevor die US-Exportbeschränkungen in Kraft traten, 10.000 H100 vom Graumarkt, 10.000 für China angepasste H800 und 30.000 H20, die Nvidia nach neueren Exporteinschränkungen auflegte.

...

Allein die Entwicklung der Caching-Technik Multi-Head Latent Attention (MLA) soll Monate beansprucht haben. Dabei komprimiert das KI-Modell alle generierten Token, damit es bei neuen Abfragen schnell auf die Daten zugreifen kann, ohne viel Speicherplatz zu beanspruchen.

Eine zweite Neuerung dürfte ebenfalls einige Ressourcen in Anspruch genommen haben: "Dual Pipe". DeepSeek nutzt einen Teil der Streaming-Multiprozessoren (SMs) in Nvidias GPUs als eine Art virtuelle Data Processing Unit (DPU), wie Nextplatform herausstellt. Sie kümmern sich unabhängig vom Prozessor um die Datenbewegungen in und zwischen den KI-Beschleunigern – mit viel geringeren Wartezeiten als beim Einsatz von CPUs, was die Effizienz steigert.

Im Paper zum mächtigeren R1-Modell macht DeepSeek keinerlei Angaben zur eingesetzten Hardware. Hier wäre der Einsatz eines kleinen Rechenzentrums noch unglaubwürdiger. Ausgehend von einem X-Beitrag häuften sich zuletzt Meldungen, dass DeepSeek für R1 auch KI-Beschleuniger von Huawei verwenden könnte.

you are viewing a single comment's thread
view the rest of the comments