DeepSeek stellt „Manifold-Constrained Hyper-Connections“ vor: Was die neue Trainingsmethode für Kosten, Energieverbrauch und Wettbewerbslandschaft bedeutet

02.01.2026

DeepSeek hat eine neue Trainingsmethode für große KI-Modelle vorgestellt: Manifold-Constrained Hyper-Connections (mHC). Die Architektur soll die Skalierbarkeit von LLMs deutlich verbessern und zugleich den Rechen- und Energiebedarf beim Training senken – ein strategisch wichtiger Schritt in einer Zeit knapper GPUs, steigender Strompreise und geopolitischer Chip-Beschränkungen. Der Artikel erklärt Funktionsprinzip, Auswirkungen auf Kostenstrukturen, Infrastrukturplanung sowie die strategische Relevanz für Unternehmen und Rechenzentrumsbetreiber.

DeepSeek stellt „Manifold-Constrained Hyper-Connections“ vor: Was die neue Trainingsmethode für Kosten, Energieverbrauch und Wettbewerbslandschaft bedeutet

Die chinesische KI-Firma DeepSeek hat ein neues Trainingsverfahren für große Sprachmodelle vorgestellt: Manifold-Constrained Hyper-Connections (mHC). Die Methode soll es ermöglichen, große Modelle stabiler zu skalieren und zugleich den Bedarf an Rechenleistung und Energie deutlich zu senken. Für Unternehmen und Betreiber von Rechenzentren könnte dies die Kostenkurve beim Aufbau eigener KI-Modelle nachhaltig verändern.

Im Folgenden wird erläutert, was hinter dem Ansatz steckt, wie er sich von bisherigen Verfahren unterscheidet, welche wirtschaftlichen Effekte zu erwarten sind und welche Konsequenzen sich konkret für CIOs, CTOs und Infrastrukturverantwortliche ergeben.


Kontext: Was genau hat DeepSeek angekündigt?


Akteure und Hintergrund

DeepSeek ist ein in Hangzhou ansässiges KI-Unternehmen, das in den vergangenen Jahren durch besonders kosteneffiziente Modelle aufgefallen ist. Das Reasoning-Modell R1 wurde nach Unternehmensangaben zu einem Bruchteil der Kosten vergleichbarer US-Modelle trainiert. Die jetzt veröffentlichte Arbeit zu mHC fügt sich in diese Linie ein: Effizienzvorteile statt reiner Skalierung über immer größere GPU-Flotten.

Die neue Methode wurde Anfang Januar 2026 als Forschungsarbeit veröffentlicht, verfasst von 19 Autorinnen und Autoren, darunter Gründer Liang Wenfeng. In der Community wird sie zugleich als technische Vorankündigung eines kommenden großen Modells gewertet, das häufig als möglicher Nachfolger R2 gehandelt wird.


Technische Basis: Von ResNet über Hyper-Connections zu mHC

Die von DeepSeek vorgestellte Methode baut auf mehreren Entwicklungsstufen auf:

  • ResNet-Architekturen (Microsoft Research): Einführung von Skip-Connections, um sehr tiefe Netze trainierbar zu machen.

  • Hyper-Connections (ByteDance, 2024): Verallgemeinerung und Erweiterung dieser Verbindungsmuster, um Stabilität und Skalierbarkeit großer Modelle zu verbessern.

  • Manifold-Constrained Hyper-Connections (mHC) von DeepSeek: Weiterentwicklung der Hyper-Connections unter expliziten geometrischen und infrastrukturellen Nebenbedingungen („manifold-constrained“), um Skalierung, Trainingstabilität und Effizienz gemeinsam zu optimieren.


Laut DeepSeek wurden mHC auf Modellgrößen von 3 bis 27 Milliarden Parametern erprobt. Entscheidend ist dabei nicht nur die Architektur selbst, sondern die Kombination mit einer rigorosen Optimierung der Trainingsinfrastruktur, etwa beim Datenfluss, Scheduling und Speicherlayout.


Was ist neu an Manifold-Constrained Hyper-Connections?


Architekturelle Neuerung: Struktur statt nur mehr Parameter

Klassische Skalierungsstrategien für LLMs setzen primär auf:

  • mehr Parameter,

  • längere Kontexte,

  • größere und schnellere GPU-Cluster.


DeepSeek geht mit mHC einen anderen Weg: Die Architektur wird so gestaltet, dass Informationen effizienter durch das Netz fließen, insbesondere in sehr tiefen und breit skalierten Modellen. Vereinfacht lassen sich drei Kernideen herausarbeiten:

  1. Hyper-verbundene Pfade


- Statt linearer Schichtenabfolge mit einzelnen Skip-Connections werden mehrere Pfade über verschiedene Schichten und Ebenen hinweg verbunden.

- Ziel: Gradientenfluss stabilisieren und „Abkürzungen“ schaffen, über die relevante Informationen effizient propagiert werden.

  1. Manifold-Beschränkung


- Die Verbindungen und Aktivierungen werden auf eine niedrigdimensionale Struktur („Manifold“) eingeschränkt.

- Dadurch wird der effektive Suchraum für das Training verkleinert, was Konvergenz und Stabilität verbessert und Rechenaufwand spart.

  1. Co-Design von Architektur und Infrastruktur


- mHC ist nicht nur ein mathematisches Modell, sondern wird so entworfen, dass es gut mit realen Hardware- und Cluster-Topologien harmoniert.

- Das umfasst u. a. Speicherzugriffsmuster, Kommunikationsvolumen zwischen GPUs und Ausnutzung vorhandener Bandbreite.

Der wesentliche Unterschied zu „einfach größeren Transformern“: Es geht nicht mehr allein um die Frage, wie viele Parameter ein Modell hat, sondern wie diese Parameter vernetzt sind und wie gut diese Vernetzung zu der vorhandenen Hardware passt.


Effizienzgewinne: Weniger Rechenzeit, weniger Energie

DeepSeek macht keine vollständig offenen, quantitativen Aussagen zur absoluten Einsparung in TFLOPs oder kWh, betont aber, dass mit mHC erhebliche Reduktionen bei Rechenzeit und Energiebedarf pro Training erzielt wurden – bei vergleichbarer oder verbesserter Modellqualität. In Verbindung mit vorangegangenen Arbeiten von DeepSeek zu sparsamen Aufmerksamkeitsmechanismen und kompakten Speicherrepräsentationen ergibt sich ein konsistentes Bild:

  • Weniger Trainingsepochen bei stabilerer Konvergenz,

  • bessere Auslastung bestehender GPU-Ressourcen,

  • Reduktion von Overhead in Kommunikation und Speicherzugriffen.


Gerade in einem Umfeld eingeschränkten Zugangs zu Hochleistungs-GPUs ist dies ein strategischer Vorteil: mHC soll es ermöglichen, kompetitive Modelle auf verhältnismäßig moderater Hardware zu trainieren.


Auswirkungen auf Kosten, Infrastruktur und Energieverbrauch


1. Kostenstruktur großer KI-Projekte

Die Trainingskosten großer Modelle setzen sich im Wesentlichen aus Hardware, Energie und Betrieb (Personal, Wartung, Kühlung) zusammen. mHC wirkt potenziell auf alle drei Ebenen:

  • CapEx-Reduktion:


- Geringerer GPU-Bedarf für ein gegebenes Zielmodell.

- Nutzung älterer oder weniger leistungsfähiger Hardware wird attraktiver, da das Training weniger stark durch rohe Rechen-Peakleistung limitiert ist.

  • OpEx-Reduktion:


- Kürzere Trainingsläufe bedeuten weniger GPU-Stunden und damit geringere Cloud-Rechnungen.

- Niedrigerer Stromverbrauch reduziert neben direkten Energiekosten auch Kühlbedarf und Nebenkosten.

  • Risiko-Reduktion:


- Wenn ein kompletter Trainingslauf nicht mehr mehrere Millionen Dollar kostet, sinkt das Projektrisiko bei Architektur- oder Datenänderungen.

- Iterativere Experimente werden wirtschaftlich realistischer.


2. Rechenzentrums- und Cloud-Infrastruktur

Für Hyperscaler und Colocation-Betreiber ist der steigende Leistungsbedarf von KI-Workloads eine zentrale Herausforderung. mHC adressiert mehrere schmerzhafte Punkte:

  • Leistungsdichte und Netzanschluss


- Wenn pro Modell weniger elektrische Leistung benötigt wird, kann der Ausbau der Kapazitäten besser innerhalb bestehender Stromanschlüsse erfolgen.

- Das verschiebt Investitionen von Energieinfrastruktur hin zu IT-Hardware und Software.

  • GPU-Auslastung und Scheduling


- Modelle, die weniger kommunikativ „sensibel“ sind, lassen sich einfacher über mehrere Racks oder sogar Rechenzentren verteilen.

- Das gibt Cloud-Anbietern mehr Freiheitsgrade im Scheduling großer Trainingsjobs.

  • Nachhaltigkeit und ESG


- Geringerer Energiebedarf pro Trainingslauf verbessert CO₂-Bilanzen.

- Für europäische Unternehmen ist dies ein relevanter Faktor im Kontext von ESG-Reporting und regulatorischen Anforderungen.


3. Marktdynamik und Wettbewerb

Die neue Methode hat potenziell strukturelle Effekte auf die globale KI-Wettbewerbslandschaft:

  • Absenkung der Eintrittsbarrieren


- Wenn die Kosten pro Frontier-Modell weiter sinken, können mehr Akteure eigene Modelle trainieren.

- Regionale oder branchenspezifische Modelle werden strategisch interessanter.

  • Antwort auf Chip-Beschränkungen


- Für chinesische Anbieter ist Effizienz eine strategische Antwort auf Exportkontrollen für Hochleistungs-GPUs.

- Sollte mHC breit übernommen werden, könnten Wettbewerber mit eingeschränktem Hardwarezugang dennoch leistungsfähige Modelle entwickeln.

  • Preis- und Margendruck im Cloud-Markt


- Effizientere Trainingsverfahren erhöhen mittelfristig den Druck auf GPU- und Cloud-Preise, da weniger Rohkapazität nachgefragt wird.

- Anbieter werden sich stärker über Software-Stacks, Tooling und integrierte Plattformen differenzieren müssen.


Konkrete Szenarien und Use Cases


Szenario 1: Europischer Industriekonzern mit domänenspezifischem LLM

Ein DAX-Unternehmen plant ein proprietäres LLM für technische Dokumentation, Serviceprozesse und Lieferantendialog. Bisherige Machbarkeitsstudien haben Trainingskosten im zweistelligen Millionenbereich ergeben, primär getrieben durch GPU-Cluster und Energie.

Mit einem Ansatz wie mHC ergeben sich neue Optionen:

  • Das Unternehmen nutzt einen mittelgroßen Grundstock an Parametern (z. B. 20–30 Mrd.), der mit effizientem Training auf einen branchenspezifischen Datensatz angepasst wird.

  • Durch mHC-bedingte Effizienzgewinne reduziert sich der GPU-Bedarf so, dass das Training auf einem hybriden Setup aus On-Prem-GPUs und europäischer Cloud realisierbar ist.

  • Die Projektplanung kann kürzere Iterationszyklen vorsehen, weil ein „Fehlversuch“ kein finanzielles Großrisiko mehr darstellt.


Szenario 2: Mittelständischer Cloud-Anbieter in der EU

Ein regionaler Cloud-Anbieter mit begrenztem Zugang zu High-End-GPUs möchte einen Managed-LLM-Service anbieten. Bisher sind die Investitionshürden hoch, da für das Pretraining eines konkurrenzfähigen Modells sehr große GPU-Cluster nötig wären.

Mit einem mHC-basierten Stack können folgende Strategien verfolgt werden:

  • Nutzung eines Open-Source-Modells mit mHC-ähnlicher Architektur als Ausgangspunkt.

  • Fokussierung auf fine-tuning und kontinuierliches Training für Kunden, statt vollständigem Pretraining.

  • Positionierung als „grüner“ KI-Anbieter, der durch effizientere Trainingsmethoden einen geringeren CO₂-Fußabdruck vorweisen kann.


Szenario 3: Branchenmodell im Gesundheitswesen

Eine europäische HealthTech-Plattform möchte ein Modell entwickeln, das medizinische Texte, Leitlinien und Patientendaten (unter strengen Datenschutzauflagen) verarbeitet.

Mit mHC ergeben sich:

  • Reduzierte Hardwareanforderungen, sodass ein größerer Teil der Trainingsläufe in einer zertifizierten Private Cloud oder On-Prem stattfinden kann.

  • Die Möglichkeit, auch bei strengen Datenzugangsbeschränkungen häufigere Re-Trainings mit neuen Leitlinien und Studien durchzuführen, ohne dass jedes Re-Training ein Großprojekt ist.


Was Unternehmen jetzt konkret tun sollten


1. Technologie-Roadmap und Architekturstrategie anpassen

  • Architektur-First statt Parameter-First: Bei der Bewertung künftiger Modelle sollten Verantwortliche Architekturkonzepte wie mHC, Hyper-Connections oder andere Effizienzmechanismen explizit berücksichtigen – nicht nur Modellgröße und Benchmarks.

  • Pilotprojekte einplanen: Unternehmen mit eigenem MLOps-Team sollten Pilotprojekte evaluieren, bei denen effiziente Architektur-Ansätze (mHC-ähnlich, sparsifizierte Attention, KV-Cache-Kompression etc.) systematisch getestet werden.


2. Beschaffungs- und Cloud-Strategien überprüfen

  • GPU-Bedarf neu kalkulieren: Prognosen zum notwendigen GPU-Inventar für 2026–2028 sollten unter Annahme effizienterer Trainingsmethoden neu gerechnet werden.

  • Vertragsgestaltung mit Cloud-Anbietern: SLAs und Preismodelle (z. B. Commitment zu GPU-Stunden) könnten an Flexibilität gewinnen, wenn der reale Bedarf durch effizientere Trainingsmethoden sinkt.


3. Energie- und Nachhaltigkeitsziele integrieren

  • ESG-Kennzahlen um KI-spezifische Metriken erweitern: Etwa „kWh pro Trainingslauf“ oder „CO₂-Emissionen pro Fine-Tuning“.

  • Technologieauswahl an Nachhaltigkeitszielen ausrichten: mHC und ähnliche Ansätze können gezielt für Projekte priorisiert werden, bei denen eine Reduktion des Energieverbrauchs regulatorisch oder reputationsseitig besonders relevant ist.


4. Talent- und Kompetenzaufbau

  • Architektur- und Systemkompetenz ausbauen: Data-Science-Teams müssen die Wechselwirkung von Modellarchitektur, Hardware und Infrastruktur verstehen.

  • Partnerschaften mit Forschung und spezialisierten Anbietern eingehen, um früh Zugang zu Implementierungen von mHC oder kompatiblen Frameworks zu erhalten.


Fazit und Kernaussagen für Entscheider

Mit Manifold-Constrained Hyper-Connections adressiert DeepSeek eine der zentralen Engstellen der aktuellen KI-Welt: die wirtschaftliche und energetische Effizienz des Trainings großer Modelle. Für Unternehmen und Organisationen eröffnet dies neue Handlungsoptionen – aber nur, wenn Strategien, Roadmaps und Beschaffungsentscheidungen rechtzeitig angepasst werden.

Wichtigste Takeaways:

  • Architektur statt nur Größe: mHC zeigt, dass die Struktur von Modellen einen ebenso großen Einfluss auf Kosten und Energiebedarf haben kann wie die schiere Parameterzahl.

  • Kostendruck sinkt, Wettbewerb steigt: Effizientere Trainingsmethoden senken die Einstiegshürden und könnten die Anzahl ernstzunehmender KI-Anbieter weltweit erhöhen.

  • Infrastrukturplanung neu denken: Rechenzentren und Cloud-Anbieter müssen Kapazitätsplanung und Energieinfrastruktur an eine Welt anpassen, in der Effizienzgewinne realistischer werden.

  • Strategische Chance für Europa: Unternehmen mit begrenztem Zugang zu High-End-GPUs können von mHC profitieren, um spezialisierte Modelle wirtschaftlich zu entwickeln.

  • Jetzt handeln statt warten: CIOs und CTOs sollten ihre KI-Roadmaps um Effizienz- und Nachhaltigkeitskriterien erweitern und konkrete Pilotprojekte mit effizienzoptimierten Architekturen anstoßen.


Häufig gestellte Fragen (FAQ)


Was sind Manifold-Constrained Hyper-Connections (mHC) von DeepSeek?

Manifold-Constrained Hyper-Connections (mHC) sind eine neue Trainingsmethode für große Sprachmodelle, bei der die Verbindungen im Netzwerk hyper-verbunden und zusätzlich auf eine niedrigdimensionale Struktur (Manifold) beschränkt werden. Ziel ist es, den Informations- und Gradientenfluss in sehr tiefen Netzen zu stabilisieren und gleichzeitig Rechenaufwand, Energieverbrauch und Hardwarebedarf zu senken.


Wie funktionieren Manifold-Constrained Hyper-Connections technisch?

mHC verknüpft mehrere Pfade zwischen verschiedenen Schichten des Modells, sodass Informationen nicht nur linear, sondern über zahlreiche Kurzverbindungen fließen. Gleichzeitig werden Aktivierungen und Verbindungen auf ein Manifold projiziert, wodurch der effektive Suchraum im Training kleiner wird, die Konvergenz stabiler verläuft und Infrastruktur-Aspekte wie Speicherzugriffe und GPU-Kommunikation mitoptimiert werden.


Welche wirtschaftlichen Auswirkungen hat mHC auf die Trainingskosten großer KI-Modelle?

Durch effizientere Nutzung von GPU-Ressourcen, weniger Trainingsepochen und geringeren Energiebedarf kann mHC sowohl Investitionskosten (CapEx) als auch Betriebskosten (OpEx) deutlich senken. Zudem reduziert sich das Projektrisiko, da einzelne Trainingsläufe weniger kostenintensiv sind und dadurch mehr Iterationen und Experimente wirtschaftlich möglich werden.


Worin unterscheidet sich mHC von klassischen Skalierungsansätzen bei LLMs?

Klassische Ansätze setzen primär auf mehr Parameter, längere Kontexte und größere GPU-Cluster, um Leistung zu steigern. mHC fokussiert dagegen auf die strukturelle Vernetzung der Parameter und deren Anpassung an reale Hardware-Topologien, wodurch sich Effizienz, Stabilität und Skalierbarkeit gleichzeitig verbessern lassen, ohne einfach nur „größer“ zu werden.


Welche Bedeutung hat mHC für Rechenzentren und Cloud-Anbieter?

Für Rechenzentren und Cloud-Anbieter kann mHC den Energiebedarf pro Trainingslauf senken, die Auslastung vorhandener GPU-Flotten verbessern und das Scheduling großer Trainingsjobs flexibler machen. Dadurch lassen sich Kapazitäten besser innerhalb bestehender Strom- und Kühlgrenzen ausbauen und ESG-Ziele wie CO₂-Reduktion gezielter erreichen.


Welche strategischen Chancen bietet mHC Unternehmen mit begrenztem GPU-Zugang?

Unternehmen mit eingeschränktem Zugang zu High-End-GPUs können durch mHC wettbewerbsfähige, spezialisierte Modelle auf moderater oder gemischter Hardware (On-Prem und Cloud) trainieren. Das senkt die Eintrittsbarrieren für domänenspezifische LLMs, etwa in Industrie, Gesundheitswesen oder regulierten Branchen, und macht häufigere Re-Trainings wirtschaftlich machbar.


Was sollten CIOs und CTOs jetzt konkret in ihrer KI-Roadmap anpassen?

CIOs und CTOs sollten ihre Roadmaps von einem „Parameter-First“-Ansatz auf eine „Architektur-First“-Perspektive umstellen und Effizienzarchitekturen wie mHC explizit bewerten. Dazu gehören Pilotprojekte mit effizienzoptimierten Modellen, eine Neukalkulation des GPU-Bedarfs, die Anpassung von Cloud-Verträgen sowie die Integration von KI-spezifischen Energie- und ESG-Kennzahlen in Planung und Reporting.