Allen Institute stellt Molmo 2 vor: Offene Multimodal-Modelle für Video- und Multi-Image-Verstehen

17.12.2025

Das Allen Institute for AI (Ai2) hat mit Molmo 2 eine neue Familie offener multimodaler Modelle vorgestellt, die erstmals umfassend Video-, Mehrbild- und Tracking-Funktionen in einem offenen Stack kombiniert. Die kompakten Modelle übertreffen frühere Molmo-Versionen und konkurrieren auf Benchmarks mit proprietären Systemen wie Gemini 3 Pro – bei deutlich weniger Trainingsdaten. Für Unternehmen eröffnet das neue Optionen für kosteneffiziente, transparente Videoanalyse ohne Lock-in in geschlossene APIs.

Allen Institute stellt Molmo 2 vor: Offene Multimodal-Modelle für Video- und Multi-Image-Verstehen

Die Allen Institute for AI (Ai2) hat mit Molmo 2 eine neue Generation offener multimodaler Modelle veröffentlicht, die speziell auf Video- und Multi-Image-Verstehen ausgelegt ist. Im Fokus stehen präzises räumlich-zeitliches Verständnis, Tracking und Pointing – also die Fähigkeit, nicht nur zu beschreiben, was passiert, sondern auch wo und wann es im Bild oder Video geschieht. Damit schließt Molmo 2 eine bislang deutliche Lücke zwischen offenen und proprietären Video-KI-Systemen.

Für Unternehmen ist die Veröffentlichung relevant, weil leistungsfähige Videoanalyse bisher fast ausschließlich über geschlossene Cloud-APIs großer Anbieter verfügbar war. Molmo 2 verschiebt diese Grenze in Richtung offene, eigenbetriebene und anpassbare Modelle – mit unmittelbaren Auswirkungen auf Kosten, Kontrolle über Daten und regulatorische Compliance.


Kontext: Was Molmo 2 ist und was jetzt neu ist


Vom Bild zur zeitlichen Dynamik

Ai2 hatte 2024 mit der ersten Molmo-Generation offene multimodale Modelle für Bildverständnis mit Pointing vorgestellt. Molmo konnte Antworten im Bild verorten, etwa durch Koordinaten oder visuelle Marker – wichtig für Anwendungen, die Nachvollziehbarkeit erfordern.

Molmo 2 erweitert dieses Paradigma nun auf:

  • Videos unterschiedlicher Länge (kurze Clips bis hin zu Long-Video-Szenarien)

  • Multi-Image-Sets, etwa mehrere Kameraperspektiven oder Schritt-für-Schritt-Fotoreihen

  • Gleichzeitige Unterstützung von Video, Einzelbildern und Multi-Image-Sets in einem Modell


Dazu kommen spezialisierte Fähigkeiten wie:

  • Video Tracking: Verfolgung von Objekten über viele Frames, inklusive Wiederauftauchen nach Occlusions

  • Video Pointing: Präzise Pixel- und Zeitstempel-Koordinaten, an denen Ereignisse stattfinden

  • Video Counting: Zählaufgaben über längere Sequenzen hinweg („Wie oft fällt der Ball auf den Boden?“)

  • Dense Captioning: Lange, detailreiche Beschreibungen von Videos mit hunderten Wörtern pro Clip


Modellvarianten

Die Molmo-2-Familie umfasst mehrere Varianten, die unterschiedliche Einsatzprofile adressieren:

  • Molmo 2 (8B) – Qwen-3-basiert


- „Best overall“-Modell für Video Grounding und Fragebeantwortung

- State-of-the-Art unter offenen Modellen auf diversen Video-Tracking- und QA-Benchmarks

  • Molmo 2 (4B) – Qwen-3-basiert


- Stark auf Effizienz optimiert

- Für Workstations und Edge-nahe Szenarien interessant

  • Molmo 2-O (7B) – auf Olmo, dem vollständig offenen LLM von Ai2, aufgebaut


- End-to-End-offene Kette: Vision-Encoder, Connector, Sprachmodell, Trainings-Checkpoints

- Besonders relevant für Forschung, hochregulierte Branchen und Unternehmen mit strengen Governance-Anforderungen

Bemerkenswert ist, dass insbesondere die 8B-Variante den ursprünglichen Molmo-72B-Ansatz in wichtigen Benchmarks übertrifft, obwohl sie deutlich kleiner ist. Gleichzeitig konkurriert Molmo 2 auf Video-Benchmarks mit proprietären Schwergewichten wie Google Gemini 3 Pro und schließt damit eine Lücke, die bei offenen Modellen bisher vor allem im Bereich temporales Verständnis und Grounding bestand.


Offene Daten und Trainingsrezepturen

Parallel zu den Modellen veröffentlicht Ai2 neue, offene Datensätze für:

  • Video-Captioning mit sehr langen Beschreibungen (Molmo2-Cap)

  • Video-QA (inkl. freie Frageformulierung und Untertitel-basierte Fragen)

  • Video Pointing & Video Tracking (Pixel- und Zeitstempel für Objekte und Ereignisse)

  • Multi-Image-Grounding (Bezüge über mehrere Bilder hinweg)


Wichtig aus Unternehmenssicht: Ai2 legt offen, auf welchen Datenarten trainiert wurde, und stellt Rezepte zur Kombination dieser Quellen bereit. Die Lizenzierung (Apache 2.0 plus Einschränkungen für einige Drittquellen) fokussiert zwar Forschung und nicht-kommerzielle Nutzung, dient aber als Blaupause für unternehmenseigene, domänenspezifische Re-Trainings- und Fine-Tuning-Pipelines.


Detaillierte Analyse: Was Molmo 2 für den Markt bedeutet


1. Offene Video-KI rückt in die Nähe proprietärer Systeme

Bislang dominierten geschlossene Modelle wie Gemini-, Sora- oder andere proprietäre Video- und Multimodal-Systeme die Benchmarks für Video-Verstehen. Offene Alternativen waren entweder deutlich schwächer, sehr groß oder auf einzelne Teilaufgaben (z. B. Tracking) spezialisiert.

Molmo 2 markiert hier eine Verschiebung:

  • Starkes Video-Tracking: In intern veröffentlichten Evaluierungen übertrifft Molmo 2 sowohl offene Baselines als auch spezialisierte Tracker und liegt im Tracking vor größeren proprietären Systemen.

  • Kompakte Größe bei hoher Qualität: 4–8 Milliarden Parameter sind im Vergleich zu vielen geschlossenen Giganten klein – dennoch gelingt Molmo 2 ein Performance-Niveau, das für Produktionsszenarien ausreichend ist.

  • Explizites Grounding statt rein textbasierter Antworten: Die Fähigkeit, zeitlich und räumlich zu verorten, wird zunehmend als Standard-Anforderung für Enterprise-Video-KI sichtbar.


Für Unternehmen heißt das: leistungsfähige Videoanalyse ist nicht mehr zwingend an proprietäre Cloud-Dienste gebunden.


2. Daten- und Modelltransparenz als Differenzierungsfaktor

Molmo 2 geht über klassische Open-Source-Veröffentlichungen hinaus:

  • Offene Gewichte: Modelle können lokal oder in der eigenen Cloud betrieben werden.

  • Offene Trainingsrezepturen und neue Datensätze ermöglichen Reproduktion und Audits.

  • Vollständig offene Pipeline bei Molmo 2-O (7B): vom Vision-Encoder bis zum LLM


Gerade in Europa, wo KI-Governance (EU AI Act, Datenschutz, Sektorregulierung) immer stärker ins Gewicht fällt, ist diese Transparenz ein strategischer Vorteil. Unternehmen können begründen und dokumentieren, wie ein System zu seinen Ergebnissen kommt, und im Zweifel Anpassungen an der gesamten Pipeline vornehmen.


3. Effizienz statt „Size at all costs“

Molmo 2 zeigt, dass Datenqualität und spezifische Grounding-Ziele in Teilen wichtiger sind als schiere Datenmenge:

  • Nutzung von rund 9,2 Mio. Videos im Vergleich zu mehreren zig Millionen in Konkurrenzmodellen

  • Starke Gewichtung von Grounding-Daten (Pointing, Tracking, dichte Beschreibungen)

  • Zwei-Stufen-Training mit Fokus auf Kombination aus Sprachfähigkeit, Bildverständnis und zeitlicher Dynamik


Die Botschaft für den Markt: Statt immer größere Universalmodelle zu trainieren, lassen sich mit kuratierten Daten und klaren Zielaufgaben kompakte, spezialisierte Modelle mit hohem Nutzwert aufbauen.


4. Praktische Zugänglichkeit: Playground und API-Perspektive

Ai2 stellt Molmo 2 bereits im eigenen Playground sowie über gängige Modellplattformen bereit. Unternehmen können damit kurzfristig:

  • Proof-of-Concepts fahren (Upload von Videos oder Multi-Image-Sets)

  • Typische Aufgaben wie Zusammenfassung, Zählaufgaben, Tracking oder QA testen

  • Evaluieren, ob die Qualität für ihren Anwendungsfall ausreicht


Eine öffentliche API ist angekündigt, die langfristig als Alternative zu hyperscaler-spezifischen Video-KI-APIs dienen könnte – mit dem Vorteil, dass Unternehmen dank offener Gewichte nicht in einem proprietären Ökosystem gefangen sind.


Praxisnahe Einsatzszenarien und Implikationen


1. Industrielle Inspektion und vorausschauende Wartung

Use Case: Eine Fertigungslinie wird kontinuierlich von Kameras überwacht. Ziel ist es, Anomalien (Fehlbewegungen, Staus, Defekte) früh zu erkennen.

Mit Molmo 2 lässt sich:

  • Objektverfolgung über die gesamte Linie realisieren (z. B. Werkstück-ID über mehrere Stationen hinweg)

  • Zählung und Taktzeitmessung durch temporales Pointing automatisieren (Wie oft stoppt die Linie? Wie lange ist die Station blockiert?)

  • Ereignisse mit genauen Zeit- und Positionsangaben protokollieren, um sie im MES oder im Wartungssystem zu korrelieren


Implikation: Unternehmen können eigene Videoanalyse-Pipelines on-premise aufbauen, ohne permanente Verbindung zu einem externen Cloud-Dienst – ein Pluspunkt für IP-Schutz und Produktionssicherheit.


2. Einzelhandel und Filialnetz-Analytik

Use Case: Ein Handelsunternehmen will Kundenströme, Interaktionen mit Regalen und Warteschlangen in Echtzeit auswerten.

Molmo 2 unterstützt hier:

  • Multi-Image-Reasoning über mehrere Kameras (z. B. Eingangsbereich, Kassenbereich, spezifische Regale)

  • Tracking von Personen oder Objekten über Kameraperspektiven hinweg (z. B. Einkaufswagen, Warenkörbe)

  • Zählaufgaben (Wie viele Kunden verlassen eine Schlange, bevor sie bedient werden?) mit präzisen Zeit- und Ortsreferenzen


Implikation: Das Unternehmen kann sensible Videoanalysen im eigenen Rechenzentrum durchführen und die Rohdaten unter Kontrolle halten – relevant im Hinblick auf Datenschutz und Standortpolitik.


3. Sicherheit, Werkschutz und kritische Infrastrukturen

Use Case: Überwachung kritischer Anlagen (z. B. Energie, Logistik, Chemie) erfordert genaue Nachvollziehbarkeit: Wo genau dringt jemand ein? Welche Bewegungsmuster gehen einem Alarm voraus?

Molmo 2 ermöglicht:

  • Räumlich-zeitlich verortete Ereignislogs für Audits und forensische Analysen

  • Kombination von Text-Alerts ("Unbefugte Person betritt Sperrbereich") mit Koordinaten im Videomaterial

  • Integration mit bestehenden VMS- oder SIEM-Systemen über standardisierte Schnittstellen


Implikation: Betreiber gewinnen eine feinere, erklärbare Ebene über der klassischen Bewegungserkennung – und können diese Ebene in GRC-Frameworks einbetten.


4. Wissensarbeit, Medien und Archivierung

Use Case: Medienhäuser, Bildungsanbieter oder Unternehmen mit großen Videoarchiven wollen Inhalte effizient erschließen.

Molmo 2 bietet:

  • Dichte Video-Captions als Grundlage für semantische Suche („Zeige mir alle Clips, in denen eine rote Maschine nach Wartung auseinandergebaut wird“)

  • Long-Video-QA für lange Inhalte (Trainings, Webinare, Betriebsanleitungen)

  • Kombinierte Analyse aus Untertiteln und Video (z. B. Abgleich gesprochener Inhalte mit tatsächlich gezeigten Handlungen)


Implikation: Video wird in der Unternehmenssuche weitgehend so durchsuchbar wie Text – ohne exklusiv auf proprietäre Indexing-Services angewiesen zu sein.


5. Forschung, Healthcare-Prototyping und Domänen-KI

In Forschung und in stark regulierten Sektoren (z. B. Medizin, Pharma, Energie) sind

  • vollständige Kontrolle der Modelle,

  • Nachvollziehbarkeit der Trainingsdaten und

  • Möglichkeit zu domänenspezifischem Fine-Tuning


entscheidend. Molmo 2-O (7B) ist hier besonders interessant, weil der komplette Stack offenliegt.

Mögliche Szenarien:

  • Prototypische Auswertung von medizinischen Videos (z. B. Endoskopieaufnahmen) innerhalb geschlossener Netze

  • Analysen von Labor- oder Experimentsituationen mit Videoaufzeichnung

  • Aufbau domänenspezifischer Benchmarks und Evaluierungssets basierend auf den offenen Ai2-Datenrezepturen


Business-Relevanz: Was Unternehmen jetzt konkret tun sollten


1. Strategische Einordnung von Video-KI aktualisieren

Unternehmen, die Videoanalyse bisher aus Kostengründen oder wegen Lock-in-Risiko zurückgestellt haben, sollten ihre Roadmaps prüfen. Molmo 2 senkt die Einstiegshürden, insbesondere durch:

  • Kleinere Modellgrößen, die sich auch auf unternehmenseigener Infrastruktur betreiben lassen

  • Offene Gewichte und transparente Trainingsdaten, die Governance- und Compliance-Anforderungen entgegenkommen


Empfehlung: Video-KI nicht mehr nur als „Nice-to-have“-Erweiterung bestehender Text-/Bildsysteme betrachten, sondern als eigenständigen Baustein der Datenstrategie.


2. Technische Machbarkeitsstudien starten

IT- und Data-Science-Teams sollten kurzfristig:

  1. PoC-Szenarien definieren (z. B. 2–3 priorisierte Use Cases je Business Unit)

  2. Molmo 2 (4B oder 8B) in einer isolierten Umgebung evaluieren

  3. Eigene Video-Daten anonymisiert einspeisen und Qualität, Latenz, Hardwarebedarf messen

  4. Alternative offene Modelle und proprietäre APIs dagegen benchmarken (Qualität, Kosten, Integrationsaufwand)


Ziel ist eine faktenbasierte Entscheidung, ob Molmo 2 (oder darauf aufbauende Lösungen) in die mittelfristige Architektur aufgenommen wird.


3. Governance, Datenschutz und IP-Schutz prüfen

Für europäische Unternehmen sind folgende Fragen zentral:

  • Erlauben interne Richtlinien die Nutzung offener Modelle mit Dritt-Datenquellen?

  • Müssen Videoaufnahmen pseudonymisiert oder anderweitig verarbeitet werden, bevor sie durch das Modell laufen?

  • Wie wird dokumentiert, welche Daten zum Fine-Tuning verwendet wurden?


Molmo 2 erleichtert diese Diskussion durch transparente Dokumentation und offene Datenschemata, ersetzt aber nicht die Notwendigkeit, rechtliche und regulatorische Vorgaben sorgfältig zu prüfen.


4. Architekturen für hybride Multimodalität entwerfen

Molmo 2 adressiert vor allem Verstehen (kein Video-Generieren). Viele Unternehmen werden hybride Architekturen brauchen, die kombinieren:

  • Text-LLMs für Wissensfragen und Prosa

  • Bild-/Video-Verständnis (z. B. Molmo 2) für Wahrnehmungssignale

  • Klassische Systeme (Sensorik, Regelwerke, Datenbanken) für deterministische Logik


Empfehlung: Referenzarchitekturen für multimodale Agenten entwerfen, in denen Video-Verstehen als klar definierter Dienst eingebunden ist.


5. Kompetenzen im Bereich Datenkuratierung aufbauen

Molmo 2 verdeutlicht, wie viel Potenzial in hochwertig kuratierten, auf Grounding optimierten Datensätzen steckt. Unternehmen, die langfristig eigene Modelle oder starke Fine-Tunings betreiben wollen, sollten

  • eigene Video-Daten systematisch labeln (Ereignisse, Objekte, Zeitmarken),

  • Tools und Prozesse für Annotation und Qualitätssicherung etablieren,

  • Erfahrungen mit offenen Datenschemata wie denen von Ai2 sammeln.


Fazit: Molmo 2 als Katalysator für offene Videoanalyse

Molmo 2 ist mehr als ein weiterer offener Multimodal-Release. Es markiert einen Wendepunkt, an dem offene Modelle im Bereich Video-Verstehen in Reichweite proprietärer Systeme rücken – bei gleichzeitig deutlich höherer Transparenz und Anpassbarkeit.

Für Unternehmen bedeutet das:

  • Video wird zu einem erstklassigen Datenbürger in der KI-Strategie.

  • Lock-in in geschlossene APIs ist weniger alternativlos.

  • Governance und Compliance sind dank offener Pipelines besser handhabbar.


Zentrale Takeaways für Entscheider

  • Offene Video-KI auf Enterprise-Niveau: Molmo 2 liefert Video-Tracking, Grounding und Multi-Image-Verstehen in einem kompakten, offenen Modell-Stack.

  • Transparenz als Standortvorteil: Vollständige Einsicht in Modelle, Daten und Trainingsrezepte unterstützt europäische Governance- und Compliance-Anforderungen.

  • Kosteneffizienz durch kleinere Modelle: 4B- und 8B-Varianten ermöglichen produktionsnahe Experimente ohne Hyperscaler-abhängige Spezialhardware.

  • Neue Use Cases in Produktion und Sicherheit: Von industrieller Inspektion bis zum Werkschutz werden präzise, erklärbare Videoanalysen praktikabler.

  • Jetzt handeln: Unternehmen sollten kurzfristig PoCs mit Molmo 2 durchführen, hybride Multimodal-Architekturen planen und Kompetenzen in Videodaten-Kuratierung aufbauen.


Häufig gestellte Fragen (FAQ)


Was ist Molmo 2 und worin unterscheidet es sich von früheren Molmo-Versionen?

Molmo 2 ist eine neue Generation offener multimodaler Modelle des Allen Institute for AI, die speziell auf Video-, Multi-Image- und Tracking-Aufgaben ausgelegt ist. Im Vergleich zu früheren, bildzentrierten Molmo-Versionen erweitert Molmo 2 das Verständnis um zeitliche Dynamik, Video-Tracking, Video-Pointing und dichte Video-Captions und übertrifft dabei sogar das frühere Molmo-72B-Modell in wichtigen Benchmarks.


Wie funktioniert das Video- und Multi-Image-Verstehen von Molmo 2 technisch?

Molmo 2 kombiniert einen Vision-Encoder mit einem Sprachmodell und ist darauf trainiert, Bild- und Videoinhalte räumlich und zeitlich zu verorten. Es kann Objekte über viele Frames verfolgen, Ereignisse mit Pixel- und Zeitstempel-Koordinaten markieren, Zählaufgaben über ganze Sequenzen lösen und über mehrere Bilder hinweg konsistent referenzieren.


Welche konkreten Vorteile bietet Molmo 2 Unternehmen gegenüber proprietären Video-KI-APIs?

Unternehmen profitieren von offenen Gewichten, hoher Transparenz der Trainingsdaten und Rezepturen sowie der Möglichkeit, Modelle on-premise oder in der eigenen Cloud zu betreiben. Dadurch sinken Lock-in-Risiken, Daten lassen sich besser unter Governance- und Compliance-Vorgaben kontrollieren und Kosten können durch kleinere, effizientere Modelle reduziert werden.


Was ist der Unterschied zwischen den Modellen Molmo 2 (8B), Molmo 2 (4B) und Molmo 2-O (7B)?

Molmo 2 (8B) ist das leistungsstärkste Qwen-3-basierte Modell für Video-Grounding und Fragebeantwortung und zielt auf maximale Qualität. Molmo 2 (4B) ist stärker auf Effizienz und ressourcenschonenden Einsatz auf Workstations oder Edge-Geräten optimiert, während Molmo 2-O (7B) auf dem vollständig offenen Olmo-LLM basiert und eine komplett offene Pipeline für Forschung und streng regulierte Branchen bietet.


Welche praktischen Einsatzszenarien lassen sich mit Molmo 2 in Unternehmen umsetzen?

Typische Szenarien sind industrielle Inspektion und vorausschauende Wartung, Retail-Analytics mit Multi-Kamera-Setups, Sicherheits- und Werkschutzanwendungen sowie Medien- und Wissensmanagement für große Videoarchive. In all diesen Fällen ermöglicht Molmo 2 erklärbare Videoanalyse mit Tracking, Zählung, genauer Ereignisverortung und dichten Beschreibungen, ohne dass Rohvideos das eigene Rechenzentrum verlassen müssen.


Wie wirkt sich Molmo 2 auf Governance, Datenschutz und regulatorische Anforderungen aus?

Durch offene Gewichte, dokumentierte Trainingsdaten und veröffentlichte Datenschemata erleichtert Molmo 2 Audits, Nachvollziehbarkeit und die Einbettung in Governance-Frameworks, etwa im Kontext des EU AI Acts. Unternehmen behalten die Kontrolle über ihre Videodaten, können Pseudonymisierung und eigene Fine-Tunings nachweisen und sind weniger von den undurchsichtigen Trainingspipelines proprietärer Anbieter abhängig.


Was sollten Unternehmen jetzt konkret tun, wenn sie Molmo 2 evaluieren möchten?

Unternehmen sollten gezielt 2–3 priorisierte Video-Use-Cases definieren, Molmo 2 (4B oder 8B) in einer isolierten Testumgebung auf eigener Hardware ausprobieren und dabei Qualität, Latenz und Ressourceneinsatz messen. Parallel empfiehlt sich ein Benchmarking gegen alternative offene Modelle und proprietäre APIs sowie die Prüfung interner Richtlinien zu Datenschutz, IP-Schutz und dem Einsatz offener KI-Modelle.