Mitigate the Gap: Verbesserung der Cross-Modal-Ausrichtung in CLIP
jina-clip-v2: Multilinguale, Multimodale Vektorräume (Embeddings) für Text und Bilder
ReaderLM-V2: Kleines Sprachmodell (SLM) für HTML zu Markdown und JSON
TIPS: Text-Image Pretraining with Spatial Awareness
Cut Cross-Entropy: Memory-Efficient Loss Computation for Large Vocabularies
FlexPrefill: Context-Aware Sparse Attention for Long Sequences
Effektive Post-Training-Komprimierung von 向量模型 (Embeddings) durch Temperaturkontrolle
Attention in Large Language Models Yields Efficient Zero-Shot 重排器 (Re-Rankers)
Überbrückung und Modellierung von Korrelationen in paarweisen Daten für die direkte Präferenzoptimierung
TAID: Temporally Adaptive Interpolated Distillation für effizienten Wissenstransfer
SVD-LLM: Truncation-Aware Singular Value Decomposition zur Komprimierung großer Sprachmodelle
See What You Are Told: Visual Attention Sink in Large Multimodal Models
Towards Semantic Equivalence of Tokenization in Multimodal LLM
Hymba: Eine Hybrid-Head-Architektur für kleine Sprachmodelle
Ereignis
Mai 25, 2025
Was wir auf der ICLR2025 gelernt haben
Wir haben einige der interessantesten Artikel auf der ICLR 2025 zusammengestellt, darunter TIPS, FlexPrefill, Zero-Shot Reranker (Zero-Shot 重排器), SVD-LLM, Hymba usw.
Jina AI • 21 Minuten gelesen
ICLR 2025 ist eine der größten und einflussreichsten Konferenzen für maschinelles Lernen der Welt und steht neben NeurIPS und ICML als eine der drei wichtigsten Plattformen für hochwirksame KI-Forschung. Dieses Jahr war ein historischer Meilenstein, da ICLR zum ersten Mal in Asien stattfand, und zwar vom 24. bis 28. April in der Singapore EXPO. Der Zeitpunkt hätte nicht perfekter sein können – nur wenige Monate nach dem "DeepSeek-Moment" Ende Januar 2025, der Schockwellen durch das Silicon Valley sandte und Chinas rasante Fortschritte in der KI-Forschung demonstrierte. In Kombination mit dem neuen China-Singapur-Abkommen über die gegenseitige Befreiung von der Visumpflicht für 30 Tage, das im Februar 2024 in Kraft trat, erlebten wir einen beispiellosen Anstieg der chinesischen Beteiligung an der Konferenz.
Dieses Jahr freute sich unser Team auf die Reise nach Singapur, wo Sedigheh Eslami, Andreas Koukounas, Wang Feng und CEO Han Xiao drei Forschungsarbeiten präsentierten, die unsere neuesten Forschungen zu jina-clip-v2 und ReaderLM-v2 für eine bessere Suche vorstellen. Während der Rest der KI-Welt in einem Wettrüsten um immer größere Modelle gefangen zu sein scheint, haben wir uns entschieden, gegen den Strom zu schwimmen – und bewiesen, dass kleinere, intelligentere Modelle weit über ihre Verhältnisse hinauswachsen können, wenn man das Design richtig macht.
Nehmen Sie sich also einen Kaffee, machen Sie es sich bequem und lassen Sie uns einige ICLR-Forschungsergebnisse erkunden, die wir interessant fanden – angefangen bei unserer eigenen Sichtweise, warum klein mächtig sein kann.
tagMitigate the Gap: Verbesserung der Cross-Modal-Ausrichtung in CLIP
CLIP-Modelle zeichnen sich bei Bild-Text-Aufgaben aus, leiden aber unter einer "Modalitätslücke" ("modality gap")—Bild- und Text-Vektorräume (Embeddings) gruppieren sich in getrennten Regionen, was die Leistung einschränkt. Diese Arbeit, die von unserer Praktikantin Sedigheh Eslami während ihrer Promotion am Hasso-Plattner-Institut geleitet wurde, befasst sich mit diesem grundlegenden Problem.
Wir haben herausgefunden, dass einfache Vektorraum-Übersetzung die Vektorraum-Struktur aufbricht. Stattdessen verwendet AlignCLIP gemeinsam genutzte Encoder-Parameter mit semantisch regularisierten Trennungszielen. Dieser duale Ansatz reduziert erfolgreich die Modalitätslücke und verbessert gleichzeitig die Leistung bei Zero-Shot- und Feinabstimmungsaufgaben.
Kernaussagen:
Die Modalitätslücke ist ein kritischer CLIP-Leistungsengpass
Dies ist die Arbeit hinter jina-clip-v2, einem multilingualen, multimodalen Vektorraummodell (Embedding), das sowohl reine Text- als auch Crossmodal-Aufgaben mithilfe eines Multi-Task-, Multi-Stage-Contrastive-Learning-Ansatzes unterstützt. Das Modell kombiniert einen Text-Encoder (Jina XLM-RoBERTa, 561 Millionen Parameter) und einen Vision-Encoder (EVA02-L14, 304 Millionen Parameter) für insgesamt 865 Millionen Parameter. Wir trainieren mit multilingualen Texten aus 29 nicht-englischen Sprachen und visuell reichhaltigen Dokumenten und verwenden Matryoshka Representation Learning für eine flexible Vektorraum-Dimensionalität.
Kernaussagen:
Das Mischen von Bild-Text- und Text-Text-Daten in einzelnen Batches mit gemeinsam genutzten Temperaturparametern schneidet aufgrund der Asymmetrie der Modalitätsinformationen schlechter ab als das separate Training.
Das Training für Crossmodal-Alignment beeinträchtigt von Natur aus die reine Text-Vektorraumqualität (Embedding), was einen grundlegenden Kompromiss darstellt.
Das Reduzieren der Vektorräume (Embeddings) von 1.024 auf 256 Dimensionen verursacht weniger als 1 % Leistungsverlust, was eine massive Ineffizienz bei hochdimensionalen Darstellungen aufzeigt.
tagReaderLM-V2: Kleines Sprachmodell (SLM) für HTML zu Markdown und JSON
Dies ist das Paper hinter ReaderLM-v2, einem kompakten Sprachmodell mit 1,5 Milliarden Parametern, das für die effiziente Extraktion von Webinhalten entwickelt wurde. Das Modell verarbeitet Dokumente mit bis zu 512.000 Tokens (Tokens) und wandelt unordentliches HTML in saubere Markdown- oder JSON-Formate um. Unser Ansatz kombiniert eine dreistufige Datensynthese-Pipeline (DRAFT-REFINE-CRITIQUE), die qualitativ hochwertige Trainingsdaten durch iterative Verfeinerung mit einem einheitlichen Trainings-Framework erzeugt, das kontinuierliches Pre-Training, überwachtes Fine-Tuning, Direct Preference Optimization und Self-Play Iterative Tuning kombiniert. ReaderLM-v2 übertrifft GPT-4o und andere größere Modelle auf Benchmarks um 15-20 % und zeichnet sich besonders bei Dokumenten mit mehr als 100.000 Tokens (Tokens) aus, wobei die Rechenanforderungen deutlich geringer sind.
Wichtigste Erkenntnisse:
Ein Modell mit 1,5 Milliarden Parametern übertrifft GPT-4o und 32B-Modelle bei der HTML-Extraktion um 15-20 % und beweist, dass aufgabenspezifisches Fine-Tuning die rohe Skalierung für Domänenexpertise übertrifft.
Das Modell generiert seine eigenen Trainingsdaten in Phase 4 "Self-Play" und erstellt bessere Datensätze als von Menschen kuratierte und verbessert die Leistung kontinuierlich durch rekursives Feedback.
Das Modell litt während des Trainings unter katastrophaler Token-Wiederholung, aber das Hinzufügen von Contrastive Loss, um diskriminative Darstellungen zu fördern, eliminierte dieses Degenerationsproblem vollständig.
tagTIPS: Text-Image Pretraining with Spatial Awareness
Vision-Language-Modelle, die mit kontrastivem Lernen trainiert wurden, zeichnen sich durch globale Bild-Text-Ausrichtung aus, versagen jedoch bei dichten räumlichen Verständnisaufgaben. TIPS kombiniert kontrastives Lernen mit maskierter Bildmodellierung und verwendet synthetisch erzeugte Bildunterschriften, die räumliche Beziehungen kodieren, wodurch Vektormodelle (Embeddings) entstehen, die sowohl für dichtes als auch für globales Verständnis ohne aufgabenspezifisches Fine-Tuning geeignet sind. Der Ansatz zeigt, wie räumliches Bewusstsein in Vektormodelle (Embedding) für ein besseres Dokumentenverständnis und multimodale Retrieval-Anwendungen integriert werden kann.
Wichtigste Erkenntnisse:
Synthetische Bildunterschriften mit räumlichen Beschreibungen liefern reichhaltigere Trainingssignale als verrauschte Web-Bildunterschriften für das Erlernen räumlich bewusster Darstellungen
Die Kombination von kontrastivem Bild-Text-Lernen mit selbstüberwachten Zielen schließt die Lücke zwischen globalem und dichtem Verständnis
Die sofortige Leistung bei verschiedenen Aufgaben macht ein spezialisiertes Fine-Tuning für verschiedene Bildanwendungen überflüssig
tagCut Cross-Entropy: Memory-Efficient Loss Computation for Large Vocabularies
Die Cross-Entropy-Berechnung dominiert die Speichernutzung in Sprachmodellen mit großem Vokabular und erfordert die Materialisierung von Logit-Matrizen proportional zu batch_size × vocabulary_size. CCE reformuliert die Berechnung, um nur die notwendigen Komponenten on-the-fly mithilfe benutzerdefinierter CUDA-Kernel zu berechnen, wodurch der Speicherverbrauch von Gigabyte auf Megabyte reduziert wird, während die identische Trainingsdynamik beibehalten wird. Dies ermöglicht das Trainieren von Vektormodelle (Embedding) und Reranker (Reranking) mit größeren Vokabularen auf begrenzter Hardware, was besonders für mehrsprachige und domänenspezifische Anwendungen von Vorteil ist.
Wichtigste Erkenntnisse:
Die Cross-Entropy-Loss-Berechnung kann 90 % des Trainingsspeichers für Modelle mit großem Vokabular verbrauchen und wird so zum primären Engpass
Die On-the-fly-Berechnung von Log-Sum-Exp-Termen macht die Materialisierung vollständiger Logit-Matrizen ohne mathematische Approximationen überflüssig
Die benutzerdefinierte Kernel-Implementierung ermöglicht eine drastische Speicherreduzierung bei gleichzeitiger Beibehaltung der exakten Konvergenzeigenschaften
tagFlexPrefill: Context-Aware Sparse Attention for Long Sequences
Die Inferenz langer Sequenz-Transformer leidet unter quadratischer Aufmerksamkeitskomplexität. FlexPrefill bestimmt dynamisch spärliche Aufmerksamkeitsmuster pro Kopf unter Verwendung der Jensen-Shannon-Divergenz und weist das Rechenbudget adaptiv basierend auf kumulativen Aufmerksamkeitswerten zu, wodurch erhebliche Geschwindigkeitssteigerungen bei minimalem Genauigkeitsverlust über verschiedene Inhaltstypen hinweg erzielt werden. Die Methode ermöglicht eine effiziente Verarbeitung langer Dokumente für Such- und Abrufsysteme, wodurch kleinere Sprachmodelle längere Kontexte für ein besseres Dokumentenverständnis verarbeiten können.
Kernaussagen:
Dynamische, an den Inhaltstyp angepasste, spärliche Aufmerksamkeitsmuster übertreffen feste Sparsity-Strategien über verschiedene Eingabecharakteristiken hinweg.
Die adaptive Budgetzuweisung pro Kopf basierend auf der Akkumulation von Aufmerksamkeitswerten optimiert die Berechnungsverteilung in Echtzeit.
Kontextbezogene Sparsity erreicht eine 13,7-fache Beschleunigung bei einem Genauigkeitsverlust von 0,1 %, ohne dass ein Modelltraining erforderlich ist.
tagEffektive Post-Training-Komprimierung von 向量模型 (Embeddings) durch Temperaturkontrolle
Die Temperaturskalierung beim kontrastiven Lernen beeinflusst die intrinsische Dimensionalität gelernter 向量模型 (Embeddings) erheblich, wobei niedrigere Temperaturen komprimierbarere Darstellungen erzeugen. Das Papier zeigt, dass Temperaturaggregationsmethoden die Embedding-Dimensionen um eine Größenordnung reduzieren können, während die Abrufleistung erhalten bleibt, was den Kompromiss zwischen Clustering-Effektivität und Abrufgenauigkeit aufzeigt. Dies ermöglicht den effizienten Einsatz von dichten Abrufsystemen, bei denen Speicherbeschränkungen für Produktionsanwendungen von entscheidender Bedeutung sind.
Kernaussagen:
Niedrigere Temperaturwerte beim kontrastiven Training erzeugen 向量模型 (Embeddings) mit geringerer intrinsischer Dimensionalität, die effektiver komprimieren.
Temperaturaggregationstechniken erreichen 10-fache Komprimierungsraten bei minimaler Qualitätsminderung bei Abrufaufgaben.
Die systematische Steuerung der Temperatur während des Trainings bietet einen direkten Mechanismus zur Optimierung des Kompromisses zwischen Komprimierung und Leistung.
tagAttention in Large Language Models Yields Efficient Zero-Shot 重排器 (Re-Rankers)
In-Context Re-ranking (ICR) nutzt Aufmerksamkeitsmusteränderungen in LLMs, um Dokumente ohne Textgenerierung neu zu ordnen, wodurch die Rechenkomplexität von O(N log N) auf O(1) reduziert wird. Die Methode aggregiert Aufmerksamkeitsgewichte über Schichten und Köpfe hinweg, um Relevanzwerte zu berechnen, wobei eine inhaltsfreie Abfragekalibrierung die LLM-Verzerrungen mildert. Dieser Ansatz ermöglicht ein effizientes Re-Ranking mit Open-Weight-Modellen, wodurch keine spezielle Feinabstimmung oder teure Generierungsprozesse erforderlich sind.
Kernaussagen:
Aufmerksamkeitsmuster in LLMs enthalten genügend Signale für ein effektives Dokumenten-Re-Ranking, ohne dass eine Textgenerierung erforderlich ist.
Die inhaltsfreie Abfragekalibrierung mildert erfolgreich intrinsische Verzerrungen in auf Aufmerksamkeit basierenden Bewertungsmechanismen.
ICR erzielt eine überlegene Leistung und Effizienz im Vergleich zu generativen Methoden, insbesondere bei komplexen Multi-Hop-Abrufaufgaben.
tagÜberbrückung und Modellierung von Korrelationen in paarweisen Daten für die direkte Präferenzoptimierung
Das traditionelle DPO leidet unter schwachen Korrelationen zwischen ausgewählten und abgelehnten Antworten in Präferenzpaaren, was die Effektivität des Abgleichs einschränkt. BMC behebt dies, indem es Pseudo-Präferenzantworten synthetisiert, die zwischen Gewinner- und Verliererantworten interpolieren, und dann die Korrelationsmodellierung auf Token-Ebene unter Verwendung der Konfidenz des Richtlinienmodells anwendet. Der zweiphasige Ansatz überbrückt zuerst Präferenzpaare durch gezielte Modifikationen und modelliert dann feinkörnige Korrelationen während des Trainings, um die Qualität des Lernsignals zu verbessern.
Kernaussagen:
Schwache Korrelationen zwischen ausgewählten und abgelehnten Antworten in Präferenzdaten schränken die DPO-Effektivität für den Modellabgleich erheblich ein.
Das Synthetisieren von Pseudo-Präferenzantworten als Interpolationen zwischen Präferenzpaaren liefert reichhaltigere Lernsignale für die Optimierung.
Die Korrelationsmodellierung auf Token-Ebene unter Verwendung der Richtlinienkonfidenz gewichtet dynamisch Trainingssignale, um nuancierte Variationen in den Präferenzdaten zu erfassen.
tagTAID: Temporally Adaptive Interpolated Distillation für effizienten Wissenstransfer
Die Wissensdestillation steht vor Herausforderungen durch Kapazitätslücken, Modusmittelung und Moduskollaps beim Übertragen von Wissen zwischen großen und kleinen Modellen. TAID führt einen dynamischen, intermediären Lehrer ein, der zwischen Schüler- und Lehrerverteilungen interpoliert und die Zielverteilung basierend auf dem Trainingsfortschritt schrittweise anpasst. Dieser Ansatz verhindert den Moduskollaps durch theoretische Garantien und erzielt eine überlegene Leistung über verschiedene Modellgrößen hinweg, wodurch die Entwicklung kompakter, aber leistungsfähiger Sprachmodelle ermöglicht wird.
Kernaussagen:
Dynamische, intermediäre Lehrer, die sich während des Trainings anpassen, bieten im Vergleich zur festen Lehrerdestillation reibungslosere Lerntrajektorien.
TAID verhindert den Moduskollaps durch adaptive Interpolation und gleicht gleichzeitig den Wissenstransfer über verschiedene Kapazitätslücken hinweg aus.
Die Methode ermöglicht das Training hochmoderner, kompakter Modelle, ohne dass spezielle Architekturen oder umfangreiches Hyperparameter-Tuning erforderlich sind.
tagSVD-LLM: Truncation-Aware Singular Value Decomposition zur Komprimierung großer Sprachmodelle
Bestehende SVD-basierte Komprimierungsmethoden berücksichtigen die Eingabeaktivierungen während der Approximation nicht und es fehlt eine Feinabstimmung nach der Trunkierung. SVD-LLM beinhaltet eine trunkierungsbewusste Datenaufhellung, die Aktivierungsverteilungen berücksichtigt, und wendet nach der Komprimierung eine LoRA-basierte Feinabstimmung an. Die Methode stellt theoretische Verbindungen zwischen Singulärwerten und Komprimierungsverlust her und ermöglicht so fundiertere Komprimierungsentscheidungen, die strukturierte Beschneidungs- und Quantisierungsansätze übertreffen.
Kernaussagen:
Die trunkierungsbewusste Datenaufhellung, die Eingabeaktivierungen berücksichtigt, verbessert die SVD-Komprimierungseffektivität im Vergleich zu aktivierungsagnostischen Methoden erheblich.
Die LoRA-Feinabstimmung nach der Komprimierung kompensiert die Genauigkeitsverschlechterung und erhält gleichzeitig die Vorteile der Low-Rank-Faktorisierung.
Die theoretische Analyse, die Singulärwerte mit Komprimierungsverlust in Verbindung bringt, ermöglicht fundierte Trunkierungsentscheidungen, die heuristische Ansätze übertreffen.
tagSee What You Are Told: Visual Attention Sink in Large Multimodal Models
Große multimodale Modelle zeigen ein Phänomen, das als "visueller Attention Sink" bezeichnet wird, bei dem sie konsequent hohen Aufmerksamkeitsgewichten bestimmten visuellen Tokens zuordnen, die für die entsprechenden Text-Tokens irrelevant sind. Diese irrelevanten visuellen Tokens entstehen durch massive Aktivierung in bestimmten Hidden-State-Dimensionen, ähnlich wie bei Attention Sinks in Sprachmodellen. Die Visual Attention Redistribution (VAR)-Methode identifiziert bildzentrierte Aufmerksamkeits-Heads und verteilt das Aufmerksamkeitsbudget von Sink-Tokens auf aussagekräftige visuelle Inhalte um, wodurch die Leistung bei Vision-Language-Aufgaben verbessert wird, ohne dass zusätzliches Training erforderlich ist.
Kernaussagen:
Visuelle Sink-Tokens können durch extreme Aktivierungsstärken in festen Dimensionen identifiziert werden, die von Basis-Sprachmodellen übernommen wurden
Das Entfernen visueller Sink-Tokens hat keine Auswirkungen auf die Modellleistung, obwohl sie hohe Aufmerksamkeitsgewichte erhalten, was auf verschwendete Rechenressourcen hindeutet
VAR verteilt die Aufmerksamkeit von Sink-Tokens auf aussagekräftige visuelle Inhalte um und verbessert so die Leistung bei allgemeinen Vision-Language-, Halluzinationsreduktions- und Vision-zentrierten Aufgaben
tagTowards Semantic Equivalence of Tokenization in Multimodal LLM
Herkömmliche Vision-Tokenisierungs-Methoden in multimodalen LLMs fragmentieren visuellen Input mithilfe fester Patches, wodurch die semantische Integrität beeinträchtigt wird, was zu einer schlechten Vision-Language-Ausrichtung führt. SeTok (Semantic-Equivalent Vision Tokenizer) behebt dies durch dynamisches Clustering, das visuelle Features in kohärente semantische Einheiten gruppiert, wobei die Anzahl der Tokens sich an die Bildkomplexität anpasst. Das System verwendet duale Trainingsziele: Kontrastiver Verlust für die semantische Ausrichtung mit Sprache und Rekonstruktionsverlust, um Details auf Pixelebene für die Bildrekonstruktion zu erhalten.
Wichtigste Erkenntnisse:
Die Tokenisierung mit festen Patches stört die visuelle semantische Integrität, indem sie Objekte über willkürliche Patchgrenzen hinweg fragmentiert
Dynamische Clustering-Algorithmen können die optimale Anzahl von Tokens adaptiv basierend auf der semantischen Bildkomplexität anstelle fester Rasterstrukturen bestimmen
Das duale Zieltraining gleicht die semantische Ausrichtung mit Sprache aus und bewahrt gleichzeitig genügend visuelle Details für Rekonstruktionsaufgaben
tagHymba: Eine Hybrid-Head-Architektur für kleine Sprachmodelle
Hymba führt eine Hybrid-Head-Architektur ein, die Transformer-Aufmerksamkeitsmechanismen mit State-Space-Modellen (SSMs) parallel in jeder Schicht kombiniert, wodurch simultaner hochauflösender Abruf und effiziente Kontextzusammenfassung ermöglicht werden. Die Architektur umfasst lernbare Meta-Tokens, Cross-Layer Key-Value Sharing und Partial Sliding Window Attention, um kompakte Cache-Größen zu erreichen. Hymba-1.5B übertrifft alle Sub-2B-Modelle und übertrifft Llama-3.2-3B, während es eine 11,67-fache Cache-Reduktion und eine 3,49-fache Durchsatzverbesserung erzielt.
Kernaussagen:
Die parallele Hybrid-Head-Architektur übertrifft die sequentielle Stapelung von Aufmerksamkeits- und SSM-Komponenten, da sie die simultane Verarbeitung komplementärer Mechanismen ermöglicht
Lernbare Meta-Tokens fungieren als komprimiertes Weltwissen und verringern die "Forced-to-Attend"-Belastung von Softmax-Aufmerksamkeitsmechanismen
Cross-Layer Key-Value Sharing und Sliding-Window-Attention-Optimierungen erzielen drastische Cache-Größenreduzierungen, ohne die Leistung zu beeinträchtigen