Pressemitteilungen
Modelle
Produkte
keyboard_arrow_down
Leser
Lesen Sie URLs und suchen Sie im Internet nach fundierteren LLMs.
Einbettungen
Multimodale und mehrsprachige Einbettungen von Weltklasse.
Reranker
Neural Retriever der Weltklasse zur Maximierung der Suchrelevanz.
DeepSearch
Suchen, lesen und überlegen, bis die beste Antwort gefunden ist.
Mehr
keyboard_arrow_down
Klassifikator
Zero-Shot- und Few-Shot-Klassifizierung für Bild und Text.
Segmentierer
Schneiden Sie langen Text in Abschnitte und führen Sie eine Tokenisierung durch.

API-Dokumente
Automatische Codegenerierung für Ihre Copilot-IDE oder LLM
open_in_new


Unternehmen
keyboard_arrow_down
Über uns
Kontaktieren Sie unseren Vertrieb
Praktikantenprogramm
Begleiten Sie uns
open_in_new
Logo herunterladen
open_in_new
Terms & amp; Bedingungen


Einloggen
login
Mitigate the Gap: Verbesserung der Cross-Modal-Ausrichtung in CLIP
jina-clip-v2: Multilinguale, Multimodale Vektorräume (Embeddings) für Text und Bilder
ReaderLM-V2: Kleines Sprachmodell (SLM) für HTML zu Markdown und JSON
TIPS: Text-Image Pretraining with Spatial Awareness
Cut Cross-Entropy: Memory-Efficient Loss Computation for Large Vocabularies
FlexPrefill: Context-Aware Sparse Attention for Long Sequences
Effektive Post-Training-Komprimierung von 向量模型 (Embeddings) durch Temperaturkontrolle
Attention in Large Language Models Yields Efficient Zero-Shot 重排器 (Re-Rankers)
Überbrückung und Modellierung von Korrelationen in paarweisen Daten für die direkte Präferenzoptimierung
TAID: Temporally Adaptive Interpolated Distillation für effizienten Wissenstransfer
SVD-LLM: Truncation-Aware Singular Value Decomposition zur Komprimierung großer Sprachmodelle
See What You Are Told: Visual Attention Sink in Large Multimodal Models
Towards Semantic Equivalence of Tokenization in Multimodal LLM
Hymba: Eine Hybrid-Head-Architektur für kleine Sprachmodelle
Ereignis
Mai 25, 2025

Was wir auf der ICLR2025 gelernt haben

Wir haben einige der interessantesten Artikel auf der ICLR 2025 zusammengestellt, darunter TIPS, FlexPrefill, Zero-Shot Reranker (Zero-Shot 重排器), SVD-LLM, Hymba usw.
Jina AI
Jina AI • 21 Minuten gelesen

ICLR 2025 ist eine der größten und einflussreichsten Konferenzen für maschinelles Lernen der Welt und steht neben NeurIPS und ICML als eine der drei wichtigsten Plattformen für hochwirksame KI-Forschung. Dieses Jahr war ein historischer Meilenstein, da ICLR zum ersten Mal in Asien stattfand, und zwar vom 24. bis 28. April in der Singapore EXPO. Der Zeitpunkt hätte nicht perfekter sein können – nur wenige Monate nach dem "DeepSeek-Moment" Ende Januar 2025, der Schockwellen durch das Silicon Valley sandte und Chinas rasante Fortschritte in der KI-Forschung demonstrierte. In Kombination mit dem neuen China-Singapur-Abkommen über die gegenseitige Befreiung von der Visumpflicht für 30 Tage, das im Februar 2024 in Kraft trat, erlebten wir einen beispiellosen Anstieg der chinesischen Beteiligung an der Konferenz.

Dieses Jahr freute sich unser Team auf die Reise nach Singapur, wo Sedigheh Eslami, Andreas Koukounas, Wang Feng und CEO Han Xiao drei Forschungsarbeiten präsentierten, die unsere neuesten Forschungen zu jina-clip-v2 und ReaderLM-v2 für eine bessere Suche vorstellen. Während der Rest der KI-Welt in einem Wettrüsten um immer größere Modelle gefangen zu sein scheint, haben wir uns entschieden, gegen den Strom zu schwimmen – und bewiesen, dass kleinere, intelligentere Modelle weit über ihre Verhältnisse hinauswachsen können, wenn man das Design richtig macht.

Nehmen Sie sich also einen Kaffee, machen Sie es sich bequem und lassen Sie uns einige ICLR-Forschungsergebnisse erkunden, die wir interessant fanden – angefangen bei unserer eigenen Sichtweise, warum klein mächtig sein kann.

tagMitigate the Gap: Verbesserung der Cross-Modal-Ausrichtung in CLIP

Mitigate the Gap: Investigating Approaches for Improving Cross-Modal Alignment in CLIP
Contrastive Language--Image Pre-training (CLIP) has manifested remarkable improvements in zero-shot classification and cross-modal vision-language tasks. Yet, from a geometrical point of view, the CLIP embedding space has been found to have a pronounced modality gap. This gap renders the embedding space overly sparse and disconnected, with different modalities being densely distributed in distinct subregions of the hypersphere. In this work, we aim at answering three main questions: 1. Does sharing the parameter space between the multi-modal encoders reduce the modality gap? 2. Can the gap be mitigated by pushing apart the uni-modal embeddings via intra-modality separation? 3. How do these gap reduction approaches affect the downstream performance? We design AlignCLIP, in order to answer these questions and through extensive experiments, we show that AlignCLIP achieves noticeable enhancements in the cross-modal alignment of the embeddings, and thereby, reduces the modality gap, while improving the performance across several zero-shot and fine-tuning downstream evaluations.
arXiv.orgSedigheh Eslami

CLIP-Modelle zeichnen sich bei Bild-Text-Aufgaben aus, leiden aber unter einer "Modalitätslücke" ("modality gap")—Bild- und Text-Vektorräume (Embeddings) gruppieren sich in getrennten Regionen, was die Leistung einschränkt. Diese Arbeit, die von unserer Praktikantin Sedigheh Eslami während ihrer Promotion am Hasso-Plattner-Institut geleitet wurde, befasst sich mit diesem grundlegenden Problem.

Wir haben herausgefunden, dass einfache Vektorraum-Übersetzung die Vektorraum-Struktur aufbricht. Stattdessen verwendet AlignCLIP gemeinsam genutzte Encoder-Parameter mit semantisch regularisierten Trennungszielen. Dieser duale Ansatz reduziert erfolgreich die Modalitätslücke und verbessert gleichzeitig die Leistung bei Zero-Shot- und Feinabstimmungsaufgaben.

Kernaussagen:

  • Die Modalitätslücke ist ein kritischer CLIP-Leistungsengpass
  • Parameter Sharing + Semantische Trennung überbrücken effektiv modale Unterschiede
  • Der Ansatz liefert messbare Gewinne bei Downstream-Evaluierungen

tagjina-clip-v2: Multilinguale, Multimodale Vektorräume (Embeddings) für Text und Bilder

jina-clip-v2: Multilingual Multimodal Embeddings for Text and Images
Contrastive Language-Image Pretraining (CLIP) has been widely used for crossmodal information retrieval and multimodal understanding tasks. However, CLIP models are mainly optimized for crossmodal vision-language tasks and underperform in single-mode text tasks. Moreover, these models are often trained on English datasets and therefore lack multilingual understanding. Additionally, from a visual understanding perspective, previous CLIP-based models exhibit insufficient understanding of visually rich documents. In this work, we propose jina-clip-v2, a contrastive vision-language model trained on text pairs, triplets and image-text pairs via a multi-task and multi-stage contrastive learning paradigm in order to support both text-only and crossmodal tasks. We employ a multilingual text encoder and expand the training dataset to include multilingual texts from 29 non-English languages, including Hindi, Chinese, German, French, and others, as well as images of visually rich documents. We evaluate the model’s performance and show that jina-clip-v2 achieves notable improvements over state-of-the-art CLIP-based models in zero-shot text-only retrieval, semantic textual similarity, and crossmodal retrieval tasks in both English and multilingual settings. jina-clip-v2 also provides for flexibility in embedding dimensionality, enabling users to select the granularity of the representations. jina-clip-v2 is publicly available at https://huggingface.co/jinaai/jina-clip-v2.
arXiv.orgAndreas Koukounas

Dies ist die Arbeit hinter jina-clip-v2, einem multilingualen, multimodalen Vektorraummodell (Embedding), das sowohl reine Text- als auch Crossmodal-Aufgaben mithilfe eines Multi-Task-, Multi-Stage-Contrastive-Learning-Ansatzes unterstützt. Das Modell kombiniert einen Text-Encoder (Jina XLM-RoBERTa, 561 Millionen Parameter) und einen Vision-Encoder (EVA02-L14, 304 Millionen Parameter) für insgesamt 865 Millionen Parameter. Wir trainieren mit multilingualen Texten aus 29 nicht-englischen Sprachen und visuell reichhaltigen Dokumenten und verwenden Matryoshka Representation Learning für eine flexible Vektorraum-Dimensionalität.

Kernaussagen:

  • Das Mischen von Bild-Text- und Text-Text-Daten in einzelnen Batches mit gemeinsam genutzten Temperaturparametern schneidet aufgrund der Asymmetrie der Modalitätsinformationen schlechter ab als das separate Training.
  • Das Training für Crossmodal-Alignment beeinträchtigt von Natur aus die reine Text-Vektorraumqualität (Embedding), was einen grundlegenden Kompromiss darstellt.
  • Das Reduzieren der Vektorräume (Embeddings) von 1.024 auf 256 Dimensionen verursacht weniger als 1 % Leistungsverlust, was eine massive Ineffizienz bei hochdimensionalen Darstellungen aufzeigt.

tagReaderLM-V2: Kleines Sprachmodell (SLM) für HTML zu Markdown und JSON

ReaderLM-v2: Small Language Model for HTML to Markdown and JSON
We present ReaderLM-v2, a compact 1.5 billion parameter language model designed for efficient web content extraction. Our model processes documents up to 512K tokens, transforming messy HTML into clean Markdown or JSON formats with high accuracy -- making it an ideal tool for grounding large language models. The model’s effectiveness results from two key innovations: (1) a three-stage data synthesis pipeline that generates high quality, diverse training data by iteratively drafting, refining, and critiquing web content extraction; and (2) a unified training framework combining continuous pre-training with multi-objective optimization. Intensive evaluation demonstrates that ReaderLM-v2 outperforms GPT-4o-2024-08-06 and other larger models by 15-20\% on carefully curated benchmarks, particularly excelling at documents exceeding 100K tokens, while maintaining significantly lower computational requirements.
arXiv.orgFeng Wang

Dies ist das Paper hinter ReaderLM-v2, einem kompakten Sprachmodell mit 1,5 Milliarden Parametern, das für die effiziente Extraktion von Webinhalten entwickelt wurde. Das Modell verarbeitet Dokumente mit bis zu 512.000 Tokens (Tokens) und wandelt unordentliches HTML in saubere Markdown- oder JSON-Formate um. Unser Ansatz kombiniert eine dreistufige Datensynthese-Pipeline (DRAFT-REFINE-CRITIQUE), die qualitativ hochwertige Trainingsdaten durch iterative Verfeinerung mit einem einheitlichen Trainings-Framework erzeugt, das kontinuierliches Pre-Training, überwachtes Fine-Tuning, Direct Preference Optimization und Self-Play Iterative Tuning kombiniert. ReaderLM-v2 übertrifft GPT-4o und andere größere Modelle auf Benchmarks um 15-20 % und zeichnet sich besonders bei Dokumenten mit mehr als 100.000 Tokens (Tokens) aus, wobei die Rechenanforderungen deutlich geringer sind.

Wichtigste Erkenntnisse:

  • Ein Modell mit 1,5 Milliarden Parametern übertrifft GPT-4o und 32B-Modelle bei der HTML-Extraktion um 15-20 % und beweist, dass aufgabenspezifisches Fine-Tuning die rohe Skalierung für Domänenexpertise übertrifft.
  • Das Modell generiert seine eigenen Trainingsdaten in Phase 4 "Self-Play" und erstellt bessere Datensätze als von Menschen kuratierte und verbessert die Leistung kontinuierlich durch rekursives Feedback.
  • Das Modell litt während des Trainings unter katastrophaler Token-Wiederholung, aber das Hinzufügen von Contrastive Loss, um diskriminative Darstellungen zu fördern, eliminierte dieses Degenerationsproblem vollständig.

tagTIPS: Text-Image Pretraining with Spatial Awareness

TIPS: Text-Image Pretraining with Spatial awareness
While image-text representation learning has become very popular in recent years, existing models tend to lack spatial awareness and have limited direct applicability for dense understanding tasks. For this reason, self-supervised image-only pretraining is still the go-to method for many dense vision applications (e.g. depth estimation, semantic segmentation), despite the lack of explicit supervisory signals. In this paper, we close this gap between image-text and self-supervised learning, by proposing a novel general-purpose image-text model, which can be effectively used off the shelf for dense and global vision tasks. Our method, which we refer to as Text-Image Pretraining with Spatial awareness (TIPS), leverages two simple and effective insights. First, on textual supervision: we reveal that replacing noisy web image captions by synthetically generated textual descriptions boosts dense understanding performance significantly, due to a much richer signal for learning spatially aware representations. We propose an adapted training method that combines noisy and synthetic captions, resulting in improvements across both dense and global understanding tasks. Second, on the learning technique: we propose to combine contrastive image-text learning with self-supervised masked image modeling, to encourage spatial coherence, unlocking substantial enhancements for downstream applications. Building on these two ideas, we scale our model using the transformer architecture, trained on a curated set of public images. Our experiments are conducted on 8 tasks involving 16 datasets in total, demonstrating strong off-the-shelf performance on both dense and global understanding, for several image-only and image-text tasks. Code and models are released at https://github.com/google-deepmind/tips.
arXiv.orgKevis-Kokitsi Maninis

Vision-Language-Modelle, die mit kontrastivem Lernen trainiert wurden, zeichnen sich durch globale Bild-Text-Ausrichtung aus, versagen jedoch bei dichten räumlichen Verständnisaufgaben. TIPS kombiniert kontrastives Lernen mit maskierter Bildmodellierung und verwendet synthetisch erzeugte Bildunterschriften, die räumliche Beziehungen kodieren, wodurch Vektormodelle (Embeddings) entstehen, die sowohl für dichtes als auch für globales Verständnis ohne aufgabenspezifisches Fine-Tuning geeignet sind. Der Ansatz zeigt, wie räumliches Bewusstsein in Vektormodelle (Embedding) für ein besseres Dokumentenverständnis und multimodale Retrieval-Anwendungen integriert werden kann.

Wichtigste Erkenntnisse:

  • Synthetische Bildunterschriften mit räumlichen Beschreibungen liefern reichhaltigere Trainingssignale als verrauschte Web-Bildunterschriften für das Erlernen räumlich bewusster Darstellungen
  • Die Kombination von kontrastivem Bild-Text-Lernen mit selbstüberwachten Zielen schließt die Lücke zwischen globalem und dichtem Verständnis
  • Die sofortige Leistung bei verschiedenen Aufgaben macht ein spezialisiertes Fine-Tuning für verschiedene Bildanwendungen überflüssig

tagCut Cross-Entropy: Memory-Efficient Loss Computation for Large Vocabularies

Cut Your Losses in Large-Vocabulary Language Models
As language models grow ever larger, so do their vocabularies. This has shifted the memory footprint of LLMs during training disproportionately to one single layer: the cross-entropy in the loss computation. Cross-entropy builds up a logit matrix with entries for each pair of input tokens and vocabulary items and, for small models, consumes an order of magnitude more memory than the rest of the LLM combined. We propose Cut Cross-Entropy (CCE), a method that computes the cross-entropy loss without materializing the logits for all tokens into global memory. Rather, CCE only computes the logit for the correct token and evaluates the log-sum-exp over all logits on the fly. We implement a custom kernel that performs the matrix multiplications and the log-sum-exp reduction over the vocabulary in flash memory, making global memory consumption for the cross-entropy computation negligible. This has a dramatic effect. Taking the Gemma 2 (2B) model as an example, CCE reduces the memory footprint of the loss computation from 24 GB to 1 MB, and the total training-time memory consumption of the classifier head from 28 GB to 1 GB. To improve the throughput of CCE, we leverage the inherent sparsity of softmax and propose to skip elements of the gradient computation that have a negligible (i.e., below numerical precision) contribution to the gradient. Experiments demonstrate that the dramatic reduction in memory consumption is accomplished without sacrificing training speed or convergence.
arXiv.orgErik Wijmans

Die Cross-Entropy-Berechnung dominiert die Speichernutzung in Sprachmodellen mit großem Vokabular und erfordert die Materialisierung von Logit-Matrizen proportional zu batch_size × vocabulary_size. CCE reformuliert die Berechnung, um nur die notwendigen Komponenten on-the-fly mithilfe benutzerdefinierter CUDA-Kernel zu berechnen, wodurch der Speicherverbrauch von Gigabyte auf Megabyte reduziert wird, während die identische Trainingsdynamik beibehalten wird. Dies ermöglicht das Trainieren von Vektormodelle (Embedding) und Reranker (Reranking) mit größeren Vokabularen auf begrenzter Hardware, was besonders für mehrsprachige und domänenspezifische Anwendungen von Vorteil ist.

Wichtigste Erkenntnisse:

  • Die Cross-Entropy-Loss-Berechnung kann 90 % des Trainingsspeichers für Modelle mit großem Vokabular verbrauchen und wird so zum primären Engpass
  • Die On-the-fly-Berechnung von Log-Sum-Exp-Termen macht die Materialisierung vollständiger Logit-Matrizen ohne mathematische Approximationen überflüssig
  • Die benutzerdefinierte Kernel-Implementierung ermöglicht eine drastische Speicherreduzierung bei gleichzeitiger Beibehaltung der exakten Konvergenzeigenschaften

tagFlexPrefill: Context-Aware Sparse Attention for Long Sequences

FlexPrefill: A Context-Aware Sparse Attention Mechanism for Efficient Long-Sequence Inference
Große Sprachmodelle (LLMs) stoßen bei der Inferenz langer Sequenzen auf rechnerische Herausforderungen, insbesondere in der Attention-Pre-Filling-Phase, in der die Komplexität quadratisch mit der Prompt-Länge wächst. Bisherige Bemühungen zur Abschwächung dieser Herausforderungen stützten sich auf feste spärliche Aufmerksamkeitsmuster oder die Identifizierung spärlicher Aufmerksamkeitsmuster basierend auf begrenzten Fällen. Diesen Methoden fehlte es jedoch an Flexibilität, um sich effizient an unterschiedliche Input-Anforderungen anzupassen. In diesem Artikel stellen wir FlexPrefill vor, einen flexiblen spärlichen Pre-Filling-Mechanismus, der spärliche Aufmerksamkeitsmuster und das Rechenbudget in Echtzeit dynamisch anpasst, um die spezifischen Anforderungen jedes Inputs und Aufmerksamkeitskopfes zu erfüllen. Die Flexibilität unserer Methode wird durch zwei wichtige Innovationen demonstriert: 1) Query-Aware Sparse Pattern Determination: Durch die Messung der Jensen-Shannon-Divergenz wechselt diese Komponente adaptiv zwischen abfragespezifischen diversen Aufmerksamkeitsmustern und vordefinierten Aufmerksamkeitsmustern. 2) Cumulative-Attention Based Index Selection: Diese Komponente wählt dynamisch Query-Key-Indizes aus, die basierend auf verschiedenen Aufmerksamkeitsmustern berechnet werden sollen, um sicherzustellen, dass die Summe der Aufmerksamkeitswerte einen vordefinierten Schwellenwert erfüllt. FlexPrefill optimiert adaptiv das spärliche Muster und das spärliche Verhältnis jedes Aufmerksamkeitskopfes basierend auf dem Prompt, wodurch die Effizienz bei Inferenzaufgaben mit langen Sequenzen erhöht wird. Die experimentellen Ergebnisse zeigen deutliche Verbesserungen sowohl in der Geschwindigkeit als auch in der Genauigkeit gegenüber früheren Methoden und bieten eine flexiblere und effizientere Lösung für die LLM-Inferenz.
arXiv.orgXunhao Lai

Die Inferenz langer Sequenz-Transformer leidet unter quadratischer Aufmerksamkeitskomplexität. FlexPrefill bestimmt dynamisch spärliche Aufmerksamkeitsmuster pro Kopf unter Verwendung der Jensen-Shannon-Divergenz und weist das Rechenbudget adaptiv basierend auf kumulativen Aufmerksamkeitswerten zu, wodurch erhebliche Geschwindigkeitssteigerungen bei minimalem Genauigkeitsverlust über verschiedene Inhaltstypen hinweg erzielt werden. Die Methode ermöglicht eine effiziente Verarbeitung langer Dokumente für Such- und Abrufsysteme, wodurch kleinere Sprachmodelle längere Kontexte für ein besseres Dokumentenverständnis verarbeiten können.

Kernaussagen:

  • Dynamische, an den Inhaltstyp angepasste, spärliche Aufmerksamkeitsmuster übertreffen feste Sparsity-Strategien über verschiedene Eingabecharakteristiken hinweg.
  • Die adaptive Budgetzuweisung pro Kopf basierend auf der Akkumulation von Aufmerksamkeitswerten optimiert die Berechnungsverteilung in Echtzeit.
  • Kontextbezogene Sparsity erreicht eine 13,7-fache Beschleunigung bei einem Genauigkeitsverlust von 0,1 %, ohne dass ein Modelltraining erforderlich ist.

tagEffektive Post-Training-Komprimierung von 向量模型 (Embeddings) durch Temperaturkontrolle

Effektive Post-Training-Komprimierung von 向量模型 (Embeddings) durch Temperatur...
Gelernte Darstellungen fester Größe (dichte Darstellungen oder 向量模型 (Embeddings)) werden in vielen Anwendungen des maschinellen Lernens in den Bereichen Sprache, Sehen oder Sprache häufig verwendet. In diesem Artikel wird untersucht…
OpenReview.netGeorgiana Dinu

Die Temperaturskalierung beim kontrastiven Lernen beeinflusst die intrinsische Dimensionalität gelernter 向量模型 (Embeddings) erheblich, wobei niedrigere Temperaturen komprimierbarere Darstellungen erzeugen. Das Papier zeigt, dass Temperaturaggregationsmethoden die Embedding-Dimensionen um eine Größenordnung reduzieren können, während die Abrufleistung erhalten bleibt, was den Kompromiss zwischen Clustering-Effektivität und Abrufgenauigkeit aufzeigt. Dies ermöglicht den effizienten Einsatz von dichten Abrufsystemen, bei denen Speicherbeschränkungen für Produktionsanwendungen von entscheidender Bedeutung sind.

Kernaussagen:

  • Niedrigere Temperaturwerte beim kontrastiven Training erzeugen 向量模型 (Embeddings) mit geringerer intrinsischer Dimensionalität, die effektiver komprimieren.
  • Temperaturaggregationstechniken erreichen 10-fache Komprimierungsraten bei minimaler Qualitätsminderung bei Abrufaufgaben.
  • Die systematische Steuerung der Temperatur während des Trainings bietet einen direkten Mechanismus zur Optimierung des Kompromisses zwischen Komprimierung und Leistung.

tagAttention in Large Language Models Yields Efficient Zero-Shot 重排器 (Re-Rankers)

Attention in Large Language Models Yields Efficient Zero-Shot 重排器 (Re-Rankers)
Information Retrieval (IR)-Systeme haben eine wichtige Rolle im modernen digitalen Leben gespielt und ihre anhaltende Nützlichkeit in dieser neuen Ära der generativen KI durch Retrieval-Augmented Generation gefestigt. Mit starken Sprachverarbeitungsfähigkeiten und bemerkenswerter Vielseitigkeit sind große Sprachmodelle (LLMs) zu beliebten Optionen für das Zero-Shot-Re-Ranking in IR-Systemen geworden. Bisher basieren LLM-basierte Re-Ranking-Methoden auf starken generativen Fähigkeiten, was ihre Verwendung auf spezialisierte oder leistungsstarke proprietäre Modelle beschränkt. Angesichts dieser Einschränkungen fragen wir: Ist autoregressive Generierung für LLMs notwendig und optimal, um Re-Ranking durchzuführen? Wir nehmen an, dass es innerhalb von LLMs reichlich Signale gibt, die für das Re-Ranking relevant sind und die durch die Generierung möglicherweise nicht vollständig genutzt werden. Um solche Signale direkter zu nutzen, schlagen wir In-Context Re-Ranking (ICR) vor, eine neuartige Methode, die die Änderung des Aufmerksamkeitsmusters nutzt, die durch die Suchanfrage für ein genaues und effizientes Re-Ranking verursacht wird. Um die intrinsischen Verzerrungen in LLMs zu mildern, schlagen wir eine Kalibrierungsmethode unter Verwendung einer inhaltsfreien Abfrage vor. Aufgrund des Fehlens einer Generierung benötigt ICR nur zwei (O(1)O(1)O(1)) Vorwärtsdurchläufe, um NNN Dokumente neu zu ordnen, was es erheblich effizienter macht als generative Re-Ranking-Methoden, die mindestens O(N)O(N)O(N) Vorwärtsdurchläufe erfordern. Unser neuartiges Design ermöglicht es auch, ICR auf jedes LLM ohne spezielle Schulung anzuwenden und gleichzeitig ein wohlgeformtes Ranking zu gewährleisten. Umfangreiche Experimente mit zwei gängigen Open-Weight-LLMs auf standardmäßigen Single-Hop- und Multi-Hop-Information-Retrieval-Benchmarks zeigen, dass ICR RankGPT übertrifft und gleichzeitig die Latenz in der Praxis um mehr als 60 % reduziert. Durch detaillierte Analysen zeigen wir, dass die Leistung von ICR besonders stark bei Aufgaben ist, die komplexere Re-Ranking-Signale erfordern. Unsere Ergebnisse fordern weitere Untersuchungen zu neuartigen Wegen der Nutzung von Open-Weight-LLMs über die Textgenerierung hinaus.
arXiv.orgShijie Chen

In-Context Re-ranking (ICR) nutzt Aufmerksamkeitsmusteränderungen in LLMs, um Dokumente ohne Textgenerierung neu zu ordnen, wodurch die Rechenkomplexität von O(N log N) auf O(1) reduziert wird. Die Methode aggregiert Aufmerksamkeitsgewichte über Schichten und Köpfe hinweg, um Relevanzwerte zu berechnen, wobei eine inhaltsfreie Abfragekalibrierung die LLM-Verzerrungen mildert. Dieser Ansatz ermöglicht ein effizientes Re-Ranking mit Open-Weight-Modellen, wodurch keine spezielle Feinabstimmung oder teure Generierungsprozesse erforderlich sind.

Kernaussagen:

  • Aufmerksamkeitsmuster in LLMs enthalten genügend Signale für ein effektives Dokumenten-Re-Ranking, ohne dass eine Textgenerierung erforderlich ist.
  • Die inhaltsfreie Abfragekalibrierung mildert erfolgreich intrinsische Verzerrungen in auf Aufmerksamkeit basierenden Bewertungsmechanismen.
  • ICR erzielt eine überlegene Leistung und Effizienz im Vergleich zu generativen Methoden, insbesondere bei komplexen Multi-Hop-Abrufaufgaben.

tagÜberbrückung und Modellierung von Korrelationen in paarweisen Daten für die direkte Präferenzoptimierung

Überbrückung und Modellierung von Korrelationen in paarweisen Daten für die direkte Präferenzoptimierung
Direct Preference Optimization (DPO), ein weit verbreiteter Offline-Präferenzoptimierungsalgorithmus, zielt darauf ab, große Sprachmodelle (LLMs) mit den vom Menschen gewünschten Verhaltensweisen mithilfe von paarweisen Präferenzdaten abzugleichen. Die Generierung der Gewinner- und Verliererantwort innerhalb der paarweisen Daten erfolgt jedoch typischerweise isoliert, was zu schwachen Korrelationen zwischen ihnen sowie zu einer suboptimalen Abgleichsleistung führt. Um dieses Problem zu beheben, schlagen wir einen effektiven Rahmen für die Überbrückung und Modellierung von Korrelationen in paarweisen Daten vor, genannt BMC. Erstens erhöhen wir die Konsistenz und Aussagekraft der paarweisen Präferenzsignale durch gezielte Modifikationen, indem wir eine Pseudo-Gewinnerantwort synthetisieren, indem wir die Verliererantwort mit der Gewinnerantwort als Referenz verbessern. Zweitens stellen wir fest, dass DPO allein nicht ausreicht, um diese Korrelationen zu modellieren und nuancierte Variationen zu erfassen. Daher schlagen wir vor, Korrelationen auf Token-Ebene zu lernen, indem wir während des Trainings dynamisch die Konfidenz des Richtlinienmodells nutzen. Umfassende Experimente zu QA-, Mathematik- und Anweisungsbefolgungsaufgaben demonstrieren die Wirksamkeit unseres Ansatzes, der die konkurrenzfähigen Basislinien, einschließlich DPO, deutlich übertrifft. Darüber hinaus zeigt unsere detaillierte quantitative Analyse die Gründe für die überlegene Leistung unserer Methode gegenüber DPO auf und demonstriert ihre Vielseitigkeit gegenüber anderen DPO-Varianten. Wir veröffentlichen unser Repository unter https://github.com/YJiangcm/BMC.
arXiv.orgYuxin Jiang

Das traditionelle DPO leidet unter schwachen Korrelationen zwischen ausgewählten und abgelehnten Antworten in Präferenzpaaren, was die Effektivität des Abgleichs einschränkt. BMC behebt dies, indem es Pseudo-Präferenzantworten synthetisiert, die zwischen Gewinner- und Verliererantworten interpolieren, und dann die Korrelationsmodellierung auf Token-Ebene unter Verwendung der Konfidenz des Richtlinienmodells anwendet. Der zweiphasige Ansatz überbrückt zuerst Präferenzpaare durch gezielte Modifikationen und modelliert dann feinkörnige Korrelationen während des Trainings, um die Qualität des Lernsignals zu verbessern.

Kernaussagen:

  • Schwache Korrelationen zwischen ausgewählten und abgelehnten Antworten in Präferenzdaten schränken die DPO-Effektivität für den Modellabgleich erheblich ein.
  • Das Synthetisieren von Pseudo-Präferenzantworten als Interpolationen zwischen Präferenzpaaren liefert reichhaltigere Lernsignale für die Optimierung.
  • Die Korrelationsmodellierung auf Token-Ebene unter Verwendung der Richtlinienkonfidenz gewichtet dynamisch Trainingssignale, um nuancierte Variationen in den Präferenzdaten zu erfassen.

tagTAID: Temporally Adaptive Interpolated Distillation für effizienten Wissenstransfer

TAID: Temporally Adaptive Interpolated Distillation für effizienten Wissenstransfer in Sprachmodellen
Kausale Sprachmodelle haben bemerkenswerte Fähigkeiten bewiesen, aber ihre Größe stellt erhebliche Herausforderungen für den Einsatz in ressourcenbeschränkten Umgebungen dar. Wissensdestillation, eine weit verbreitete Technik zum Übertragen von Wissen von einem großen Lehrermodell auf ein kleines Schülermodell, stellt einen vielversprechenden Ansatz für die Modellkomprimierung dar. Ein bedeutendes verbleibendes Problem sind die großen Unterschiede zwischen Lehrer- und Schülermodellen, nämlich die beträchtliche Kapazitätslücke, die Modusmittelung und der Moduskollaps, die Hindernisse während der Destillation darstellen. Um diese Probleme anzugehen, führen wir Temporally Adaptive Interpolated Distillation (TAID)\textit{Temporally Adaptive Interpolated Distillation (TAID)}Temporally Adaptive Interpolated Distillation (TAID) ein, einen neuartigen Wissensdestillationsansatz, der Schüler- und Lehrerverteilungen dynamisch durch eine adaptive Zwischenverteilung interpoliert und sich schrittweise von der anfänglichen Verteilung des Schülers zur Verteilung des Lehrers verschiebt. Wir liefern eine theoretische Analyse, die die Fähigkeit von TAID zur Verhinderung des Moduskollapses demonstriert, und zeigen empirisch seine Wirksamkeit bei der Bewältigung der Kapazitätslücke, während wir Modusmittelung und Moduskollaps ausgleichen. Unsere umfassenden Experimente demonstrieren die überlegene Leistung von TAID über verschiedene Modellgrößen und Architekturen hinweg sowohl in Szenarien des Instruction Tuning als auch des Pre-Training. Darüber hinaus zeigen wir die praktischen Auswirkungen von TAID, indem wir zwei hochmoderne, kompakte Basismodelle entwickeln: TAID-LLM-1.5B\texttt{TAID-LLM-1.5B}TAID-LLM-1.5B für Sprachaufgaben und TAID-VLM-2B\texttt{TAID-VLM-2B}TAID-VLM-2B für Vision-Language-Aufgaben. Diese Ergebnisse demonstrieren die Wirksamkeit von TAID bei der Erstellung von leistungsstarken und effizienten Modellen, wodurch die Entwicklung zugänglicherer KI-Technologien vorangetrieben wird.
arXiv.orgMakoto Shing

Die Wissensdestillation steht vor Herausforderungen durch Kapazitätslücken, Modusmittelung und Moduskollaps beim Übertragen von Wissen zwischen großen und kleinen Modellen. TAID führt einen dynamischen, intermediären Lehrer ein, der zwischen Schüler- und Lehrerverteilungen interpoliert und die Zielverteilung basierend auf dem Trainingsfortschritt schrittweise anpasst. Dieser Ansatz verhindert den Moduskollaps durch theoretische Garantien und erzielt eine überlegene Leistung über verschiedene Modellgrößen hinweg, wodurch die Entwicklung kompakter, aber leistungsfähiger Sprachmodelle ermöglicht wird.

Kernaussagen:

  • Dynamische, intermediäre Lehrer, die sich während des Trainings anpassen, bieten im Vergleich zur festen Lehrerdestillation reibungslosere Lerntrajektorien.
  • TAID verhindert den Moduskollaps durch adaptive Interpolation und gleicht gleichzeitig den Wissenstransfer über verschiedene Kapazitätslücken hinweg aus.
  • Die Methode ermöglicht das Training hochmoderner, kompakter Modelle, ohne dass spezielle Architekturen oder umfangreiches Hyperparameter-Tuning erforderlich sind.

tagSVD-LLM: Truncation-Aware Singular Value Decomposition zur Komprimierung großer Sprachmodelle

SVD-LLM: Truncation-aware Singular Value Decomposition zur Komprimierung großer Sprachmodelle
Die Fortschritte bei großen Sprachmodellen (LLMs) wurden durch ihre beträchtliche Größe behindert, was LLM-Komprimierungsmethoden für den praktischen Einsatz erforderlich macht. Die Singulärwertzerlegung (SVD) bietet eine vielversprechende Lösung für die LLM-Komprimierung. Die hochmodernen SVD-basierten LLM-Komprimierungsmethoden weisen jedoch zwei wesentliche Einschränkungen auf: Das Abschneiden kleinerer Singulärwerte kann zu einem höheren Komprimierungsverlust führen, und es fehlt eine Aktualisierung der komprimierten Gewichte nach der SVD-Trunkierung. In dieser Arbeit schlagen wir SVD-LLM vor, eine SVD-basierte Post-Training-LLM-Komprimierungsmethode, die die Einschränkungen bestehender Methoden behebt. SVD-LLM beinhaltet eine trunkierungsbewusste Datenaufhellungstechnik, um eine direkte Zuordnung zwischen Singulärwerten und Komprimierungsverlust sicherzustellen. Darüber hinaus verwendet SVD-LLM eine Parameteraktualisierung mit sequentieller Low-Rank-Approximation, um die Genauigkeitsverschlechterung nach der SVD-Komprimierung auszugleichen. Wir evaluieren SVD-LLM auf 10 Datensätzen und sieben Modellen aus drei verschiedenen LLM-Familien in drei verschiedenen Skalen. Unsere Ergebnisse demonstrieren die Überlegenheit von SVD-LLM gegenüber dem Stand der Technik, insbesondere bei hohen Modellkomprimierungsraten. Unser Code ist unter https://github.com/AIoT-MLSys-Lab/SVD-LLM verfügbar.
arXiv.orgXin Wang

Bestehende SVD-basierte Komprimierungsmethoden berücksichtigen die Eingabeaktivierungen während der Approximation nicht und es fehlt eine Feinabstimmung nach der Trunkierung. SVD-LLM beinhaltet eine trunkierungsbewusste Datenaufhellung, die Aktivierungsverteilungen berücksichtigt, und wendet nach der Komprimierung eine LoRA-basierte Feinabstimmung an. Die Methode stellt theoretische Verbindungen zwischen Singulärwerten und Komprimierungsverlust her und ermöglicht so fundiertere Komprimierungsentscheidungen, die strukturierte Beschneidungs- und Quantisierungsansätze übertreffen.

Kernaussagen:

  • Die trunkierungsbewusste Datenaufhellung, die Eingabeaktivierungen berücksichtigt, verbessert die SVD-Komprimierungseffektivität im Vergleich zu aktivierungsagnostischen Methoden erheblich.
  • Die LoRA-Feinabstimmung nach der Komprimierung kompensiert die Genauigkeitsverschlechterung und erhält gleichzeitig die Vorteile der Low-Rank-Faktorisierung.
  • Die theoretische Analyse, die Singulärwerte mit Komprimierungsverlust in Verbindung bringt, ermöglicht fundierte Trunkierungsentscheidungen, die heuristische Ansätze übertreffen.

tagSee What You Are Told: Visual Attention Sink in Large Multimodal Models

See What You Are Told: Visual Attention Sink in Large Multimodal Models
Große multimodale Modelle (Large Multimodal Models, LMMs) "sehen" Bilder, indem sie den Aufmerksamkeitsmechanismus zwischen Text- und visuellen Tokens im Transformer-Decoder nutzen. Idealerweise sollten sich diese Modelle auf wichtige visuelle Informationen konzentrieren, die für das Text-Token relevant sind. Jüngste Erkenntnisse deuten jedoch darauf hin, dass LMMs eine außergewöhnliche Tendenz haben, konsequent hohen Aufmerksamkeitsgewichten bestimmten visuellen Tokens zuzuordnen, selbst wenn diese Tokens für den entsprechenden Text irrelevant sind. In dieser Studie untersuchen wir die Eigenschaft, die hinter dem Auftreten dieser irrelevanten visuellen Tokens steckt, und untersuchen ihre Eigenschaften. Unsere Ergebnisse zeigen, dass dieses Verhalten auf die massive Aktivierung bestimmter Hidden-State-Dimensionen zurückzuführen ist, was dem Attention Sink in Sprachmodellen ähnelt. Daher bezeichnen wir dieses Phänomen als visuellen Attention Sink. Insbesondere zeigt unsere Analyse, dass das Entfernen der irrelevanten visuellen Sink-Tokens die Modellleistung nicht beeinträchtigt, obwohl sie hohe Aufmerksamkeitsgewichte erhalten. Folglich recyceln wir die Aufmerksamkeit auf diese Tokens als überschüssige Ressourcen und verteilen das Aufmerksamkeitsbudget neu, um den Fokus auf das Bild zu verbessern. Um dies zu erreichen, führen wir Visual Attention Redistribution (VAR) ein, eine Methode, die die Aufmerksamkeit in bildzentrierten Heads neu verteilt, die wir als von Natur aus auf visuelle Informationen fokussiert identifizieren. VAR kann nahtlos auf verschiedene LMMs angewendet werden, um die Leistung bei einer Vielzahl von Aufgaben zu verbessern, darunter allgemeine Vision-Language-Aufgaben, Visual-Hallucination-Aufgaben und Vision-zentrierte Aufgaben, und das alles ohne zusätzliche Schulung, Modelle oder Inferenzschritte. Experimentelle Ergebnisse zeigen, dass VAR es LMMs ermöglicht, visuelle Informationen effektiver zu verarbeiten, indem sie ihre internen Aufmerksamkeitsmechanismen anpassen, was eine neue Richtung zur Verbesserung der multimodalen Fähigkeiten von LMMs darstellt.
arXiv.orgSeil Kang

Große multimodale Modelle zeigen ein Phänomen, das als "visueller Attention Sink" bezeichnet wird, bei dem sie konsequent hohen Aufmerksamkeitsgewichten bestimmten visuellen Tokens zuordnen, die für die entsprechenden Text-Tokens irrelevant sind. Diese irrelevanten visuellen Tokens entstehen durch massive Aktivierung in bestimmten Hidden-State-Dimensionen, ähnlich wie bei Attention Sinks in Sprachmodellen. Die Visual Attention Redistribution (VAR)-Methode identifiziert bildzentrierte Aufmerksamkeits-Heads und verteilt das Aufmerksamkeitsbudget von Sink-Tokens auf aussagekräftige visuelle Inhalte um, wodurch die Leistung bei Vision-Language-Aufgaben verbessert wird, ohne dass zusätzliches Training erforderlich ist.

Kernaussagen:

  • Visuelle Sink-Tokens können durch extreme Aktivierungsstärken in festen Dimensionen identifiziert werden, die von Basis-Sprachmodellen übernommen wurden
  • Das Entfernen visueller Sink-Tokens hat keine Auswirkungen auf die Modellleistung, obwohl sie hohe Aufmerksamkeitsgewichte erhalten, was auf verschwendete Rechenressourcen hindeutet
  • VAR verteilt die Aufmerksamkeit von Sink-Tokens auf aussagekräftige visuelle Inhalte um und verbessert so die Leistung bei allgemeinen Vision-Language-, Halluzinationsreduktions- und Vision-zentrierten Aufgaben

tagTowards Semantic Equivalence of Tokenization in Multimodal LLM

Towards Semantic Equivalence of Tokenization in Multimodal LLM
Multimodale große Sprachmodelle (MLLMs) haben außergewöhnliche Fähigkeiten bei der Verarbeitung von Vision-Language-Aufgaben demonstriert. Einer der Knackpunkte von MLLMs liegt in der Vision-Tokenisierung, bei der es darum geht, eingehende visuelle Signale effizient in Feature-Darstellungen umzuwandeln, die für LLMs am vorteilhaftesten sind. Bestehende Vision-Tokenizer, die für die semantische Ausrichtung zwischen Vision und Sprache unerlässlich sind, sind jedoch weiterhin problematisch. Bestehende Methoden fragmentieren den visuellen Input aggressiv, wodurch die visuelle semantische Integrität beeinträchtigt wird. Um dies zu beheben, schlägt dieses Papier einen neuartigen dynamischen Semantic-Equivalent Vision Tokenizer (SeTok) vor, der visuelle Features über einen dynamischen Clustering-Algorithmus in semantische Einheiten gruppiert und die Anzahl der Tokens flexibel basierend auf der Bildkomplexität bestimmt. Die resultierenden Vision-Tokens bewahren effektiv die semantische Integrität und erfassen sowohl niederfrequente als auch hochfrequente visuelle Features. Das vorgeschlagene MLLM (Setokim), das mit SeTok ausgestattet ist, demonstriert deutlich eine überlegene Leistung bei verschiedenen Aufgaben, wie unsere experimentellen Ergebnisse belegen. Die Projektseite finden Sie unter https://chocowu.github.io/SeTok-web/.
arXiv.orgShengqiong Wu

Herkömmliche Vision-Tokenisierungs-Methoden in multimodalen LLMs fragmentieren visuellen Input mithilfe fester Patches, wodurch die semantische Integrität beeinträchtigt wird, was zu einer schlechten Vision-Language-Ausrichtung führt. SeTok (Semantic-Equivalent Vision Tokenizer) behebt dies durch dynamisches Clustering, das visuelle Features in kohärente semantische Einheiten gruppiert, wobei die Anzahl der Tokens sich an die Bildkomplexität anpasst. Das System verwendet duale Trainingsziele: Kontrastiver Verlust für die semantische Ausrichtung mit Sprache und Rekonstruktionsverlust, um Details auf Pixelebene für die Bildrekonstruktion zu erhalten.

Wichtigste Erkenntnisse:

  • Die Tokenisierung mit festen Patches stört die visuelle semantische Integrität, indem sie Objekte über willkürliche Patchgrenzen hinweg fragmentiert
  • Dynamische Clustering-Algorithmen können die optimale Anzahl von Tokens adaptiv basierend auf der semantischen Bildkomplexität anstelle fester Rasterstrukturen bestimmen
  • Das duale Zieltraining gleicht die semantische Ausrichtung mit Sprache aus und bewahrt gleichzeitig genügend visuelle Details für Rekonstruktionsaufgaben

tagHymba: Eine Hybrid-Head-Architektur für kleine Sprachmodelle

Hymba: A Hybrid-head Architecture for Small Language Models
Wir schlagen Hymba vor, eine Familie kleiner Sprachmodelle mit einer hybriden parallelen Head-Architektur, die Transformer-Aufmerksamkeitsmechanismen mit State-Space-Modellen (SSMs) für eine verbesserte Effizienz integriert. Aufmerksamkeits-Heads bieten hochauflösenden Abruf, während SSM-Heads eine effiziente Kontextzusammenfassung ermöglichen. Darüber hinaus führen wir lernbare Meta-Tokens ein, die Prompts vorangestellt werden, um kritische Informationen zu speichern und die mit Aufmerksamkeitsmechanismen verbundene "Forced-to-Attend"-Belastung zu verringern. Dieses Modell wird weiter optimiert, indem Cross-Layer Key-Value (KV) Sharing und Partial Sliding Window Attention integriert werden, was zu einer kompakten Cache-Größe führt. Während der Entwicklung haben wir eine kontrollierte Studie durchgeführt, in der wir verschiedene Architekturen unter identischen Bedingungen verglichen und signifikante Vorteile unserer vorgeschlagenen Architektur festgestellt haben. Insbesondere erzielt Hymba State-of-the-Art-Ergebnisse für kleine LMs: Unser Hymba-1.5B-Base-Modell übertrifft alle öffentlichen Sub-2B-Modelle in der Leistung und übertrifft sogar Llama-3.2-3B mit 1,32 % höherer durchschnittlicher Genauigkeit, einer 11,67-fachen Cache-Größenreduzierung und dem 3,49-fachen Durchsatz.
arXiv.orgXin Dong

Hymba führt eine Hybrid-Head-Architektur ein, die Transformer-Aufmerksamkeitsmechanismen mit State-Space-Modellen (SSMs) parallel in jeder Schicht kombiniert, wodurch simultaner hochauflösender Abruf und effiziente Kontextzusammenfassung ermöglicht werden. Die Architektur umfasst lernbare Meta-Tokens, Cross-Layer Key-Value Sharing und Partial Sliding Window Attention, um kompakte Cache-Größen zu erreichen. Hymba-1.5B übertrifft alle Sub-2B-Modelle und übertrifft Llama-3.2-3B, während es eine 11,67-fache Cache-Reduktion und eine 3,49-fache Durchsatzverbesserung erzielt.

Kernaussagen:

  • Die parallele Hybrid-Head-Architektur übertrifft die sequentielle Stapelung von Aufmerksamkeits- und SSM-Komponenten, da sie die simultane Verarbeitung komplementärer Mechanismen ermöglicht
  • Lernbare Meta-Tokens fungieren als komprimiertes Weltwissen und verringern die "Forced-to-Attend"-Belastung von Softmax-Aufmerksamkeitsmechanismen
  • Cross-Layer Key-Value Sharing und Sliding-Window-Attention-Optimierungen erzielen drastische Cache-Größenreduzierungen, ohne die Leistung zu beeinträchtigen
Kategorien:
Ereignis
rss_feed
Büros
location_on
Sunnyvale, Kalifornien
710 Lakeway Dr, Ste 200, Sunnyvale, CA 94085, USA
location_on
Berlin, Deutschland (Hauptsitz)
Prinzessinnenstraße 19-20, 10969 Berlin, Deutschland
location_on
Peking, China
Ebene 5, Gebäude 6, Nr. 48 Haidian West St. Peking, China
location_on
Shenzhen, China
402 Etage 4, Fu'an Technology Building, Shenzhen, China
Stiftung durchsuchen
Leser
Einbettungen
Reranker
DeepSearch
Klassifikator
Segmentierer
API-Dokumentation
Jina API-Schlüssel abrufen
Ratenbegrenzung
API-Status
Unternehmen
Über uns
Kontaktieren Sie unseren Vertrieb
Pressemitteilungen
Praktikantenprogramm
Begleiten Sie uns
open_in_new
Logo herunterladen
open_in_new
Bedingungen
Sicherheit
Terms & amp; Bedingungen
Privatsphäre
Cookie-Einstellungen
email
Jina AI © 2020-2025.