Im Jahr 2018 veröffentlichte Google BERT, was ein Game-Changer für NLP war, lange vor der aktuellen LLM-Welle. Auch heute noch basieren viele Small Language Models auf BERT. Im Dezember 2024 nimmt ModernBERT die Erkenntnisse aus den jüngsten LLM-Entwicklungen und wendet sie auf diese kleineren Modelle an. Die wichtigsten Änderungen? Bessere Parameter-Effizienz, Code-Verständnis und Verarbeitung langer Kontexte.
In diesem Beitrag vergleichen wir ModernBERT mit zwei Modellen, die wir in- und auswendig kennen: jina-XLM-RoBERTa
(das mehrsprachige Rückgrat hinter jina-embeddings-v3) und RoBERTa-large
. Schauen wir uns jedes Modell an:
- ModernBERT (Dez. 2024) ist ein kürzlich veröffentlichtes SLM, das in Zusammenarbeit von Answer.AI, LightOn und HuggingFace entwickelt wurde. Es nutzt moderne Optimierungen wie RoPE für ein 8.192-Token-Kontextfenster und GeGLU-Layer, was die Leistung bei gleichbleibender Effizienz steigert.
jina-XLM-RoBERTa
(Sept. 2024) ist ein mehrsprachiges Text-Embedding-Modell basierend auf MetasXLM-RoBERTa
. Während das ursprünglicheXLM-RoBERTa
RoBERTa
mithilfe des XLM-Multilingual-Datensatzes erweitert, gehtjina-XLM-RoBERTa
noch weiter mit erweitertem Kontext-Training, RoPE-Implementierung und FlashAttention-2-Unterstützung. Dieses Modell dient als Grundlage für jina-embeddings-v3.RoBERTa-large
(Juli 2019), entwickelt von Meta, ist eine verbesserte Version von BERT mit 355 Millionen Parametern. Durch erweitertes Training, größere Datensätze und Innovationen wie dynamisches Masking hat es beeindruckende Ergebnisse bei wichtigen Benchmarks wie GLUE, SQuAD und RACE erzielt. Dies macht es gut geeignet für verschiedene NLP-Aufgaben von Textklassifizierung bis hin zu Frage-Antwort-Systemen.
Durch den Vergleich dieser Modelle in drei Kernaspekten möchten wir ModernBERTs effektive Designentscheidungen für andere Modellentwickler hervorheben und wichtige Entwicklungserkenntnisse für zukünftige BERT-ähnliche Modelle identifizieren. Wir werden auch unsere Erkenntnisse aus der Entwicklung von jina-embeddings-v3 teilen und geplante Verbesserungen für jina-embeddings-v4 und jina-reranker-v3
diskutieren.
tagModernBERTs Parameter-Effizienz
Betrachten wir zunächst ModernBERTs Ansatz zur Parameter-Effizienz - es bringt mehrere wichtige Erkenntnisse aus jüngsten LLM-Entwicklungen mit. ModernBERT nutzt drei Kernstrategien: eine tiefere aber dünnere Architektur, kontrollierte Vokabulargröße und progressives Model-Upscaling, beginnend mit kleineren Modellen.
tagDeep-And-Thin-Architektur
ModernBERT-large geht mit 28 Layern tiefer, während jina-XLM-RoBERTa
und RoBERTa-large
bei 24 bleiben. Aber hier kommt das Interessante - es entspricht RoBERTa-large
in der Parameteranzahl trotz dieser zusätzlichen Layer. jina-XLM-RoBERTa
benötigt mehr Parameter, da es 89 Sprachen verarbeitet, während sich die anderen beiden nur auf Englisch konzentrieren.
Die meisten Parameter eines Transformers kommen aus Attention- und Fully-Connected-Layern. ModernBERT bleibt größenmäßig wettbewerbsfähig, indem es "dünner" wird - sie verwenden 2.624 Hidden Units über 28 Layer, verglichen mit RoBERTa-larges 4.096 Units über 24 Layer. Dieser "tiefere" aber dünnere Aufbau ermöglicht es ihnen, ihre Leistungsziele zu erreichen, ohne das Modell aufzublähen.
ModernBERT-large | jina-XLM-RoBERTa |
RoBERTa-large |
|
---|---|---|---|
Parameters | 400M | 550M | 355M |
Hidden states | 1,024 | 1,024 | 1,024 |
Intermediate dims | 2,624 | 4,096 | 4,096 |
Attention heads | 16 | 16 | 16 |
Layers | 28 | 24 | 24 |
Vocabulary size | 50,368 | 250,002 | 50,265 |
Dieser Ansatz deckt sich mit Metas MobileLLM-Forschung, die herausfand, dass bei kleineren Modellen die Tiefe wichtiger ist als die Breite, wenn es um das Erfassen komplexer Muster und die Leistungssteigerung geht. Im Wesentlichen erweist sich die Fähigkeit, Informationen durch mehr Transformer-Layer zu verarbeiten, als wertvoller als breitere Layer für die parallele Verarbeitung.
Schauen wir uns die Daten zur Leistung dieser Deep-and-Thin-Architektur an.
ModernBERT-large | jina-XLM-RoBERTa |
RoBERTa-large |
|
---|---|---|---|
STS12 | 72.6 | 72.7 | 68.9 |
STS13 | 84.9 | 83.9 | 81.0 |
STS14 | 77.5 | 77.7 | 74.8 |
STS15 | 84.8 | 85.8 | 84.1 |
STS16 | 79.4 | 79.6 | 78.6 |
STS17 | 87.5 | 87.2 | 87.2 |
TRECCOVID | 61.1 | 59.6 | 49.3 |
FiQA | 44.4 | 40.0 | 40.7 |
NFCorpus | 32.6 | 30.6 | 27.9 |
SciFact | 68.6 | 65.5 | 63.1 |
Average | 69.3 | 68.2 | 65.6 |
Nehmen wir jina-XLM-RoBERTa
- es baut auf RoBERTa-large
s Shallow-Fat-Architektur auf, erhöht aber das Vokabular von 50K auf 250K Tokens und trainiert mit mehr Daten. Dennoch übertrifft ModernBERT es leicht, was darauf hindeutet, dass die architektonische Veränderung einen echten Unterschied in der Effizienz macht.
tagVokabulargröße ist wichtig
Schauen wir uns zunächst an, wie Vokabular-Parameter in Transformern gezählt werden. Für jeden Transformer gilt: Vokabular-Parameter = Anzahl unterschiedlicher Tokens × Hidden Size
. Nehmen wir jina-XLM-RoBERTa
: mit 250K Tokens und 1.024 Dimensionen benötigt es 256M Parameter allein für die Vokabular-Kodierung - bevor überhaupt Sprachaufgaben verarbeitet werden!
1,112,064 × 1,024 = 1 B
Parameter allein für die Token-Konvertierung benötigen. Während größere LLMs (100B+ Parameter) diesen Overhead bewältigen können, ist dies für kleinere Modelle eine ernsthafte Einschränkung. Genau deshalb verwenden wir Tokenizer wie BPE, die häufig vorkommende UTF-8-Codepunkte effizient zu einzelnen Token zusammenfassen.Aber hier ist der springende Punkt: Vokabulargewichte tragen nicht zu Attention-Mechanismen bei – sie sind nur Nachschlagetabellen. Für SLMs mit festem Parameterbudget bedeutet ein größeres Vokabular weniger verfügbare Parameter für Attention-Layer, die die eigentliche Sprachverarbeitung durchführen. Dies erklärt, warum das rein englischsprachige ModernBERT-large trotz geringerer Größe die mehrsprachige jina-XLM-RoBERTa
übertrifft – jina-XLM-RoBERTa
weist mehr Parameter (47 %!) zur Unterstützung mehrerer Sprachen zu. ModernBERTs fokussiertes Vokabular verbessert nicht nur die Leistung, sondern beschleunigt auch die Inferenz, was es besonders effektiv für ressourcenbeschränkte Anwendungen macht.
Wenn wir uns also nur die Kern-Modellparameter ansehen (ohne Vokabulargewichte), packt ModernBERT tatsächlich mehr Rechenleistung als seine Mitbewerber: ModernBERT widmet 19 % mehr Parameter der eigentlichen Sprachmodellierung als jina-XLM-RoBERTa
und 15 % mehr als RoBERTa-large
!
Modell-Spezifikationen | ModernBERT-large | jina-XLM-RoBERTa |
RoBERTa-large |
---|---|---|---|
Sprachunterstützung | Nur Englisch | 89 Sprachen | Nur Englisch |
Vokabulargröße | 50,4K | 250K | 50,3K |
Gesamtparameter | 400M | 550M | 355M |
Vokabularparameter | 51M | 256M | 51M |
Vokabularparameter-Verhältnis | 13% | 47% | 14% |
Kernmodellparameter | 349M | 294M | 304M |
tagModell-Upscaling durch "Weight Tiling"
Beim Aufbau des jina-BERT-v2
Backbones stellten wir fest, dass das Training von SLMs von Grund auf ressourcenintensiv und komplex war. ModernBERT löst dies mit einem intelligenten Initialisierungsansatz namens Weight Tiling – im Wesentlichen wird ModernBERT-large aus den Gewichten seiner kleineren Basisversion hochskaliert.
Diese Technik ist nicht völlig neu – sie baut auf DeepMinds Arbeit mit Gopher auf und taucht auch in Microsofts Phi-2 Modellen auf. Ihre Anwendung hier ist jedoch besonders effektiv bei der Bewältigung des SLM-Trainingsengpasses.
Diese Initialisierungsstrategie verschafft ModernBERT-large einen signifikanten Vorteil – anstatt von Grund auf neu zu beginnen, nutzt es vorgelernter Muster seines kleineren Pendants. Dies hat sich als besonders effektiv für die Skalierung von Sprachmodellen in diesem Größenbereich erwiesen.
Wir stellen fest, dass ein warm gestartetes Modell sich schnell von einem anfänglich hohen Verlust (aufgrund der hinzugefügten Parameter) erholt und einen Verlust erreicht, der dem des Basismodells sehr nahe kommt. Wir können 417M Parameter um mehr als das 3-fache in der Größe erweitern und eine Leistung aufrechterhalten, die besser ist als ein vergleichbares frisches Modell, das von Grund auf bis zur Konvergenz trainiert wurde, was darauf hindeutet, dass die Gewinne nicht auf den Trainingsbeginn beschränkt waren. Bei größeren Dimensionen nehmen die relativen Gewinne bei der Konvergenz jedoch ab, insbesondere bei Erweiterungen in der Breite.
Das zyklische Gewichtsumwickeln ist nicht nur eine Bequemlichkeit – es passt gut zu der Art und Weise, wie Attention-Matrizen natürlich periodische Muster aufweisen. Gophers Forschung zeigt, dass dieser Ansatz besonders bei SLMs (unter 9B Parameter) glänzt, wobei die Vorteile bei größeren Modellen allmählich nachlassen.
tagModernBERTs Code-Modellierung
ModernBERT bringt mit seinem code-optimierten Tokenizer und Trainingsdaten einen spezialisierten Ansatz zum Codeverständnis. Diese Feinabstimmung für die Codeverarbeitung zahlt sich sowohl bei Verständnis- als auch bei Abrufaufgaben aus.
Wir führten einen Benchmark mit dem jina-embeddings-v2-code
Corpus durch und verglichen drei Modelle als Backbones: ModernBERT
, jina-XLM-RoBERTa
und RoBERTa-large
. Der Test? CodeSearchNet – Zuordnung von Textbeschreibungen zu Code-Snippets. ModernBERT übertraf beide Alternativen in allen Bereichen.
jina-XLM-RoBERTa
noch RoBERTa-large
sahen während des Trainings Programmiersprachen. Währenddessen wurde ModernBERT-large mit zwei Billionen Token trainiert, einschließlich einer beträchtlichen Menge an Code. Diese Exposition gegenüber Programmiersyntax und -mustern verschafft ihm einen klaren Vorteil bei codebezogenen Aufgaben. jina-XLM-RoBERTa
übertrifft RoBERTa-large
leicht, wahrscheinlich aufgrund seiner größeren mehrsprachigen Trainingsdaten – gleiche Architektur, mehr Exposition. Dennoch liegen beide deutlich hinter ModernBERT-large zurück.Aufgabe | ModernBERT-large | jina-XLM-RoBERTa |
RoBERTa-large |
---|---|---|---|
AdvRetrieval | 0.342 | 0.363 | 0.331 |
QueryRetrieval.python | 0.521 | 0.530 | 0.525 |
QueryRetrieval java | 0.679 | 0.633 | 0.644 |
QueryRetrieval.javascript | 0.755 | 0.768 | 0.732 |
QueryRetrieval.php | 0.815 | 0.781 | 0.755 |
QueryRetrieval.ruby | 0.729 | 0.744 | 0.722 |
QueryRetrieval.go | 0.833 | 0.809 | 0.796 |
Retrieval.go | 0.778 | 0.750 | 0.759 |
Retrieval.java | 0.840 | 0.792 | 0.796 |
Retrieval.javascript | 0.817 | 0.792 | 0.757 |
Retrieval.php | 0.852 | 0.805 | 0.796 |
Retrieval.python | 0.849 | 0.816 | 0.787 |
Retrieval.ruby | 0.849 | 0.796 | 0.803 |
Avg. | 0.743 | 0.721 | 0.708 |
tagDer Tokenizer-Vorteil
Schauen wir uns an, warum ModernBERT Code so gut verarbeitet - es verwendet den OLMo Tokenizer, der speziell für Code trainiert wurde, anstelle der Standard-BERT/RoBERTa-Tokenizer.
Ein Tokenizer zerlegt UTF-8-Text in Tokens, die in Vektoren umgewandelt werden - diese verarbeitet das Modell tatsächlich. Während des Trainings lernt er, häufig vorkommende Zeichenfolgen zu einzelnen Tokens zu kombinieren. Der Unterschied? Ein Standard-Tokenizer könnte init
in in
+ it
aufteilen und dabei den Programmierkontext verpassen. Aber ModernBERTs codebewusster Tokenizer versteht es ohne Aufteilung.
Interessant wird es bei der Leerzeichenbehandlung: ModernBERT bewahrt Pythons führende Leerzeichen als einzelne Tokens und unterscheidet zwischen 4 und 8 Leerzeichen - entscheidend für die Code-Struktur. Währenddessen reduziert jina-XLM-RoBERTa
alle aufeinanderfolgenden Leerzeichen auf ein einzelnes _
, und RoBERTa-large behandelt jedes Leerzeichen als eigenes Token. Das bedeutet, dass ModernBERTs Encoder sauberere, aussagekräftigere Eingaben bei der Code-Verarbeitung erhält, während die anderen mit fragmentierten, weniger kohärenten Tokens arbeiten.
tagModernBERTs Verarbeitung langer Kontexte
ModernBERT hat bei der Verarbeitung langer Texte bedeutende Fortschritte gemacht, dank seines umfangreichen Trainingskorpus (300 Mrd. Tokens mit 8.192-Token-Proben) und fortgeschrittener Techniken wie kombinierter globaler und lokaler Aufmerksamkeit.
Zur Bewertung der Fähigkeiten zur Verarbeitung langer Dokumente verwendeten wir den MLDR-Datensatz - ein umfassender Langtext-Benchmark für 13 Sprachen. Da ModernBERT derzeit nur Englisch unterstützt, konzentrierten wir uns auf MLDRs englische Teilmenge, um ModernBERT mit jina-XLM-RoBERTa
zu vergleichen. Während beide Modelle 8K-Token-Eingaben verarbeiten können, wurde RoBERTa-large
aufgrund seiner 512-Token-Beschränkung, die für Langtextanalysen unzureichend ist, von diesem Benchmark ausgeschlossen.
ModernBERT-large | jina-XLM-RoBERTa |
|
---|---|---|
MLDR-en | 0.351 | 0.290 |
ModernBERTs überlegene Leistung ist nicht nur auf sein umfangreiches Langtext-Training zurückzuführen - es liegt größtenteils an seiner innovativen Kombination von globalen und lokalen Aufmerksamkeitsmechanismen. Im Gegensatz zu jina-XLM-RoBERTa
, das rechenintensive globale Aufmerksamkeit auf jede Schicht anwendet, verfolgt ModernBERT einen effizienteren Ansatz. Es wechselt zwischen globaler Aufmerksamkeit (verwendet in jeder dritten Schicht mit einem theta
von 160.000) und lokaler Aufmerksamkeit (verwendet ein 128-Token-Schiebefenster mit einem theta
von 100.000). Diese Hybridstrategie erhält hohe Leistung bei drastisch reduzierter Trainingszeit.
In ModernBERT verwendet jede dritte Schicht globale Aufmerksamkeit mit einem RoPE-Theta von 160.000 und die übrigen Schichten verwenden ein lokales 128-Token-Schiebefenster-Aufmerksamkeit mit einem RoPE-Theta von 10.000. —— ModernBERT
tagDie bittere Lektion?
Das Skalierungsgesetz und die bittere Lektion legen nahe, dass wesentliche Leistungsverbesserungen hauptsächlich durch die Erhöhung der Parameteranzahl und Trainingsdaten entstehen. Dieses Prinzip leitete unseren Ansatz, das Korpus zu erweitern und LoRA für aufgabenspezifische Anpassungen zu verwenden.
Allerdings hat ModernBERTs Erfolg gezeigt, dass wir die Kraft der architektonischen Optimierung unterschätzt haben. Es zeigt, dass SLMs durch bessere Daten-Modell-Effizienz außergewöhnliche Ergebnisse erzielen können, ohne unbedingt die Parameter zu skalieren. Ein kürzlicher Stella Embeddings technischer Bericht bestätigt diese Erkenntnis und zeigt, dass aktuelle Embedding-Modell-Trainingsmethoden ohne Vergrößerung von Korpus oder Modellgröße verbessert werden können.
jina-embeddings-v2
aufweist. Diese Grafik wurde erstellt durch Auswahl der Top-100 Embedding-Modelle aus der MTEB-Rangliste, unter Ausschluss derjenigen ohne Größeninformationen, typischerweise geschlossene oder proprietäre Modelle. Einreichungen, die als offensichtliches Trolling identifiziert wurden, wurden ebenfalls herausgefiltert. In Zukunft erwarten wir geringere Rechenkosten und kleinere Modellgrößen, da wir tiefere Einblicke in die Datennutzung gewinnen und ModernBERTs Techniken implementieren. Kurzfristig können wir einfache Verbesserungen aus dem ModernBERT-Paper umsetzen - insbesondere die Integration von mehr codebezogenen Daten und die Adoption eines codefreundlichen Tokenizers. Komplexere Änderungen, wie der Wechsel zu einer deep-and-thin-Architektur oder das Bootstrapping großer Modelle aus kleineren, erfordern den Aufbau von Backbone-Modellen von Grund auf - eine mittelfristige Initiative.
Während ModernBERTs Effizienz bemerkenswert ist, weist seine Beschränkung auf Text auf zukünftige Herausforderungen hin. Mit der zunehmenden Popularität multimodaler Embedding-Modelle besteht unsere nächste Herausforderung darin, intelligentere, schnellere und leistungsfähigere Such-Grundlagenmodelle zu entwickeln, die Eingaben für multimodale Anwendungen verarbeiten können. Diese Anwendungen erfordern noch längere Kontextfenster - eine Effizienzherausforderung, die es noch zu lösen gilt.
tagFazit
In diesem Beitrag haben wir untersucht, wie ModernBERT BERT-Familie-Modelle durch drei Schlüsselinnovationen voranbringt: seine deep-and-thin-Architektur, optimierter Tokenizer und effiziente Skalierung mittels Weight Tiling. Diese Verbesserungen ermöglichen es ModernBERT, herausragende Leistung in einer relativ kompakten Größe zu liefern und dabei sowohl RoBERTa-large
als auch jina-XLM-RoBERTa
in verschiedenen Aufgaben zu übertreffen. ModernBERT zeigt, dass architektonische Verbesserungen wichtiger sein können als die Parametergröße und öffnet damit Türen für effizientere Modelle. Seine erfolgreiche Nutzung von Weight Tiling zeigt, wie progressives Skalieren die Trainingskosten reduzieren und gleichzeitig die Leistung erhalten oder sogar steigern kann. Zusätzlich deuten sein kompaktes Vokabular und gezielte Optimierungen auf wachsende Möglichkeiten für spezialisierte SLMs in ressourcenbeschränkten Umgebungen hin.