Was können wir von ModernBERT lernen?

Im Jahr 2018 veröffentlichte Google BERT, was ein Game-Changer für NLP war, lange vor der aktuellen LLM-Welle. Auch heute noch basieren viele Small Language Models auf BERT. Im Dezember 2024 nimmt ModernBERT die Erkenntnisse aus den jüngsten LLM-Entwicklungen und wendet sie auf diese kleineren Modelle an. Die wichtigsten Änderungen? Bessere Parameter-Effizienz, Code-Verständnis und Verarbeitung langer Kontexte.

In diesem Beitrag vergleichen wir ModernBERT mit zwei Modellen, die wir in- und auswendig kennen: jina-XLM-RoBERTa (das mehrsprachige Rückgrat hinter jina-embeddings-v3) und RoBERTa-large. Schauen wir uns jedes Modell an:

ModernBERT (Dez. 2024) ist ein kürzlich veröffentlichtes SLM, das in Zusammenarbeit von Answer.AI, LightOn und HuggingFace entwickelt wurde. Es nutzt moderne Optimierungen wie RoPE für ein 8.192-Token-Kontextfenster und GeGLU-Layer, was die Leistung bei gleichbleibender Effizienz steigert.
jina-XLM-RoBERTa (Sept. 2024) ist ein mehrsprachiges Text-Embedding-Modell basierend auf Metas XLM-RoBERTa. Während das ursprüngliche XLM-RoBERTa RoBERTa mithilfe des XLM-Multilingual-Datensatzes erweitert, geht jina-XLM-RoBERTa noch weiter mit erweitertem Kontext-Training, RoPE-Implementierung und FlashAttention-2-Unterstützung. Dieses Modell dient als Grundlage für jina-embeddings-v3.
RoBERTa-large (Juli 2019), entwickelt von Meta, ist eine verbesserte Version von BERT mit 355 Millionen Parametern. Durch erweitertes Training, größere Datensätze und Innovationen wie dynamisches Masking hat es beeindruckende Ergebnisse bei wichtigen Benchmarks wie GLUE, SQuAD und RACE erzielt. Dies macht es gut geeignet für verschiedene NLP-Aufgaben von Textklassifizierung bis hin zu Frage-Antwort-Systemen.

Durch den Vergleich dieser Modelle in drei Kernaspekten möchten wir ModernBERTs effektive Designentscheidungen für andere Modellentwickler hervorheben und wichtige Entwicklungserkenntnisse für zukünftige BERT-ähnliche Modelle identifizieren. Wir werden auch unsere Erkenntnisse aus der Entwicklung von jina-embeddings-v3 teilen und geplante Verbesserungen für jina-embeddings-v4 und jina-reranker-v3 diskutieren.

tagModernBERTs Parameter-Effizienz

Betrachten wir zunächst ModernBERTs Ansatz zur Parameter-Effizienz - es bringt mehrere wichtige Erkenntnisse aus jüngsten LLM-Entwicklungen mit. ModernBERT nutzt drei Kernstrategien: eine tiefere aber dünnere Architektur, kontrollierte Vokabulargröße und progressives Model-Upscaling, beginnend mit kleineren Modellen.

tagDeep-And-Thin-Architektur

ModernBERT-large geht mit 28 Layern tiefer, während jina-XLM-RoBERTa und RoBERTa-large bei 24 bleiben. Aber hier kommt das Interessante - es entspricht RoBERTa-large in der Parameteranzahl trotz dieser zusätzlichen Layer. jina-XLM-RoBERTa benötigt mehr Parameter, da es 89 Sprachen verarbeitet, während sich die anderen beiden nur auf Englisch konzentrieren.

Die Tiefe (Anzahl der Layer) ist wichtiger als die Breite (Anzahl der Hidden Units) für kleine LLMs. Eine deep-and-thin Modellstruktur überzeugt beim Erfassen abstrakter Konzepte und führt zu besserer Endleistung.

Die meisten Parameter eines Transformers kommen aus Attention- und Fully-Connected-Layern. ModernBERT bleibt größenmäßig wettbewerbsfähig, indem es "dünner" wird - sie verwenden 2.624 Hidden Units über 28 Layer, verglichen mit RoBERTa-larges 4.096 Units über 24 Layer. Dieser "tiefere" aber dünnere Aufbau ermöglicht es ihnen, ihre Leistungsziele zu erreichen, ohne das Modell aufzublähen.

	ModernBERT-large	`jina-XLM-RoBERTa`	`RoBERTa-large`
Parameters	400M	550M	355M
Hidden states	1,024	1,024	1,024
Intermediate dims	2,624	4,096	4,096
Attention heads	16	16	16
Layers	28	24	24
Vocabulary size	50,368	250,002	50,265

Dieser Ansatz deckt sich mit Metas MobileLLM-Forschung, die herausfand, dass bei kleineren Modellen die Tiefe wichtiger ist als die Breite, wenn es um das Erfassen komplexer Muster und die Leistungssteigerung geht. Im Wesentlichen erweist sich die Fähigkeit, Informationen durch mehr Transformer-Layer zu verarbeiten, als wertvoller als breitere Layer für die parallele Verarbeitung.

Schauen wir uns die Daten zur Leistung dieser Deep-and-Thin-Architektur an.

Im Vergleich zu ähnlichen Modellen mit der traditionellen Shallow-Fat-Architektur liefert ModernBERT bessere Ergebnisse bei wichtigen Aufgaben wie Retrieval und STS - und das bei ähnlicher Parameteranzahl.

	ModernBERT-large	`jina-XLM-RoBERTa`	`RoBERTa-large`
STS12	72.6	72.7	68.9
STS13	84.9	83.9	81.0
STS14	77.5	77.7	74.8
STS15	84.8	85.8	84.1
STS16	79.4	79.6	78.6
STS17	87.5	87.2	87.2
TRECCOVID	61.1	59.6	49.3
FiQA	44.4	40.0	40.7
NFCorpus	32.6	30.6	27.9
SciFact	68.6	65.5	63.1
Average	69.3	68.2	65.6

Nehmen wir jina-XLM-RoBERTa - es baut auf RoBERTa-larges Shallow-Fat-Architektur auf, erhöht aber das Vokabular von 50K auf 250K Tokens und trainiert mit mehr Daten. Dennoch übertrifft ModernBERT es leicht, was darauf hindeutet, dass die architektonische Veränderung einen echten Unterschied in der Effizienz macht.

tagVokabulargröße ist wichtig

Schauen wir uns zunächst an, wie Vokabular-Parameter in Transformern gezählt werden. Für jeden Transformer gilt: Vokabular-Parameter = Anzahl unterschiedlicher Tokens × Hidden Size. Nehmen wir jina-XLM-RoBERTa: mit 250K Tokens und 1.024 Dimensionen benötigt es 256M Parameter allein für die Vokabular-Kodierung - bevor überhaupt Sprachaufgaben verarbeitet werden!

In Transformern ordnet die erste Schicht Token mithilfe einer Gewichtsmatrix, nämlich den Vokabulargewichten, versteckten Zuständen zu. Betrachtet man alle UTF-8-Codepunkte (1.112.064) mit 1.024 versteckten Dimensionen, würde man massive 1,112,064 × 1,024 = 1 B Parameter allein für die Token-Konvertierung benötigen. Während größere LLMs (100B+ Parameter) diesen Overhead bewältigen können, ist dies für kleinere Modelle eine ernsthafte Einschränkung. Genau deshalb verwenden wir Tokenizer wie BPE, die häufig vorkommende UTF-8-Codepunkte effizient zu einzelnen Token zusammenfassen.

Aber hier ist der springende Punkt: Vokabulargewichte tragen nicht zu Attention-Mechanismen bei – sie sind nur Nachschlagetabellen. Für SLMs mit festem Parameterbudget bedeutet ein größeres Vokabular weniger verfügbare Parameter für Attention-Layer, die die eigentliche Sprachverarbeitung durchführen. Dies erklärt, warum das rein englischsprachige ModernBERT-large trotz geringerer Größe die mehrsprachige jina-XLM-RoBERTa übertrifft – jina-XLM-RoBERTa weist mehr Parameter (47 %!) zur Unterstützung mehrerer Sprachen zu. ModernBERTs fokussiertes Vokabular verbessert nicht nur die Leistung, sondern beschleunigt auch die Inferenz, was es besonders effektiv für ressourcenbeschränkte Anwendungen macht.

Wenn wir uns also nur die Kern-Modellparameter ansehen (ohne Vokabulargewichte), packt ModernBERT tatsächlich mehr Rechenleistung als seine Mitbewerber: ModernBERT widmet 19 % mehr Parameter der eigentlichen Sprachmodellierung als jina-XLM-RoBERTa und 15 % mehr als RoBERTa-large!

Modell-Spezifikationen	ModernBERT-large	`jina-XLM-RoBERTa`	`RoBERTa-large`
Sprachunterstützung	Nur Englisch	89 Sprachen	Nur Englisch
Vokabulargröße	50,4K	250K	50,3K
Gesamtparameter	400M	550M	355M
Vokabularparameter	51M	256M	51M
Vokabularparameter-Verhältnis	13%	47%	14%
Kernmodellparameter	349M	294M	304M

tagModell-Upscaling durch "Weight Tiling"

Beim Aufbau des jina-BERT-v2 Backbones stellten wir fest, dass das Training von SLMs von Grund auf ressourcenintensiv und komplex war. ModernBERT löst dies mit einem intelligenten Initialisierungsansatz namens Weight Tiling – im Wesentlichen wird ModernBERT-large aus den Gewichten seiner kleineren Basisversion hochskaliert.

Diese Technik ist nicht völlig neu – sie baut auf DeepMinds Arbeit mit Gopher auf und taucht auch in Microsofts Phi-2 Modellen auf. Ihre Anwendung hier ist jedoch besonders effektiv bei der Bewältigung des SLM-Trainingsengpasses.

ModernBERT skaliert von 22 auf 28 Schichten unter Verwendung der Tiefeninitialisierungsstrategie des Gopher-Teams. Für diese zusätzlichen Schichten (23-28) initialisieren sie jede mit Gewichten aus den ursprünglichen 22 Schichten von ModernBERT-base. Für die Gewichtsmatrizen jeder Schicht verwenden sie Phi-2's Center-Tiling-Ansatz. Es funktioniert so: Sie nehmen die ModernBERT-base Gewichte und platzieren sie direkt in der Mitte der ModernBERT-large Matrizen. Für die noch leeren Ränder? Sie wickeln die ursprünglichen Gewichte zyklisch um sie zu füllen.

Diese Initialisierungsstrategie verschafft ModernBERT-large einen signifikanten Vorteil – anstatt von Grund auf neu zu beginnen, nutzt es vorgelernter Muster seines kleineren Pendants. Dies hat sich als besonders effektiv für die Skalierung von Sprachmodellen in diesem Größenbereich erwiesen.

Wir stellen fest, dass ein warm gestartetes Modell sich schnell von einem anfänglich hohen Verlust (aufgrund der hinzugefügten Parameter) erholt und einen Verlust erreicht, der dem des Basismodells sehr nahe kommt. Wir können 417M Parameter um mehr als das 3-fache in der Größe erweitern und eine Leistung aufrechterhalten, die besser ist als ein vergleichbares frisches Modell, das von Grund auf bis zur Konvergenz trainiert wurde, was darauf hindeutet, dass die Gewinne nicht auf den Trainingsbeginn beschränkt waren. Bei größeren Dimensionen nehmen die relativen Gewinne bei der Konvergenz jedoch ab, insbesondere bei Erweiterungen in der Breite.

Das zyklische Gewichtsumwickeln ist nicht nur eine Bequemlichkeit – es passt gut zu der Art und Weise, wie Attention-Matrizen natürlich periodische Muster aufweisen. Gophers Forschung zeigt, dass dieser Ansatz besonders bei SLMs (unter 9B Parameter) glänzt, wobei die Vorteile bei größeren Modellen allmählich nachlassen.

tagModernBERTs Code-Modellierung

ModernBERT bringt mit seinem code-optimierten Tokenizer und Trainingsdaten einen spezialisierten Ansatz zum Codeverständnis. Diese Feinabstimmung für die Codeverarbeitung zahlt sich sowohl bei Verständnis- als auch bei Abrufaufgaben aus.

Wir führten einen Benchmark mit dem jina-embeddings-v2-code Corpus durch und verglichen drei Modelle als Backbones: ModernBERT, jina-XLM-RoBERTa und RoBERTa-large. Der Test? CodeSearchNet – Zuordnung von Textbeschreibungen zu Code-Snippets. ModernBERT übertraf beide Alternativen in allen Bereichen.

Die Lücke ergibt Sinn – weder jina-XLM-RoBERTa noch RoBERTa-large sahen während des Trainings Programmiersprachen. Währenddessen wurde ModernBERT-large mit zwei Billionen Token trainiert, einschließlich einer beträchtlichen Menge an Code. Diese Exposition gegenüber Programmiersyntax und -mustern verschafft ihm einen klaren Vorteil bei codebezogenen Aufgaben. jina-XLM-RoBERTa übertrifft RoBERTa-large leicht, wahrscheinlich aufgrund seiner größeren mehrsprachigen Trainingsdaten – gleiche Architektur, mehr Exposition. Dennoch liegen beide deutlich hinter ModernBERT-large zurück.

Aufgabe	ModernBERT-large	`jina-XLM-RoBERTa`	`RoBERTa-large`
AdvRetrieval	0.342	0.363	0.331
QueryRetrieval.python	0.521	0.530	0.525
QueryRetrieval java	0.679	0.633	0.644
QueryRetrieval.javascript	0.755	0.768	0.732
QueryRetrieval.php	0.815	0.781	0.755
QueryRetrieval.ruby	0.729	0.744	0.722
QueryRetrieval.go	0.833	0.809	0.796
Retrieval.go	0.778	0.750	0.759
Retrieval.java	0.840	0.792	0.796
Retrieval.javascript	0.817	0.792	0.757
Retrieval.php	0.852	0.805	0.796
Retrieval.python	0.849	0.816	0.787
Retrieval.ruby	0.849	0.796	0.803
Avg.	0.743	0.721	0.708

tagDer Tokenizer-Vorteil

Schauen wir uns an, warum ModernBERT Code so gut verarbeitet - es verwendet den OLMo Tokenizer, der speziell für Code trainiert wurde, anstelle der Standard-BERT/RoBERTa-Tokenizer.

Ein Tokenizer zerlegt UTF-8-Text in Tokens, die in Vektoren umgewandelt werden - diese verarbeitet das Modell tatsächlich. Während des Trainings lernt er, häufig vorkommende Zeichenfolgen zu einzelnen Tokens zu kombinieren. Der Unterschied? Ein Standard-Tokenizer könnte init in in + it aufteilen und dabei den Programmierkontext verpassen. Aber ModernBERTs codebewusster Tokenizer versteht es ohne Aufteilung.

Interessant wird es bei der Leerzeichenbehandlung: ModernBERT bewahrt Pythons führende Leerzeichen als einzelne Tokens und unterscheidet zwischen 4 und 8 Leerzeichen - entscheidend für die Code-Struktur. Währenddessen reduziert jina-XLM-RoBERTa alle aufeinanderfolgenden Leerzeichen auf ein einzelnes _, und RoBERTa-large behandelt jedes Leerzeichen als eigenes Token. Das bedeutet, dass ModernBERTs Encoder sauberere, aussagekräftigere Eingaben bei der Code-Verarbeitung erhält, während die anderen mit fragmentierten, weniger kohärenten Tokens arbeiten.

ModernBERT bewahrt Pythons führende Leerzeichen als einzelne Tokens und unterscheidet zwischen 4 und 8 Leerzeichen - entscheidend für die Code-Struktur; während die anderen mit fragmentierten, weniger kohärenten Tokens arbeiten.

tagModernBERTs Verarbeitung langer Kontexte

ModernBERT hat bei der Verarbeitung langer Texte bedeutende Fortschritte gemacht, dank seines umfangreichen Trainingskorpus (300 Mrd. Tokens mit 8.192-Token-Proben) und fortgeschrittener Techniken wie kombinierter globaler und lokaler Aufmerksamkeit.

Zur Bewertung der Fähigkeiten zur Verarbeitung langer Dokumente verwendeten wir den MLDR-Datensatz - ein umfassender Langtext-Benchmark für 13 Sprachen. Da ModernBERT derzeit nur Englisch unterstützt, konzentrierten wir uns auf MLDRs englische Teilmenge, um ModernBERT mit jina-XLM-RoBERTa zu vergleichen. Während beide Modelle 8K-Token-Eingaben verarbeiten können, wurde RoBERTa-large aufgrund seiner 512-Token-Beschränkung, die für Langtextanalysen unzureichend ist, von diesem Benchmark ausgeschlossen.

	ModernBERT-large	`jina-XLM-RoBERTa`
MLDR-en	0.351	0.290

ModernBERTs überlegene Leistung ist nicht nur auf sein umfangreiches Langtext-Training zurückzuführen - es liegt größtenteils an seiner innovativen Kombination von globalen und lokalen Aufmerksamkeitsmechanismen. Im Gegensatz zu jina-XLM-RoBERTa, das rechenintensive globale Aufmerksamkeit auf jede Schicht anwendet, verfolgt ModernBERT einen effizienteren Ansatz. Es wechselt zwischen globaler Aufmerksamkeit (verwendet in jeder dritten Schicht mit einem theta von 160.000) und lokaler Aufmerksamkeit (verwendet ein 128-Token-Schiebefenster mit einem theta von 100.000). Diese Hybridstrategie erhält hohe Leistung bei drastisch reduzierter Trainingszeit.

In ModernBERT verwendet jede dritte Schicht globale Aufmerksamkeit mit einem RoPE-Theta von 160.000 und die übrigen Schichten verwenden ein lokales 128-Token-Schiebefenster-Aufmerksamkeit mit einem RoPE-Theta von 10.000. —— ModernBERT

tagDie bittere Lektion?

Das Skalierungsgesetz und die bittere Lektion legen nahe, dass wesentliche Leistungsverbesserungen hauptsächlich durch die Erhöhung der Parameteranzahl und Trainingsdaten entstehen. Dieses Prinzip leitete unseren Ansatz, das Korpus zu erweitern und LoRA für aufgabenspezifische Anpassungen zu verwenden.

Allerdings hat ModernBERTs Erfolg gezeigt, dass wir die Kraft der architektonischen Optimierung unterschätzt haben. Es zeigt, dass SLMs durch bessere Daten-Modell-Effizienz außergewöhnliche Ergebnisse erzielen können, ohne unbedingt die Parameter zu skalieren. Ein kürzlicher Stella Embeddings technischer Bericht bestätigt diese Erkenntnis und zeigt, dass aktuelle Embedding-Modell-Trainingsmethoden ohne Vergrößerung von Korpus oder Modellgröße verbessert werden können.

Graph showing Scaling Law of Embedding Models with 'Parameter Size' on the x-axis and 'MTEB Performance' on the y-axis, featu — Skalierungsgesetz von Embedding-Modellen. Die durchschnittliche MTEB-Leistung bei englischen Aufgaben ist gegen die Anzahl der Modellparameter aufgetragen. Jeder Punkt repräsentiert ein Embedding-Modell. Die Trendlinie, die alle Modelle darstellt, ist hervorgehoben, wobei mehrsprachige Modelle in Cyan betont sind. Man kann sehen, dass jina-embeddings-v3 eine überlegene Leistung im Vergleich zu Modellen ähnlicher Größe zeigt und auch eine überlineare Verbesserung gegenüber seinem Vorgänger `jina-embeddings-v2` aufweist. Diese Grafik wurde erstellt durch Auswahl der Top-100 Embedding-Modelle aus der MTEB-Rangliste, unter Ausschluss derjenigen ohne Größeninformationen, typischerweise geschlossene oder proprietäre Modelle. Einreichungen, die als offensichtliches Trolling identifiziert wurden, wurden ebenfalls herausgefiltert.

In Zukunft erwarten wir geringere Rechenkosten und kleinere Modellgrößen, da wir tiefere Einblicke in die Datennutzung gewinnen und ModernBERTs Techniken implementieren. Kurzfristig können wir einfache Verbesserungen aus dem ModernBERT-Paper umsetzen - insbesondere die Integration von mehr codebezogenen Daten und die Adoption eines codefreundlichen Tokenizers. Komplexere Änderungen, wie der Wechsel zu einer deep-and-thin-Architektur oder das Bootstrapping großer Modelle aus kleineren, erfordern den Aufbau von Backbone-Modellen von Grund auf - eine mittelfristige Initiative.

Während ModernBERTs Effizienz bemerkenswert ist, weist seine Beschränkung auf Text auf zukünftige Herausforderungen hin. Mit der zunehmenden Popularität multimodaler Embedding-Modelle besteht unsere nächste Herausforderung darin, intelligentere, schnellere und leistungsfähigere Such-Grundlagenmodelle zu entwickeln, die Eingaben für multimodale Anwendungen verarbeiten können. Diese Anwendungen erfordern noch längere Kontextfenster - eine Effizienzherausforderung, die es noch zu lösen gilt.

tagFazit

In diesem Beitrag haben wir untersucht, wie ModernBERT BERT-Familie-Modelle durch drei Schlüsselinnovationen voranbringt: seine deep-and-thin-Architektur, optimierter Tokenizer und effiziente Skalierung mittels Weight Tiling. Diese Verbesserungen ermöglichen es ModernBERT, herausragende Leistung in einer relativ kompakten Größe zu liefern und dabei sowohl RoBERTa-large als auch jina-XLM-RoBERTa in verschiedenen Aufgaben zu übertreffen. ModernBERT zeigt, dass architektonische Verbesserungen wichtiger sein können als die Parametergröße und öffnet damit Türen für effizientere Modelle. Seine erfolgreiche Nutzung von Weight Tiling zeigt, wie progressives Skalieren die Trainingskosten reduzieren und gleichzeitig die Leistung erhalten oder sogar steigern kann. Zusätzlich deuten sein kompaktes Vokabular und gezielte Optimierungen auf wachsende Möglichkeiten für spezialisierte SLMs in ressourcenbeschränkten Umgebungen hin.