Pressemitteilungen
Modelle
Produkte
keyboard_arrow_down
DeepSearch
Suchen, lesen und überlegen, bis die beste Antwort gefunden ist.
Leser
Lesen Sie URLs und suchen Sie im Internet nach fundierteren LLMs.
Einbettungen
Multimodale und mehrsprachige Einbettungen von Weltklasse.
Reranker
Neural Retriever der Weltklasse zur Maximierung der Suchrelevanz.
Mehr
keyboard_arrow_down
Klassifikator
Zero-Shot- und Few-Shot-Klassifizierung für Bild und Text.
Segmentierer
Schneiden Sie langen Text in Abschnitte und führen Sie eine Tokenisierung durch.

API-Dokumente
Automatische Codegenerierung für Ihre Copilot-IDE oder LLM
open_in_new


Unternehmen
keyboard_arrow_down
Über uns
Kontaktieren Sie unseren Vertrieb
Praktikantenprogramm
Begleiten Sie uns
open_in_new
Logo herunterladen
open_in_new
Terms & amp; Bedingungen


Einloggen
login
Begrenzung der Kosinus-Ähnlichkeit
Validierung der Grenzen
Verständnis der Grenzen
Implikationen der Grenzen
star
Hervorgehoben
Tech-Blog
Januar 23, 2024

Bedeutet die Kosinus-Ähnlichkeit im Unterraum auch Kosinus-Ähnlichkeit in höheren Dimensionen?

Bedeutet eine hohe Ähnlichkeit im Unterraum auch eine hohe Gesamtähnlichkeit zwischen Vektoren? Dieser Beitrag untersucht die Theorie und praktischen Auswirkungen der Unterraum-Ähnlichkeit.
Diagram illustrating a neural network process with smiley faces and repeated mentions of "Similar" on a blackboard-like backg
Han Xiao
Han Xiao • 9 Minuten gelesen
💡
Am 25. Januar 2024 veröffentlichte OpenAI ein neues Embedding-Modell mit einer neuen Funktion namens "Shortening", die es Entwicklern ermöglicht, Embeddings zu kürzen – im Wesentlichen durch Abschneiden von Zahlen am Ende der Sequenz – ohne die Fähigkeit des Embeddings zu beeinträchtigen, Konzepte effektiv zu repräsentieren. Tauchen Sie in diesen Beitrag ein, um eine solide theoretische Grundlage für die Machbarkeit und Begründung dieser Innovation zu erhalten.

Betrachten Sie dies: Wenn man die Kosinus-Ähnlichkeit von Embedding-Vektoren in hochdimensionalen Räumen misst, wie impliziert ihre Ähnlichkeit in niedrigdimensionalen Teilräumen die Gesamtähnlichkeit? Gibt es eine direkte, proportionale Beziehung, oder ist die Realität bei hochdimensionalen Daten komplexer?

Konkreter ausgedrückt: Garantiert eine hohe Ähnlichkeit zwischen Vektoren in ihren ersten 256 Dimensionen auch eine hohe Ähnlichkeit in ihren vollen 768 Dimensionen? Andersherum gefragt: Wenn sich Vektoren in einigen Dimensionen deutlich unterscheiden, bedeutet dies eine niedrige Gesamtähnlichkeit? Dies sind keine rein theoretischen Überlegungen; sie sind entscheidende Aspekte für effizientes Vector Retrieval, Database Indexing und die Leistung von RAG-Systemen.

Entwickler verlassen sich oft auf Heuristiken und nehmen an, dass eine hohe Teilraum-Ähnlichkeit einer hohen Gesamtähnlichkeit entspricht oder dass bemerkenswerte Unterschiede in einer Dimension die Gesamtähnlichkeit signifikant beeinflussen. Die Frage ist: Basieren diese heuristischen Methoden auf einer soliden theoretischen Grundlage, oder sind es lediglich pragmatische Annahmen?

Dieser Beitrag geht diesen Fragen nach und untersucht die Theorie und praktischen Implikationen der Teilraum-Ähnlichkeit in Bezug auf die Gesamtvektor-Ähnlichkeit.

tagBegrenzung der Kosinus-Ähnlichkeit

Gegeben seien Vektoren A,B∈Rd\mathbf{A}, \mathbf{B}\in \mathbb{R}^dA,B∈Rd, die wir in A=[A1,A2]\mathbf{A}=[\mathbf{A}_1, \mathbf{A}_2]A=[A1​,A2​] und B=[B1,B2]\mathbf{B}=[\mathbf{B}_1, \mathbf{B}_2]B=[B1​,B2​] zerlegen, wobei A1,B1∈Rm\mathbf{A}_1,\mathbf{B}_1\in\mathbb{R}^mA1​,B1​∈Rm und A2,B2∈Rn\mathbf{A}_2,\mathbf{B}_2\in\mathbb{R}^nA2​,B2​∈Rn, mit m+n=dm+n=dm+n=d.

Die Kosinus-Ähnlichkeit im Teilraum Rm\mathbb{R}^mRm ist gegeben durch cos⁡(A1,B1)=A1⋅B1∥A1∥∥B1∥\cos(\mathbf{A}_1, \mathbf{B}_1)=\frac{\mathbf{A}_1\cdot\mathbf{B}_1}{\|\mathbf{A}_1\|\|\mathbf{B}_1\|}cos(A1​,B1​)=∥A1​∥∥B1​∥A1​⋅B1​​; entsprechend ist die Ähnlichkeit im Teilraum Rn\mathbb{R}^nRn gleich cos⁡(A2,B2)=A2⋅B2∥A2∥∥B2∥\cos(\mathbf{A}_2, \mathbf{B}_2)=\frac{\mathbf{A}_2\cdot\mathbf{B}_2}{\|\mathbf{A}_2\|\|\mathbf{B}_2\|}cos(A2​,B2​)=∥A2​∥∥B2​∥A2​⋅B2​​.

Im ursprünglichen Raum Rd\mathbb{R}^dRd ist die Kosinus-Ähnlichkeit definiert als:cos⁡(A,B)=A⋅B∥A∥∥B∥=A1⋅B1+A2⋅B2∥A1∥2+∥A2∥2∥B1∥2+∥B2∥2=cos⁡(A1,B1)∥A1∥∥B1∥+cos⁡(A2,B2)∥A2∥∥B2∥∥A1∥2+∥A2∥2∥B1∥2+∥B2∥2\begin{align*}\cos(\mathbf{A},\mathbf{B})&=\frac{\mathbf{A}\cdot\mathbf{B}}{\|\mathbf{A}\|\|\mathbf{B}\|}\\&=\frac{\mathbf{A}_1\cdot\mathbf{B}_1+\mathbf{A}_2\cdot\mathbf{B}_2}{\sqrt{\|\mathbf{A}_1\|^2+\|\mathbf{A}_2\|^2}\sqrt{\|\mathbf{B}_1\|^2+\|\mathbf{B}_2\|^2}}\\&=\frac{\cos(\mathbf{A}_1, \mathbf{B}_1)\|\mathbf{A}_1\|\|\mathbf{B}_1\|+\cos(\mathbf{A}_2, \mathbf{B}_2)\|\mathbf{A}_2\|\|\mathbf{B}_2\|}{\sqrt{\|\mathbf{A}_1\|^2+\|\mathbf{A}_2\|^2}\sqrt{\|\mathbf{B}_1\|^2+\|\mathbf{B}_2\|^2}}\end{align*}cos(A,B)​=∥A∥∥B∥A⋅B​=∥A1​∥2+∥A2​∥2​∥B1​∥2+∥B2​∥2​A1​⋅B1​+A2​⋅B2​​=∥A1​∥2+∥A2​∥2​∥B1​∥2+∥B2​∥2​cos(A1​,B1​)∥A1​∥∥B1​∥+cos(A2​,B2​)∥A2​∥∥B2​∥​​

Sei nun s:=max⁡(cos⁡(A1,B1),cos⁡(A2,B2))s := \max(\cos(\mathbf{A}_1, \mathbf{B}_1), \cos(\mathbf{A}_2, \mathbf{B}_2))s:=max(cos(A1​,B1​),cos(A2​,B2​)). Dann gilt:cos⁡(A,B)≤s∥A1∥∥B1∥+s∥A2∥∥B2∥∥A1∥2+∥A2∥2∥B1∥2+∥B2∥2=∥A1∥∥B1∥+∥A2∥∥B2∥∥A1∥2+∥A2∥2∥B1∥2+∥B2∥2⋅s=cos⁡([∥A1∥,∥A2∥]⏟R2,[∥B1∥,∥B2∥]⏟R2)⋅s≤1⋅s=max⁡(cos⁡(A1,B1),cos⁡(A2,B2))\begin{align*}\cos(\mathbf{A},\mathbf{B})&\leq\frac{s\|\mathbf{A}_1\|\|\mathbf{B}_1\|+s\|\mathbf{A}_2\|\|\mathbf{B}_2\|}{\sqrt{\|\mathbf{A}_1\|^2+\|\mathbf{A}_2\|^2}\sqrt{\|\mathbf{B}_1\|^2+\|\mathbf{B}_2\|^2}}\\&=\frac{\|\mathbf{A}_1\|\|\mathbf{B}_1\|+\|\mathbf{A}_2\|\|\mathbf{B}_2\|}{\sqrt{\|\mathbf{A}_1\|^2+\|\mathbf{A}_2\|^2}\sqrt{\|\mathbf{B}_1\|^2+\|\mathbf{B}_2\|^2}}\cdot s\\&=\cos(\underbrace{[\|\mathbf{A}_1\|, \|\mathbf{A}_2\|]}_{\mathbb{R}^2}, \underbrace{[\|\mathbf{B}_1\|, \|\mathbf{B}_2\|]}_{\mathbb{R}^2})\cdot s\\&\leq 1\cdot s \\&= \max(\cos(\mathbf{A}_1, \mathbf{B}_1), \cos(\mathbf{A}_2, \mathbf{B}_2))\end{align*}cos(A,B)​≤∥A1​∥2+∥A2​∥2​∥B1​∥2+∥B2​∥2​s∥A1​∥∥B1​∥+s∥A2​∥∥B2​∥​=∥A1​∥2+∥A2​∥2​∥B1​∥2+∥B2​∥2​∥A1​∥∥B1​∥+∥A2​∥∥B2​∥​⋅s=cos(R2[∥A1​∥,∥A2​∥]​​,R2[∥B1​∥,∥B2​∥]​​)⋅s≤1⋅s=max(cos(A1​,B1​),cos(A2​,B2​))​

Ende des Beweises.

Beachten Sie, dass wir im letzten Schritt des Beweises ausnutzen, dass die Kosinus-Ähnlichkeit immer kleiner oder gleich 1 ist. Dies bildet unsere obere Schranke. Analog können wir zeigen, dass die untere Schranke von cos⁡(A,B)\cos(\mathbf{A},\mathbf{B})cos(A,B) gegeben ist durch:

cos⁡(A,B)≥t⋅cos⁡([∥A1∥,∥A2∥],[∥B1∥,∥B2∥]) \cos(\mathbf{A},\mathbf{B}) \geq t \cdot \cos([\|\mathbf{A}_1\|, \|\mathbf{A}_2\|], [\|\mathbf{B}_1\|, \|\mathbf{B}_2\|]) cos(A,B)≥t⋅cos([∥A1​∥,∥A2​∥],[∥B1​∥,∥B2​∥]), wobei t:=min⁡(cos⁡(A1,B1),cos⁡(A2,B2))t:= \min(\cos(\mathbf{A}_1, \mathbf{B}_1), \cos(\mathbf{A}_2, \mathbf{B}_2))t:=min(cos(A1​,B1​),cos(A2​,B2​)).

Beachten Sie, dass wir für die untere Schranke nicht vorschnell schließen können, dass cos⁡(A,B)≥t\cos(\mathbf{A},\mathbf{B}) \geq tcos(A,B)≥t. Dies liegt am Wertebereich der Kosinus-Funktion, der zwischen [−1,1][-1, 1][−1,1] liegt. Aufgrund dieses Bereichs ist es unmöglich, eine engere untere Schranke als den trivialen Wert von -1 festzulegen.

Zusammenfassend haben wir also die folgende lockere Schranke: −1≤cos⁡(A,B)≤max⁡(cos⁡(A1,B1),cos⁡(A2,B2)). -1\leq\cos(\mathbf{A},\mathbf{B})\leq\max(\cos(\mathbf{A}_1, \mathbf{B}_1), \cos(\mathbf{A}_2, \mathbf{B}_2)).−1≤cos(A,B)≤max(cos(A1​,B1​),cos(A2​,B2​)). und eine engere Schranke γ⋅t≤cos⁡(A,B)≤γ⋅sγ⋅min⁡(cos⁡(A1,B1),cos⁡(A2,B2))≤cos⁡(A,B)≤γ⋅max⁡(cos⁡(A1,B1),cos⁡(A2,B2))\begin{align*} \gamma \cdot t\leq&\cos(\mathbf{A}, \mathbf{B}) \leq\gamma\cdot s\\\gamma \cdot \min(\cos(\mathbf{A}_1, \mathbf{B}_1), \cos(\mathbf{A}_2, \mathbf{B}_2)) \leq &\cos(\mathbf{A}, \mathbf{B}) \leq \gamma \cdot \max(\cos(\mathbf{A}_1, \mathbf{B}_1), \cos(\mathbf{A}_2, \mathbf{B}_2))\end{align*}γ⋅t≤γ⋅min(cos(A1​,B1​),cos(A2​,B2​))≤​cos(A,B)≤γ⋅scos(A,B)≤γ⋅max(cos(A1​,B1​),cos(A2​,B2​))​, wobei γ=cos⁡([∥A1∥,∥A2∥],[∥B1∥,∥B2∥])\gamma = \cos([\|\mathbf{A}_1\|, \|\mathbf{A}_2\|], [\|\mathbf{B}_1\|, \|\mathbf{B}_2\|]) γ=cos([∥A1​∥,∥A2​∥],[∥B1​∥,∥B2​∥]).

tagVerbindung zum Johnson–Lindenstrauss-Lemma

Das JL-Lemma besagt, dass für jedes 0<ϵ<10 < \epsilon < 10<ϵ<1 und jede endliche Menge von Punkten S S S in Rd \mathbb{R}^d Rd eine Abbildung f:Rd→Rk f: \mathbb{R}^d \rightarrow \mathbb{R}^k f:Rd→Rk (mit k=O(ϵ−2log⁡∣S∣) k = O(\epsilon^{-2} \log |S|) k=O(ϵ−2log∣S∣)) existiert, sodass für alle u,v∈S \mathbf{u}, \mathbf{v} \in S u,v∈S die euklidischen Abstände annähernd erhalten bleiben:

(1−ϵ)∥u−v∥2≤∥f(u)−f(v)∥2≤(1+ϵ)∥u−v∥2(1 - \epsilon) \|\mathbf{u} - \mathbf{v}\|^2 \leq \|f(\mathbf{u}) - f(\mathbf{v})\|^2 \leq (1 + \epsilon) \|\mathbf{u} - \mathbf{v}\|^2(1−ϵ)∥u−v∥2≤∥f(u)−f(v)∥2≤(1+ϵ)∥u−v∥2

Johnson–Lindenstrauss lemma - Wikipedia
Wikimedia Foundation, Inc.Contributors to Wikimedia projects

Um fff wie eine Teilraumauswahl arbeiten zu lassen, können wir eine Diagonalmatrix zur Projektion verwenden, wie zum Beispiel eine 5×35 \times 35×3 Matrix fff, wenn auch nicht zufällig (beachten Sie, die typische Formulierung des JL-Lemmas beinhaltet lineare Transformationen, die oft zufällige Matrizen aus einer Gauß-Verteilung verwenden). Wenn wir beispielsweise die 1., 3. und 5. Dimension aus einem 5-dimensionalen Vektorraum beibehalten wollen, könnte die Matrix fff wie folgt gestaltet werden: f=[100000010000001]f = \begin{bmatrix}1 & 0 & 0 \\0 & 0 & 0 \\0 & 1 & 0 \\0 & 0 & 0 \\0 & 0 & 1\end{bmatrix}f=​10000​00100​00001​​
Indem wir fff jedoch als diagonal festlegen, schränken wir die Klasse der Funktionen ein, die für die Projektion verwendet werden können. Das JL-Lemma garantiert die Existenz eines geeigneten fff innerhalb der breiteren Klasse linearer Transformationen, aber wenn wir fff auf Diagonalmatrizen beschränken, existiert möglicherweise kein geeignetes fff innerhalb dieser eingeschränkten Klasse für die Anwendung der JL-Lemma-Grenzen.

tagValidierung der Grenzen

Um die theoretischen Grenzen der Kosinus-Ähnlichkeit in hochdimensionalen Vektorräumen empirisch zu untersuchen, können wir eine Monte-Carlo-Simulation verwenden. Diese Methode ermöglicht es uns, eine große Anzahl zufälliger Vektorpaare zu generieren, ihre Ähnlichkeiten sowohl im ursprünglichen Raum als auch in Teilräumen zu berechnen und dann zu bewerten, wie gut die theoretischen oberen und unteren Grenzen in der Praxis gelten.

Der folgende Python-Code-Ausschnitt implementiert dieses Konzept. Er generiert zufällig Vektorpaare in einem hochdimensionalen Raum und berechnet ihre Kosinus-Ähnlichkeit. Dann teilt er jeden Vektor in zwei Teilräume auf, berechnet die Kosinus-Ähnlichkeit innerhalb jedes Teilraums und evaluiert die oberen und unteren Grenzen der vollständig-dimensionalen Kosinus-Ähnlichkeit basierend auf den Teilraum-Ähnlichkeiten.

import numpy as np


def compute_cosine_similarity(U, V):
    # Normalize the rows to unit vectors
    U_norm = U / np.linalg.norm(U, axis=1, keepdims=True)
    V_norm = V / np.linalg.norm(V, axis=1, keepdims=True)
    # Compute pairwise cosine similarity
    return np.sum(U_norm * V_norm, axis=1)


# Generate random data
num_points = 5000
d = 1024
A = np.random.random([num_points, d])
B = np.random.random([num_points, d])

# Compute cosine similarity between A and B
cos_sim = compute_cosine_similarity(A, B)

# randomly divide A and B into subspaces
m = np.random.randint(1, d)
A1 = A[:, :m]
A2 = A[:, m:]
B1 = B[:, :m]
B2 = B[:, m:]

# Compute cosine similarity in subspaces
cos_sim1 = compute_cosine_similarity(A1, B1)
cos_sim2 = compute_cosine_similarity(A2, B2)

# Find the element-wise maximum and minimum of cos_sim1 and cos_sim2
s = np.maximum(cos_sim1, cos_sim2)
t = np.minimum(cos_sim1, cos_sim2)

norm_A1 = np.linalg.norm(A1, axis=1)
norm_A2 = np.linalg.norm(A2, axis=1)
norm_B1 = np.linalg.norm(B1, axis=1)
norm_B2 = np.linalg.norm(B2, axis=1)

# Form new vectors in R^2 from the norms
norm_A_vectors = np.stack((norm_A1, norm_A2), axis=1)
norm_B_vectors = np.stack((norm_B1, norm_B2), axis=1)

# Compute cosine similarity in R^2
gamma = compute_cosine_similarity(norm_A_vectors, norm_B_vectors)

# print some info and validate the lower bound and upper bound
print('d: %d\n'
      'm: %d\n'
      'n: %d\n'
      'avg. cosine(A,B): %f\n'
      'avg. upper bound: %f\n'
      'avg. lower bound: %f\n'
      'lower bound satisfied: %s\n'
      'upper bound satisfied: %s' % (
          d, m, (d - m), np.mean(cos_sim), np.mean(s), np.mean(gamma * t), np.all(s >= cos_sim),
          np.all(gamma * t <= cos_sim)))

Ein Monte Carlo Validator zur Überprüfung der Cosinus-Ähnlichkeitsgrenzen

d: 1024
m: 743
n: 281
avg. cosine(A,B): 0.750096
avg. upper bound: 0.759080
avg. lower bound: 0.741200
lower bound satisfied: True
upper bound satisfied: True

Eine Beispielausgabe unseres Monte Carlo Validators. Es ist wichtig zu beachten, dass die lower/upper bound satisfied Bedingung für jeden Vektor einzeln überprüft wird. Die avg. lower/upper bound bietet hingegen einen intuitiveren Überblick über die Statistiken dieser Grenzen, beeinflusst aber nicht direkt den Validierungsprozess.

tagVerständnis der Grenzen

Kurz gesagt: Beim Vergleich zweier hochdimensionaler Vektoren liegt die Gesamtähnlichkeit zwischen den besten und schlechtesten Ähnlichkeiten ihrer Teilräume, angepasst an die Größe oder Bedeutung dieser Teilräume im Gesamtkontext. Dies ist es, was die Grenzen für die Cosinus-Ähnlichkeit in höheren Dimensionen intuitiv darstellen: die Balance zwischen den ähnlichsten und unähnlichsten Teilen, gewichtet nach ihrer relativen Größe oder Bedeutung.

Illustrative comparison of two stylus pen caps and bodies with labeled sections on a black background
Jeder Stift hat zwei Hauptkomponenten: den Körper und die Kappe.

Stellen Sie sich vor, Sie versuchen, zwei mehrteilige Objekte (sagen wir, zwei edle Stifte) basierend auf ihrer Gesamtähnlichkeit zu vergleichen. Jeder Stift hat zwei Hauptkomponenten: den Körper und die Kappe. Die Ähnlichkeit des gesamten Stifts (sowohl Körper als auch Kappe) ist das, was wir bestimmen möchten:

tagObere Grenze (γ⋅s\gamma \cdot sγ⋅s)

Betrachten Sie sss als die beste Übereinstimmung zwischen entsprechenden Teilen der Stifte. Wenn die Kappen sehr ähnlich sind, aber die Körper nicht, ist sss die Ähnlichkeit der Kappen.

γ\gammaγ ist dabei wie ein Skalierungsfaktor basierend auf der Größe (oder Bedeutung) jedes Teils. Wenn ein Stift einen sehr langen Körper und eine kurze Kappe hat, während der andere einen kurzen Körper und eine lange Kappe hat, passt γ\gammaγ die Gesamtähnlichkeit an diese Proportionsunterschiede an.

Die obere Grenze sagt uns, dass die Gesamtähnlichkeit unabhängig davon, wie ähnlich einige Teile sind, diese "beste Teilähnlichkeit" skaliert mit dem Proportionsfaktor nicht überschreiten kann.

tagUntere Grenze (γ⋅t\gamma \cdot tγ⋅t)

Hier ist ttt die Ähnlichkeit der am wenigsten übereinstimmenden Teile. Wenn sich die Körper der Stifte stark unterscheiden, aber die Kappen ähnlich sind, spiegelt ttt die Ähnlichkeit der Körper wider.

Auch hier skaliert γ\gammaγ dies basierend auf dem Anteil jedes Teils.

Die untere Grenze bedeutet, dass die Gesamtähnlichkeit nicht schlechter sein kann als diese "schlechteste Teilähnlichkeit" nach Berücksichtigung des Anteils jedes Teils.

tagImplikationen der Grenzen

Für Softwareentwickler, die mit Embeddings, Vektorsuche, Retrieval oder Datenbanken arbeiten, hat das Verständnis dieser Grenzen praktische Auswirkungen, besonders beim Umgang mit hochdimensionalen Daten. Die Vektorsuche beinhaltet oft das Finden der nächstgelegenen (ähnlichsten) Vektoren in einer Datenbank zu einem gegebenen Abfragevektor, typischerweise unter Verwendung der Cosinus-Ähnlichkeit als Maß für die Nähe. Die besprochenen Grenzen können Einblicke in die Effektivität und Grenzen der Verwendung von Teilraumähnlichkeiten für solche Aufgaben geben.

tagVerwendung der Teilraumähnlichkeit für das Ranking

Sicherheit und Genauigkeit: Die Verwendung der Teilraumähnlichkeit für das Ranking und Abrufen von Top-k-Ergebnissen kann effektiv sein, erfordert aber Vorsicht. Die obere Grenze zeigt, dass die Gesamtähnlichkeit die maximale Ähnlichkeit der Teilräume nicht überschreiten kann. Wenn also ein Vektorpaar in einem bestimmten Teilraum sehr ähnlich ist, ist es ein starker Kandidat für Ähnlichkeit im hochdimensionalen Raum.

Mögliche Fallstricke: Die untere Grenze deutet jedoch darauf hin, dass zwei Vektoren mit geringer Ähnlichkeit in einem Teilraum insgesamt noch recht ähnlich sein könnten. Daher könnte das ausschließliche Vertrauen auf die Teilraumähnlichkeit einige relevante Ergebnisse übersehen.

tagMissverständnisse und Vorsichtsmaßnahmen

Überschätzung der Teilraumbedeutung: Ein häufiges Missverständnis ist die Überschätzung der Bedeutung eines bestimmten Teilraums. Während hohe Ähnlichkeit in einem Teilraum ein guter Indikator ist, garantiert sie aufgrund des Einflusses anderer Teilräume keine hohe Gesamtähnlichkeit.

Ignorieren negativer Ähnlichkeiten: In Fällen, in denen die Cosinus-Ähnlichkeit in einem Teilraum negativ ist, zeigt dies eine gegensätzliche Beziehung in dieser Dimension an. Entwickler sollten vorsichtig sein, wie sich diese negativen Ähnlichkeiten auf die Gesamtähnlichkeit auswirken.

Kategorien:
star
Hervorgehoben
Tech-Blog
rss_feed
Büros
location_on
Sunnyvale, Kalifornien
710 Lakeway Dr, Ste 200, Sunnyvale, CA 94085, USA
location_on
Berlin, Deutschland (Hauptsitz)
Prinzessinnenstraße 19-20, 10969 Berlin, Deutschland
location_on
Peking, China
Ebene 5, Gebäude 6, Nr. 48 Haidian West St. Peking, China
location_on
Shenzhen, China
402 Etage 4, Fu'an Technology Building, Shenzhen, China
Stiftung durchsuchen
DeepSearch
Leser
Einbettungen
Reranker
Klassifikator
Segmentierer
API-Dokumentation
Jina API-Schlüssel abrufen
Ratenbegrenzung
API-Status
Unternehmen
Über uns
Kontaktieren Sie unseren Vertrieb
Pressemitteilungen
Praktikantenprogramm
Begleiten Sie uns
open_in_new
Logo herunterladen
open_in_new
Bedingungen
Sicherheit
Terms & amp; Bedingungen
Privatsphäre
Cookie-Einstellungen
email
Jina AI © 2020-2025.