Hardware-Anforderungen – Fleet Navigator optimal nutzen

Was braucht Fleet Navigator?

Faustregel: Dein Rechner sollte nicht älter als 5 Jahre sein und beim Kauf kein Einsteigermodell gewesen sein. Falls es auf älteren Geräten läuft – umso besser!

Komponente	Minimum	Empfohlen
Betriebssystem	Windows 10, Linux, macOS	Windows 11, aktuelle Linux-Distros
RAM	16 GB	32 GB
GPU	CPU-Modus möglich	Dedizierte GPU mit 12+ GB VRAM (NVIDIA, AMD oder Intel)
Speicher	10 GB	20 GB (für mehrere Modelle)

Warum eine Grafikkarte?

Lokale KI-Modelle laufen auf der CPU – aber langsam. Eine dedizierte Grafikkarte beschleunigt die Verarbeitung um den Faktor 10-20.

Welche Grafikkarten werden unterstützt?

Fleet Navigator nutzt Vulkan – damit laufen alle modernen Grafikkarten:

NVIDIA: RTX 3060 und neuer
AMD: RX 6000-Serie und neuer (auch unter Windows!)
Intel Arc: A750, A770 – interessant wegen günstigem VRAM (A770 = 16 GB für ca. 300€)

Hersteller	Empfohlene Karten	VRAM
NVIDIA	RTX 3060, 3090, 4090	12-24 GB
AMD	RX 6800 XT, 7900 XTX	16-24 GB
Intel	Arc A770	16 GB

Wie viel VRAM brauche ich?

GPU-Klasse	VRAM	Geeignet für
Einstieg	12 GB	Einzelplatz, kleinere Modelle (8B Parameter)
Mittelklasse	16 GB	Einzelplatz, komfortables Arbeiten
High-End	24 GB	Größere Modelle (bis 70B quantisiert), Mehrplatz
Multi-GPU	48 GB+	Mehrplatz oder sehr große Modelle

Hardware-Vergleich: Apple, NVIDIA, AMD, Intel

Detaillierter Vergleich aller Plattformen für lokale LLM-Inferenz mit Vulkan-Fokus:

Wichtig: VRAM addiert sich nicht automatisch. Zwei Karten mit je 12 GB ergeben nicht 24 GB nutzbaren Speicher. Für größere Modelle brauchst du eine einzelne Karte mit mehr VRAM.

Was sind Tokens?

Tokens sind die Währung der Sprachmodelle. Ein Token ist ein Textbaustein – manchmal ein ganzes Wort, manchmal nur ein Wortteil.

Faustregel für deutsche Texte: 1 Token ≈ 4 Zeichen

Text	ca. Tokens
„Hallo“	1 Token
„Rechtsanwalt“	3-4 Tokens
Eine DIN-A4-Seite	400-500 Tokens
40-Seiten-Vertrag	16.000-20.000 Tokens

Wenn Fleet Navigator eine Antwort generiert, entstehen Tokens – und die Geschwindigkeit misst man in Tokens pro Sekunde (tok/s). Mehr ist besser: Bei 10 tok/s liest du die Antwort beim Erscheinen mit, bei 80 tok/s ist sie quasi sofort da.

Wie schnell ist meine Hardware?

Richtwerte für ein 8B-Modell (z.B. Llama 3.1 8B):

Hardware	ca. Tokens/Sekunde	Gefühl
Nur CPU (modern)	5-10 tok/s	Nutzbar, aber Geduld nötig
Intel Arc A770	25-35 tok/s	Flüssig
RTX 3060 / RX 6800	30-50 tok/s	Flüssig
RTX 4090 / RX 7900 XTX	80-120 tok/s	Sehr schnell

Für größere Modelle (70B) sinkt die Geschwindigkeit:

Hardware	ca. Tokens/Sekunde
RTX 4090 (24 GB)	15-25 tok/s
2x RTX 4090	25-40 tok/s

Diese Werte sind Richtwerte – die tatsächliche Geschwindigkeit hängt von Modell, Quantisierung und Systemkonfiguration ab.

Das „Loch in der Mitte“ – Grenzen lokaler Modelle

Kleinere Modelle (7B-8B Parameter) haben eine wichtige Einschränkung: Bei langen Dokumenten „vergessen“ sie Inhalte in der Mitte.

Was passiert?

Stell dir vor, du gibst dem Modell ein 40-seitiges Dokument:

Seite 1-5: Wird gut erfasst (Anfang des Kontexts)
Seite 15-25: Details werden übersehen („Lost in the Middle“)
Seite 36-40: Wird wieder gut erfasst (Ende des Kontexts)

Das bedeutet: Wenn eine wichtige Klausel auf Seite 20 steht, könnte ein kleineres Modell sie bei der Analyse übersehen.

Unsere Lösung:

Transparenz: Fleet Navigator zeigt an, wenn ein Dokument die sichere Verarbeitungsgrenze überschreitet
Chunking: Lange Dokumente werden in Abschnitte zerlegt und separat analysiert
RAG-Ansatz: Statt das ganze Dokument in den Kontext zu laden, werden nur relevante Passagen abgerufen

Praktische Grenzen:

Modellgröße	Sichere Dokumentlänge
8B Parameter	ca. 30-40 Seiten
70B Parameter	ca. 80-100 Seiten

Für längere Dokumente empfehlen wir den RAG-Ansatz mit Vektordatenbank.

RAG vs. Dokument im Kontext

Was bedeutet RAG?

RAG steht für „Retrieval-Augmented Generation“ – auf Deutsch etwa „abrufgestützte Texterzeugung“. Die Idee: Statt einem Sprachmodell ein ganzes Dokument zu geben, sucht das System zuerst die relevanten Stellen heraus und gibt nur diese an das Modell weiter.

Stell dir vor, du fragst: „Was steht im Mietvertrag zur Kündigungsfrist?“ Statt 30 Seiten Mietvertrag zu durchsuchen, findet RAG den passenden Paragraphen und das Modell beantwortet nur auf dieser Basis.

Es gibt zwei Wege, wie Fleet Navigator mit deinen Dokumenten arbeitet:

Dokument direkt im Kontext

Du lädst ein PDF hoch
Das gesamte Dokument wird in den Kontext geladen
Das Modell „sieht“ alles auf einmal

Vorteile: Einfach, funktioniert sofort
Nachteile: Langsam bei großen Dokumenten, „Loch in der Mitte“, GPU lange blockiert

RAG mit integrierter Vektordatenbank im Fleet Navigator

Der Fleet Navigator verfügt über eine fest eingebaute Vektordatenbank, die speziell für Retrieval-Augmented Generation (RAG) ausgelegt ist. Dokumente werden dabei einmalig vorverarbeitet, semantisch zerlegt und als Vektoren lokal gespeichert. Die Daten bleiben vollständig auf dem eigenen System.

Bei einer Anfrage sucht der Fleet Navigator nicht im gesamten Dokumentenbestand, sondern ruft gezielt nur die inhaltlich relevanten Passagen ab. Diese werden dem Sprachmodell kontextuell bereitgestellt und in die Antwort integriert.

Statt mehrere tausend Tokens pauschal zu verarbeiten, arbeitet das Modell typischerweise mit ca. 500 hochrelevanten Tokens statt 15.000 oder mehr. Das führt zu deutlich schnelleren Antworten und einer stabileren Qualität, insbesondere bei großen Dokumentensammlungen.

Technische Vorteile

Hohe Geschwindigkeit durch gezielten Kontextabruf
Kein „Loch in der Mitte“ bei langen Dokumenten – relevante Inhalte gehen nicht verloren
Schonender GPU-Einsatz, da das Modell nur kurz und effizient rechnet
Skalierbar von wenigen Dokumenten bis zu großen Wissensarchiven

Technische Einschränkung

Die Dokumente müssen einmalig indexiert werden
(dies geschieht lokal und im Hintergrund)

Was wird dadurch möglich?

Durch die integrierte Vektordatenbank wird der Fleet Navigator zu einem echten Wissenssystem – nicht nur zu einem Chatbot.

Kanzlei-Wissensdatenbank
Alle Musterverträge, Schriftsätze und Urteile werden semantisch durchsuchbar. Roland findet innerhalb von Sekunden die passende Vorlage oder eine relevante Argumentationslinie.

Persönliches Archiv
Jahrelange E-Mail-Korrespondenz, Notizen und Dokumente werden zu einem strukturierten, durchsuchbaren Wissensschatz – ohne Cloud, ohne Datenabfluss.

Gesetzestexte und Kommentare
Aktuelle Gesetze, Verordnungen und Kommentare können indexiert werden. Bei Anfragen bezieht der Fleet Navigator automatisch die relevanten Paragraphen und Abschnitte in die Antwort ein.

Mandantenakten
Schneller Zugriff auf alle fallbezogenen Informationen, ohne jedes Dokument einzeln öffnen oder durchsuchen zu müssen. Der Kontext entsteht dynamisch aus den relevanten Aktenbestandteilen.

Empfehlung für den Büroalltag

Für den produktiven Einsatz empfiehlt sich eine klare Trennung:

In die Vektordatenbank:
Häufig genutzte Dokumente wie Gesetzestexte, Vorlagen, Handbücher, interne Richtlinien
Direkt verarbeiten:
Einzelne Dokumente oder kurzfristige Dateien, die nicht dauerhaft benötigt werden

So bleibt der Fleet Navigator schnell, präzise und jederzeit kontrollierbar. Einzelne Dokumente für schnelle Analyse weiterhin direkt hochladen.

Mehrplatzsysteme

Fleet Navigator kann als Server für mehrere Arbeitsplätze eingerichtet werden. Ein leistungsstarker Rechner im Netzwerk versorgt das ganze Büro.

Wie viele Arbeitsplätze pro GPU?

Das hängt von der Nutzung ab:

RAG-Anfragen (Recherche, gezielte Fragen gegen indexierte Dokumente):

GPU ist nur kurz blockiert
Eine RTX 4090 kann 5-6 Arbeitsplätze flüssig bedienen

Dokumentenanalyse (PDFs direkt hochladen, lange Texte generieren):

GPU ist länger blockiert
Eine RTX 4090 bedient realistisch 2-3 Arbeitsplätze

Empfehlungen

Arbeitsplätze	Hardware	Investition
2-3	Threadripper + 1x RTX 4090	ca. 5.000 – 7.000 €
4-6	Threadripper Pro + 2x RTX 4090	ca. 8.000 – 12.000 €
8-12	Threadripper Pro + 4x GPU	ca. 15.000 – 20.000 €

Diese Zahlen sind konservativ gerechnet. Bei überwiegender RAG-Nutzung kann ein System auch mehr Arbeitsplätze bedienen.

Laptops

Die meisten Business-Laptops haben nur integrierte Grafik – Fleet Navigator läuft dann im CPU-Modus. Das funktioniert, ist aber spürbar langsamer.

Gaming-Laptops mit dedizierter GPU (RTX 3060 Mobile, RTX 4060 Mobile) sind deutlich schneller. Beachte aber: Mobile GPUs haben oft weniger VRAM und Leistung als ihre Desktop-Pendants.

Wichtig bei Laptops:

Netzteil anschließen – im Akkubetrieb drosselt die GPU
Für gute Belüftung sorgen – KI-Modelle lasten die Hardware voll aus
Laptops können dabei unangenehm heiß werden, das ist bei Volllast normal

Alternative: Externe Grafikkarte (eGPU) Über Thunderbolt 3/4 lässt sich eine Desktop-GPU an den Laptop anschließen. Nicht ganz so schnell wie im Desktop, aber eine Option für Laptops ohne dedizierte Grafik.

Mac-Systeme

Apple Silicon (M1, M2, M3, M4) eignet sich theoretisch gut für lokale KI:

Chip	Unified Memory	Einschätzung
M1/M2	8-16 GB	Funktioniert, aber langsam
M3/M4	16-24 GB	Guter Einzelarbeitsplatz
M3/M4 Pro/Max	36-128 GB	Sehr leistungsfähig

Der Vorteil: Bei Apple teilen sich CPU und GPU den Arbeitsspeicher. Ein M3 Max mit 64 GB könnte Modelle laden, die auf einer RTX 3060 nicht passen würden.

Hinweis: Mac-Unterstützung ist derzeit in Planung. Uns fehlt aktuell die Hardware zum Testen. Wenn du einen Mac besitzt und Fleet Navigator gerne auf Apple Silicon nutzen möchtest, freuen wir uns über eine Zusammenarbeit als Testpartner.

→ Als Testpartner melden

Unsere Empfehlung

Für Einsteiger: Vorhandenen Rechner nutzen, Fleet Navigator im CPU-Modus testen. Wenn es gefällt: Grafikkarte mit 12+ GB VRAM nachrüsten – ob NVIDIA, AMD oder Intel ist Geschmackssache.

Für den Einzelarbeitsplatz: Eine Karte mit 24 GB VRAM bietet das beste Preis-Leistungs-Verhältnis für anspruchsvolle Aufgaben. NVIDIA RTX 4090, AMD RX 7900 XTX oder vergleichbare Modelle.

Budget-Tipp: Intel Arc A770 mit 16 GB VRAM für ca. 300€ – solide Leistung zum kleinen Preis.

Für Kanzleien und Büros: Mehrplatzsystem planen. Wir beraten dich gerne zur passenden Konfiguration.

→ Kontakt aufnehmen

Hast du Fragen zur Hardware? Schreib uns – wir helfen dir, die richtige Lösung zu finden.