Was braucht Fleet Navigator?
Faustregel: Dein Rechner sollte nicht älter als 5 Jahre sein und beim Kauf kein Einsteigermodell gewesen sein. Falls es auf älteren Geräten läuft – umso besser!
| Komponente | Minimum | Empfohlen |
|---|---|---|
| Betriebssystem | Windows 10, Linux, macOS | Windows 11, aktuelle Linux-Distros |
| RAM | 16 GB | 32 GB |
| GPU | CPU-Modus möglich | Dedizierte GPU mit 12+ GB VRAM (NVIDIA, AMD oder Intel) |
| Speicher | 10 GB | 20 GB (für mehrere Modelle) |
Warum eine Grafikkarte?
Lokale KI-Modelle laufen auf der CPU – aber langsam. Eine dedizierte Grafikkarte beschleunigt die Verarbeitung um den Faktor 10-20.
Welche Grafikkarten werden unterstützt?
Fleet Navigator nutzt Vulkan – damit laufen alle modernen Grafikkarten:
- NVIDIA: RTX 3060 und neuer
- AMD: RX 6000-Serie und neuer (auch unter Windows!)
- Intel Arc: A750, A770 – interessant wegen günstigem VRAM (A770 = 16 GB für ca. 300€)
| Hersteller | Empfohlene Karten | VRAM |
|---|---|---|
| NVIDIA | RTX 3060, 3090, 4090 | 12-24 GB |
| AMD | RX 6800 XT, 7900 XTX | 16-24 GB |
| Intel | Arc A770 | 16 GB |
Wie viel VRAM brauche ich?
| GPU-Klasse | VRAM | Geeignet für |
|---|---|---|
| Einstieg | 12 GB | Einzelplatz, kleinere Modelle (8B Parameter) |
| Mittelklasse | 16 GB | Einzelplatz, komfortables Arbeiten |
| High-End | 24 GB | Größere Modelle (bis 70B quantisiert), Mehrplatz |
| Multi-GPU | 48 GB+ | Mehrplatz oder sehr große Modelle |
Hardware-Vergleich: Apple, NVIDIA, AMD, Intel
Detaillierter Vergleich aller Plattformen für lokale LLM-Inferenz mit Vulkan-Fokus:
Wichtig: VRAM addiert sich nicht automatisch. Zwei Karten mit je 12 GB ergeben nicht 24 GB nutzbaren Speicher. Für größere Modelle brauchst du eine einzelne Karte mit mehr VRAM.
Was sind Tokens?
Tokens sind die Währung der Sprachmodelle. Ein Token ist ein Textbaustein – manchmal ein ganzes Wort, manchmal nur ein Wortteil.
Faustregel für deutsche Texte: 1 Token ≈ 4 Zeichen
| Text | ca. Tokens |
|---|---|
| „Hallo“ | 1 Token |
| „Rechtsanwalt“ | 3-4 Tokens |
| Eine DIN-A4-Seite | 400-500 Tokens |
| 40-Seiten-Vertrag | 16.000-20.000 Tokens |
Wenn Fleet Navigator eine Antwort generiert, entstehen Tokens – und die Geschwindigkeit misst man in Tokens pro Sekunde (tok/s). Mehr ist besser: Bei 10 tok/s liest du die Antwort beim Erscheinen mit, bei 80 tok/s ist sie quasi sofort da.
Wie schnell ist meine Hardware?
Richtwerte für ein 8B-Modell (z.B. Llama 3.1 8B):
| Hardware | ca. Tokens/Sekunde | Gefühl |
|---|---|---|
| Nur CPU (modern) | 5-10 tok/s | Nutzbar, aber Geduld nötig |
| Intel Arc A770 | 25-35 tok/s | Flüssig |
| RTX 3060 / RX 6800 | 30-50 tok/s | Flüssig |
| RTX 4090 / RX 7900 XTX | 80-120 tok/s | Sehr schnell |
Für größere Modelle (70B) sinkt die Geschwindigkeit:
| Hardware | ca. Tokens/Sekunde |
|---|---|
| RTX 4090 (24 GB) | 15-25 tok/s |
| 2x RTX 4090 | 25-40 tok/s |
Diese Werte sind Richtwerte – die tatsächliche Geschwindigkeit hängt von Modell, Quantisierung und Systemkonfiguration ab.
Das „Loch in der Mitte“ – Grenzen lokaler Modelle
Kleinere Modelle (7B-8B Parameter) haben eine wichtige Einschränkung: Bei langen Dokumenten „vergessen“ sie Inhalte in der Mitte.
Was passiert?
Stell dir vor, du gibst dem Modell ein 40-seitiges Dokument:
- Seite 1-5: Wird gut erfasst (Anfang des Kontexts)
- Seite 15-25: Details werden übersehen („Lost in the Middle“)
- Seite 36-40: Wird wieder gut erfasst (Ende des Kontexts)
Das bedeutet: Wenn eine wichtige Klausel auf Seite 20 steht, könnte ein kleineres Modell sie bei der Analyse übersehen.
Unsere Lösung:
- Transparenz: Fleet Navigator zeigt an, wenn ein Dokument die sichere Verarbeitungsgrenze überschreitet
- Chunking: Lange Dokumente werden in Abschnitte zerlegt und separat analysiert
- RAG-Ansatz: Statt das ganze Dokument in den Kontext zu laden, werden nur relevante Passagen abgerufen
Praktische Grenzen:
| Modellgröße | Sichere Dokumentlänge |
|---|---|
| 8B Parameter | ca. 30-40 Seiten |
| 70B Parameter | ca. 80-100 Seiten |
Für längere Dokumente empfehlen wir den RAG-Ansatz mit Vektordatenbank.
RAG vs. Dokument im Kontext
Was bedeutet RAG?
RAG steht für „Retrieval-Augmented Generation“ – auf Deutsch etwa „abrufgestützte Texterzeugung“. Die Idee: Statt einem Sprachmodell ein ganzes Dokument zu geben, sucht das System zuerst die relevanten Stellen heraus und gibt nur diese an das Modell weiter.
Stell dir vor, du fragst: „Was steht im Mietvertrag zur Kündigungsfrist?“ Statt 30 Seiten Mietvertrag zu durchsuchen, findet RAG den passenden Paragraphen und das Modell beantwortet nur auf dieser Basis.
Es gibt zwei Wege, wie Fleet Navigator mit deinen Dokumenten arbeitet:
Dokument direkt im Kontext
- Du lädst ein PDF hoch
- Das gesamte Dokument wird in den Kontext geladen
- Das Modell „sieht“ alles auf einmal
Vorteile: Einfach, funktioniert sofort
Nachteile: Langsam bei großen Dokumenten, „Loch in der Mitte“, GPU lange blockiert
RAG mit integrierter Vektordatenbank im Fleet Navigator
Der Fleet Navigator verfügt über eine fest eingebaute Vektordatenbank, die speziell für Retrieval-Augmented Generation (RAG) ausgelegt ist. Dokumente werden dabei einmalig vorverarbeitet, semantisch zerlegt und als Vektoren lokal gespeichert. Die Daten bleiben vollständig auf dem eigenen System.
Bei einer Anfrage sucht der Fleet Navigator nicht im gesamten Dokumentenbestand, sondern ruft gezielt nur die inhaltlich relevanten Passagen ab. Diese werden dem Sprachmodell kontextuell bereitgestellt und in die Antwort integriert.
Statt mehrere tausend Tokens pauschal zu verarbeiten, arbeitet das Modell typischerweise mit ca. 500 hochrelevanten Tokens statt 15.000 oder mehr. Das führt zu deutlich schnelleren Antworten und einer stabileren Qualität, insbesondere bei großen Dokumentensammlungen.
Technische Vorteile
- Hohe Geschwindigkeit durch gezielten Kontextabruf
- Kein „Loch in der Mitte“ bei langen Dokumenten – relevante Inhalte gehen nicht verloren
- Schonender GPU-Einsatz, da das Modell nur kurz und effizient rechnet
- Skalierbar von wenigen Dokumenten bis zu großen Wissensarchiven
Technische Einschränkung
- Die Dokumente müssen einmalig indexiert werden
(dies geschieht lokal und im Hintergrund)
Was wird dadurch möglich?
Durch die integrierte Vektordatenbank wird der Fleet Navigator zu einem echten Wissenssystem – nicht nur zu einem Chatbot.
Kanzlei-Wissensdatenbank
Alle Musterverträge, Schriftsätze und Urteile werden semantisch durchsuchbar. Roland findet innerhalb von Sekunden die passende Vorlage oder eine relevante Argumentationslinie.
Persönliches Archiv
Jahrelange E-Mail-Korrespondenz, Notizen und Dokumente werden zu einem strukturierten, durchsuchbaren Wissensschatz – ohne Cloud, ohne Datenabfluss.
Gesetzestexte und Kommentare
Aktuelle Gesetze, Verordnungen und Kommentare können indexiert werden. Bei Anfragen bezieht der Fleet Navigator automatisch die relevanten Paragraphen und Abschnitte in die Antwort ein.
Mandantenakten
Schneller Zugriff auf alle fallbezogenen Informationen, ohne jedes Dokument einzeln öffnen oder durchsuchen zu müssen. Der Kontext entsteht dynamisch aus den relevanten Aktenbestandteilen.
Empfehlung für den Büroalltag
Für den produktiven Einsatz empfiehlt sich eine klare Trennung:
- In die Vektordatenbank:
Häufig genutzte Dokumente wie Gesetzestexte, Vorlagen, Handbücher, interne Richtlinien - Direkt verarbeiten:
Einzelne Dokumente oder kurzfristige Dateien, die nicht dauerhaft benötigt werden
So bleibt der Fleet Navigator schnell, präzise und jederzeit kontrollierbar. Einzelne Dokumente für schnelle Analyse weiterhin direkt hochladen.
Mehrplatzsysteme
Fleet Navigator kann als Server für mehrere Arbeitsplätze eingerichtet werden. Ein leistungsstarker Rechner im Netzwerk versorgt das ganze Büro.
Wie viele Arbeitsplätze pro GPU?
Das hängt von der Nutzung ab:
RAG-Anfragen (Recherche, gezielte Fragen gegen indexierte Dokumente):
- GPU ist nur kurz blockiert
- Eine RTX 4090 kann 5-6 Arbeitsplätze flüssig bedienen
Dokumentenanalyse (PDFs direkt hochladen, lange Texte generieren):
- GPU ist länger blockiert
- Eine RTX 4090 bedient realistisch 2-3 Arbeitsplätze
Empfehlungen
| Arbeitsplätze | Hardware | Investition |
|---|---|---|
| 2-3 | Threadripper + 1x RTX 4090 | ca. 5.000 – 7.000 € |
| 4-6 | Threadripper Pro + 2x RTX 4090 | ca. 8.000 – 12.000 € |
| 8-12 | Threadripper Pro + 4x GPU | ca. 15.000 – 20.000 € |
Diese Zahlen sind konservativ gerechnet. Bei überwiegender RAG-Nutzung kann ein System auch mehr Arbeitsplätze bedienen.
Laptops
Die meisten Business-Laptops haben nur integrierte Grafik – Fleet Navigator läuft dann im CPU-Modus. Das funktioniert, ist aber spürbar langsamer.
Gaming-Laptops mit dedizierter GPU (RTX 3060 Mobile, RTX 4060 Mobile) sind deutlich schneller. Beachte aber: Mobile GPUs haben oft weniger VRAM und Leistung als ihre Desktop-Pendants.
Wichtig bei Laptops:
- Netzteil anschließen – im Akkubetrieb drosselt die GPU
- Für gute Belüftung sorgen – KI-Modelle lasten die Hardware voll aus
- Laptops können dabei unangenehm heiß werden, das ist bei Volllast normal
Alternative: Externe Grafikkarte (eGPU) Über Thunderbolt 3/4 lässt sich eine Desktop-GPU an den Laptop anschließen. Nicht ganz so schnell wie im Desktop, aber eine Option für Laptops ohne dedizierte Grafik.
Mac-Systeme
Apple Silicon (M1, M2, M3, M4) eignet sich theoretisch gut für lokale KI:
| Chip | Unified Memory | Einschätzung |
|---|---|---|
| M1/M2 | 8-16 GB | Funktioniert, aber langsam |
| M3/M4 | 16-24 GB | Guter Einzelarbeitsplatz |
| M3/M4 Pro/Max | 36-128 GB | Sehr leistungsfähig |
Der Vorteil: Bei Apple teilen sich CPU und GPU den Arbeitsspeicher. Ein M3 Max mit 64 GB könnte Modelle laden, die auf einer RTX 3060 nicht passen würden.
Hinweis: Mac-Unterstützung ist derzeit in Planung. Uns fehlt aktuell die Hardware zum Testen. Wenn du einen Mac besitzt und Fleet Navigator gerne auf Apple Silicon nutzen möchtest, freuen wir uns über eine Zusammenarbeit als Testpartner.
Unsere Empfehlung
Für Einsteiger: Vorhandenen Rechner nutzen, Fleet Navigator im CPU-Modus testen. Wenn es gefällt: Grafikkarte mit 12+ GB VRAM nachrüsten – ob NVIDIA, AMD oder Intel ist Geschmackssache.
Für den Einzelarbeitsplatz: Eine Karte mit 24 GB VRAM bietet das beste Preis-Leistungs-Verhältnis für anspruchsvolle Aufgaben. NVIDIA RTX 4090, AMD RX 7900 XTX oder vergleichbare Modelle.
Budget-Tipp: Intel Arc A770 mit 16 GB VRAM für ca. 300€ – solide Leistung zum kleinen Preis.
Für Kanzleien und Büros: Mehrplatzsystem planen. Wir beraten dich gerne zur passenden Konfiguration.
Hast du Fragen zur Hardware? Schreib uns – wir helfen dir, die richtige Lösung zu finden.
