Was braucht Fleet Navigator?
Faustregel: Dein Rechner sollte nicht älter als 5 Jahre sein und beim Kauf kein Einsteigermodell gewesen sein. Falls es auf älteren Geräten läuft – umso besser!
| Komponente | Minimum | Empfohlen |
|---|---|---|
| Betriebssystem | Windows 10, Linux, macOS | Windows 11, aktuelle Linux-Distros |
| RAM | 16 GB | 32 GB |
| GPU | CPU-Modus möglich | Dedizierte GPU mit 12+ GB VRAM (NVIDIA, AMD oder Intel) |
| Speicher | 10 GB | 20 GB (für mehrere Modelle) |
Warum eine Grafikkarte?
Lokale KI-Modelle laufen auf der CPU – aber langsam. Eine dedizierte Grafikkarte beschleunigt die Verarbeitung um den Faktor 10-20.
Welche Grafikkarten werden unterstützt?
Fleet Navigator nutzt Vulkan – damit laufen alle modernen Grafikkarten:
- NVIDIA: RTX 3060 und neuer
- AMD: RX 6000-Serie und neuer (auch unter Windows!)
- Intel Arc: A750, A770 – interessant wegen günstigem VRAM (A770 = 16 GB für ca. 300€)
| Hersteller | Empfohlene Karten | VRAM |
|---|---|---|
| NVIDIA | RTX 3060, 3090, 4090 | 12-24 GB |
| AMD | RX 6800 XT, 7900 XTX | 16-24 GB |
| Intel | Arc A770 | 16 GB |
Wie viel VRAM brauche ich?
| GPU-Klasse | VRAM | Geeignet für |
|---|---|---|
| Einstieg | 12 GB | Einzelplatz, kleinere Modelle (8B Parameter) |
| Mittelklasse | 16 GB | Einzelplatz, komfortables Arbeiten |
| High-End | 24 GB | Größere Modelle (bis 70B quantisiert), Mehrplatz |
| Multi-GPU | 48 GB+ | Mehrplatz oder sehr große Modelle |
Wichtig: VRAM addiert sich nicht automatisch. Zwei Karten mit je 12 GB ergeben nicht 24 GB nutzbaren Speicher. Für größere Modelle brauchst du eine einzelne Karte mit mehr VRAM.
Was sind Tokens?
Tokens sind die Währung der Sprachmodelle. Ein Token ist ein Textbaustein – manchmal ein ganzes Wort, manchmal nur ein Wortteil.
Faustregel für deutsche Texte: 1 Token ≈ 4 Zeichen
| Text | ca. Tokens |
|---|---|
| „Hallo“ | 1 Token |
| „Rechtsanwalt“ | 3-4 Tokens |
| Eine DIN-A4-Seite | 400-500 Tokens |
| 40-Seiten-Vertrag | 16.000-20.000 Tokens |
Wenn Fleet Navigator eine Antwort generiert, entstehen Tokens – und die Geschwindigkeit misst man in Tokens pro Sekunde (tok/s). Mehr ist besser: Bei 10 tok/s liest du die Antwort beim Erscheinen mit, bei 80 tok/s ist sie quasi sofort da.
Wie schnell ist meine Hardware?
Richtwerte für ein 8B-Modell (z.B. Llama 3.1 8B):
| Hardware | ca. Tokens/Sekunde | Gefühl |
|---|---|---|
| Nur CPU (modern) | 5-10 tok/s | Nutzbar, aber Geduld nötig |
| Intel Arc A770 | 25-35 tok/s | Flüssig |
| RTX 3060 / RX 6800 | 30-50 tok/s | Flüssig |
| RTX 4090 / RX 7900 XTX | 80-120 tok/s | Sehr schnell |
Für größere Modelle (70B) sinkt die Geschwindigkeit:
| Hardware | ca. Tokens/Sekunde |
|---|---|
| RTX 4090 (24 GB) | 15-25 tok/s |
| 2x RTX 4090 | 25-40 tok/s |
Diese Werte sind Richtwerte – die tatsächliche Geschwindigkeit hängt von Modell, Quantisierung und Systemkonfiguration ab.
Das „Loch in der Mitte“ – Grenzen lokaler Modelle
Kleinere Modelle (7B-8B Parameter) haben eine wichtige Einschränkung: Bei langen Dokumenten „vergessen“ sie Inhalte in der Mitte.
Was passiert?
Stell dir vor, du gibst dem Modell ein 40-seitiges Dokument:
- Seite 1-5: Wird gut erfasst (Anfang des Kontexts)
- Seite 15-25: Details werden übersehen („Lost in the Middle“)
- Seite 36-40: Wird wieder gut erfasst (Ende des Kontexts)
Das bedeutet: Wenn eine wichtige Klausel auf Seite 20 steht, könnte ein kleineres Modell sie bei der Analyse übersehen.
Unsere Lösung:
- Transparenz: Fleet Navigator zeigt an, wenn ein Dokument die sichere Verarbeitungsgrenze überschreitet
- Chunking: Lange Dokumente werden in Abschnitte zerlegt und separat analysiert
- RAG-Ansatz: Statt das ganze Dokument in den Kontext zu laden, werden nur relevante Passagen abgerufen
Praktische Grenzen:
| Modellgröße | Sichere Dokumentlänge |
|---|---|
| 8B Parameter | ca. 30-40 Seiten |
| 70B Parameter | ca. 80-100 Seiten |
Für längere Dokumente empfehlen wir den RAG-Ansatz mit Vektordatenbank.
RAG vs. Dokument im Kontext
Was bedeutet RAG?
RAG steht für „Retrieval-Augmented Generation“ – auf Deutsch etwa „abrufgestützte Texterzeugung“. Die Idee: Statt einem Sprachmodell ein ganzes Dokument zu geben, sucht das System zuerst die relevanten Stellen heraus und gibt nur diese an das Modell weiter.
Stell dir vor, du fragst: „Was steht im Mietvertrag zur Kündigungsfrist?“ Statt 30 Seiten Mietvertrag zu durchsuchen, findet RAG den passenden Paragraphen und das Modell beantwortet nur auf dieser Basis.
Es gibt zwei Wege, wie Fleet Navigator mit deinen Dokumenten arbeitet:
Dokument direkt im Kontext
- Du lädst ein PDF hoch
- Das gesamte Dokument wird in den Kontext geladen
- Das Modell „sieht“ alles auf einmal
Vorteile: Einfach, funktioniert sofort
Nachteile: Langsam bei großen Dokumenten, „Loch in der Mitte“, GPU lange blockiert
RAG mit Vektordatenbank (geplant für Version 2.X – Sommer 2026)
- Dokumente werden vorab verarbeitet und in einer Datenbank gespeichert
- Bei einer Anfrage werden nur die relevanten Passagen abgerufen
- Das Modell bearbeitet 500 statt 15.000 Tokens
Vorteile: Schnell, kein „Loch in der Mitte“, GPU nur kurz blockiert
Nachteile: Erfordert einmalige Indexierung der Dokumente
Was wird damit möglich sein?
- Kanzlei-Wissensdatenbank: Alle Musterverträge, Schriftsätze und Urteile durchsuchbar – Roland findet in Sekunden die passende Vorlage
- Persönliches Archiv: Jahrelange E-Mail-Korrespondenz, Notizen und Dokumente als durchsuchbarer Wissensschatz
- Gesetzestexte und Kommentare: Aktuelle Gesetze indexieren und bei Anfragen automatisch die relevanten Paragraphen einbeziehen
- Mandantenakten: Schneller Zugriff auf alle Informationen zu einem Fall, ohne jedes Dokument einzeln zu öffnen
Für den Büroalltag empfehlen wir dann: Häufig genutzte Dokumente (Gesetzestexte, Vorlagen, Handbücher) in die Vektordatenbank. Einzelne Dokumente für schnelle Analyse weiterhin direkt hochladen.
Mehrplatzsysteme
Fleet Navigator kann als Server für mehrere Arbeitsplätze eingerichtet werden. Ein leistungsstarker Rechner im Netzwerk versorgt das ganze Büro.
Wie viele Arbeitsplätze pro GPU?
Das hängt von der Nutzung ab:
RAG-Anfragen (Recherche, gezielte Fragen gegen indexierte Dokumente):
- GPU ist nur kurz blockiert
- Eine RTX 4090 kann 5-6 Arbeitsplätze flüssig bedienen
Dokumentenanalyse (PDFs direkt hochladen, lange Texte generieren):
- GPU ist länger blockiert
- Eine RTX 4090 bedient realistisch 2-3 Arbeitsplätze
Empfehlungen
| Arbeitsplätze | Hardware | Investition |
|---|---|---|
| 2-3 | Threadripper + 1x RTX 4090 | ca. 5.000 – 7.000 € |
| 4-6 | Threadripper Pro + 2x RTX 4090 | ca. 8.000 – 12.000 € |
| 8-12 | Threadripper Pro + 4x GPU | ca. 15.000 – 20.000 € |
Diese Zahlen sind konservativ gerechnet. Bei überwiegender RAG-Nutzung kann ein System auch mehr Arbeitsplätze bedienen.
Laptops
Die meisten Business-Laptops haben nur integrierte Grafik – Fleet Navigator läuft dann im CPU-Modus. Das funktioniert, ist aber spürbar langsamer.
Gaming-Laptops mit dedizierter GPU (RTX 3060 Mobile, RTX 4060 Mobile) sind deutlich schneller. Beachte aber: Mobile GPUs haben oft weniger VRAM und Leistung als ihre Desktop-Pendants.
Wichtig bei Laptops:
- Netzteil anschließen – im Akkubetrieb drosselt die GPU
- Für gute Belüftung sorgen – KI-Modelle lasten die Hardware voll aus
- Laptops können dabei unangenehm heiß werden, das ist bei Volllast normal
Alternative: Externe Grafikkarte (eGPU) Über Thunderbolt 3/4 lässt sich eine Desktop-GPU an den Laptop anschließen. Nicht ganz so schnell wie im Desktop, aber eine Option für Laptops ohne dedizierte Grafik.
Mac-Systeme (in Planung)
Apple Silicon (M1, M2, M3, M4) eignet sich theoretisch gut für lokale KI:
| Chip | Unified Memory | Einschätzung |
|---|---|---|
| M1/M2 | 8-16 GB | Funktioniert, aber langsam |
| M3/M4 | 16-24 GB | Guter Einzelarbeitsplatz |
| M3/M4 Pro/Max | 36-128 GB | Sehr leistungsfähig |
Der Vorteil: Bei Apple teilen sich CPU und GPU den Arbeitsspeicher. Ein M3 Max mit 64 GB könnte Modelle laden, die auf einer RTX 3060 nicht passen würden.
Hinweis: Mac-Unterstützung ist derzeit in Planung. Uns fehlt aktuell die Hardware zum Testen. Wenn du einen Mac besitzt und Fleet Navigator gerne auf Apple Silicon nutzen möchtest, freuen wir uns über eine Zusammenarbeit als Testpartner.
Unsere Empfehlung
Für Einsteiger: Vorhandenen Rechner nutzen, Fleet Navigator im CPU-Modus testen. Wenn es gefällt: Grafikkarte mit 12+ GB VRAM nachrüsten – ob NVIDIA, AMD oder Intel ist Geschmackssache.
Für den Einzelarbeitsplatz: Eine Karte mit 24 GB VRAM bietet das beste Preis-Leistungs-Verhältnis für anspruchsvolle Aufgaben. NVIDIA RTX 4090, AMD RX 7900 XTX oder vergleichbare Modelle.
Budget-Tipp: Intel Arc A770 mit 16 GB VRAM für ca. 300€ – solide Leistung zum kleinen Preis.
Für Kanzleien und Büros: Mehrplatzsystem planen. Wir beraten dich gerne zur passenden Konfiguration.
Hast du Fragen zur Hardware? Schreib uns – wir helfen dir, die richtige Lösung zu finden.
