pad systems
DMS

Paperless-AI: KI-Erweiterung für paperless-ngx

pad systems 2. April 2026 4 min Lesezeit
KI analysiert Dokumente

Das Problem mit manueller Klassifizierung

paperless-ngx ist ein hervorragendes DMS — aber es erwartet, dass jemand eingehende Dokumente benennt, mit Dokumentarten versieht und Tags vergibt. Wer das konsequent macht, hat ein gut organisiertes Archiv. Wer es halbherzig macht, hat nach einem Jahr einen digitalen Stapel unsortierter PDFs.

Paperless-AI löst dieses Problem: Die Open-Source-Erweiterung hängt sich an paperless-ngx, analysiert neu eintreffende Dokumente mit einem KI-Sprachmodell und befüllt Titel, Dokumentart, Korrespondent und Tags automatisch — bevor der Nutzer das Dokument überhaupt gesehen hat.

Wie es funktioniert

Paperless-AI läuft als eigenständiger Dienst neben paperless-ngx und fragt dessen API in konfigurierbaren Intervallen ab. Sobald ein neues Dokument auftaucht, schickt Paperless-AI den OCR-Text an ein Sprachmodell und übergibt die strukturierte Antwort zurück an paperless-ngx.

Das Modell bekommt dabei konkrete Anweisungen: Welche Dokumentarten gibt es im System? Welche Tags sind vorhanden? Daraus wählt es passende Werte — kein Freitext, sondern eine gezielte Auswahl aus dem, was im DMS bereits definiert ist.

Lokale Modelle vs. Cloud-API

Das ist der entscheidende Punkt für viele Unternehmen: Paperless-AI unterstützt beide Wege.

Ollama — vollständig lokal

Mit Ollama laufen Sprachmodelle direkt auf dem eigenen Server. Kein Dokument verlässt das Netzwerk, keine Daten landen bei OpenAI oder einem anderen Cloud-Anbieter. Das ist die empfohlene Variante für Unternehmen mit Datenschutzanforderungen.

Für Dokumentenklassifizierung gut geeignete Modelle:

  • mistral — schnell, präzise bei strukturierten Aufgaben, läuft auf bescheidener Hardware
  • llama3 — sehr gute Sprachverständnis, auch für deutschsprachige Dokumente
  • phi3 — leichtgewichtig, für schwächere Hardware geeignet
  • gemma2 — gute Balance zwischen Qualität und Ressourcenbedarf

Ein Server mit 16 GB RAM und einer modernen CPU bewältigt Mistral oder Phi3 komfortabel. Für Llama3 70B oder größere Modelle ist eine GPU empfehlenswert.

OpenAI, Azure, Deepseek — Cloud-APIs

Wer keine lokale GPU-Hardware betreiben möchte oder höchste Klassifizierungsqualität braucht, kann GPT-4o, Azure OpenAI oder Deepseek-R1 einbinden. Die Qualität ist in der Regel höher als bei kleineren lokalen Modellen — dafür verlassen die Dokumente den eigenen Server.

Einrichtung

Paperless-AI wird als Docker-Container betrieben, am einfachsten als Erweiterung der bestehenden paperless-ngx docker-compose.yml:

paperless-ai:
  image: clusterzx/paperless-ai:latest
  container_name: paperless-ai
  restart: unless-stopped
  ports:
    - "3000:3000"
  volumes:
    - paperless-ai_data:/app/data

Nach dem ersten Start öffnet sich eine Weboberfläche für die Einrichtung. Dort werden eingetragen:

  1. paperless-ngx API-URL und API-Token — damit Paperless-AI auf Dokumente zugreifen und Metadaten schreiben darf
  2. KI-Backend — Ollama-URL mit Modellname oder OpenAI-API-Key
  3. Scan-Intervall — wie oft neue Dokumente abgerufen werden (Standard: alle 30 Minuten)

Nach dem Speichern läuft Paperless-AI im Hintergrund. Im Dashboard sieht man, welche Dokumente bereits verarbeitet wurden und wie sie klassifiziert wurden.

Auto-Modus und manueller Modus

Auto-Modus: Jedes neue Dokument wird automatisch analysiert und direkt in paperless-ngx aktualisiert. Für Unternehmen mit gut gepflegten Dokumentarten und Tags die empfohlene Einstellung. Die automatische Erstellung von Dokumentarten und Tags ist nicht zu empfehlen.

Manueller Modus: Paperless-AI macht Vorschläge, ein Nutzer bestätigt oder korrigiert sie bevor sie übernommen werden. Sinnvoll in der Einarbeitungsphase oder bei besonders sensiblen Dokumenten.

KI-Chat: Fragen an das Archiv

Neben der automatischen Klassifizierung bringt Paperless-AI eine Chat-Funktion mit. Sie nutzt RAG (Retrieval Augmented Generation) — das Modell durchsucht den tatsächlichen Inhalt der Dokumente und antwortet auf Basis der gefundenen Textstellen.

Konkrete Abfragen, die damit funktionieren:

  • „Wann wurde mein Stromvertrag abgeschlossen?”
  • „Welche Rechnungen von der Telekom liegen über 200 Euro?”
  • „Zeig mir alle Dokumente, die die IBAN DE12… erwähnen.”

Das ist keine einfache Schlagwortsuche — das Modell versteht den Kontext und kann auch dann antworten, wenn das gesuchte Wort nicht exakt so im Dokument steht.

Was Paperless-AI nicht ersetzt

Ehrlich gesagt: Die automatische Klassifizierung ist so gut wie die Grundlage, auf der sie arbeitet. Wer in paperless-ngx keine durchdachten Dokumentarten und Tags konfiguriert hat, bekommt auch von der KI keine sinnvollen Ergebnisse — sie kann nur aus vorhandenen Kategorien wählen.

Die Einrichtung von Dokumentarten, Tags und Workflows bleibt Handarbeit und sollte vor dem KI-Einsatz erfolgen. Paperless-AI übernimmt dann die laufende Zuordnung — aber nicht die konzeptionelle Planung.

Fazit

Paperless-AI ist eine sinnvolle Erweiterung für jedes produktive paperless-ngx-System. Wer seine Dokumentarten und Tags sauber gepflegt hat, spart mit dem Auto-Modus täglich manuelle Klassifizierungsarbeit. Der Betrieb mit lokalen Modellen via Ollama macht das Ganze datenschutzkonform und unabhängig von Cloud-Diensten.

Wir richten paperless-ngx und Paperless-AI gemeinsam ein — inklusive Modellauswahl, Docker-Konfiguration und Feintuning der Klassifizierungsregeln.

Die Aktualisierung von Paperless-AI stockt gerade ein wenig, da paperless-ngx ein eigenes integriertes AI Tool plant.

🍪 Dieser Hinweis existiert nur, weil alle anderen einen haben. Wir verwenden keine Cookies.