Paperless-AI klassifiziert Dokumente in paperless-ngx automatisch. Mit lokalen Modellen via Ollama bleibt alles im Haus, Cloud-APIs gehen genauso.

Klassifizieren, ohne hinzusehen

paperless-ngx ist ein hervorragendes DMS. Es erwartet allerdings, dass jemand eingehende Dokumente benennt, mit Dokumentarten versieht und Tags vergibt. Wer das konsequent macht, hat ein gut organisiertes Archiv. Wer es halbherzig macht, hat nach einem Jahr einen digitalen Stapel unsortierter PDFs.

Paperless-AI schließt genau diese Lücke. Die Open-Source-Erweiterung hängt sich an paperless-ngx, schickt eintreffende Dokumente an ein Sprachmodell und befüllt Titel, Dokumentart, Korrespondent und Tags, bevor der Nutzer das Dokument überhaupt gesehen hat.

Wie es funktioniert

Paperless-AI läuft als eigenständiger Dienst neben paperless-ngx und fragt dessen API in konfigurierbaren Intervallen ab. Sobald ein neues Dokument auftaucht, schickt Paperless-AI den OCR-Text an ein Sprachmodell und übergibt die strukturierte Antwort zurück an paperless-ngx.

Das Modell bekommt dabei konkrete Anweisungen: Welche Dokumentarten gibt es im System, welche Tags sind vorhanden. Daraus wählt es passende Werte. Kein Freitext, sondern eine gezielte Auswahl aus dem, was im DMS bereits definiert ist.

Wo das Modell läuft

Für die meisten KMU ist die Frage nach dem Backend entscheidender als die nach dem konkreten Modell. Paperless-AI unterstützt beide Wege.

Ollama on-premise

Mit Ollama laufen Sprachmodelle direkt auf dem eigenen Server. Kein Dokument verlässt das Netzwerk, keine Daten landen bei OpenAI oder einem anderen Cloud-Anbieter. Für Unternehmen mit Datenschutzanforderungen die empfohlene Variante.

Für die Dokumentenklassifizierung haben sich diese Modelle bewährt:

mistral: schnell, präzise bei strukturierten Aufgaben, läuft auf bescheidener Hardware
llama3: sehr gutes Sprachverständnis, auch für deutschsprachige Dokumente
phi3: leichtgewichtig, für schwächere Hardware geeignet
gemma2: gute Balance zwischen Qualität und Ressourcenbedarf

Ein Server mit 16 GB RAM und einer modernen CPU bewältigt Mistral oder Phi3 komfortabel. Für Llama3 70B oder größere Modelle ist eine GPU empfehlenswert.

Cloud-APIs als Alternative

Wer keine GPU-Hardware betreiben möchte oder eine höhere Klassifizierungsqualität braucht, kann GPT-4o, Azure OpenAI, Anthropic oder Deepseek-R1 einbinden. Die Qualität liegt in der Regel über der kleinerer lokaler Modelle. Dafür verlassen die Dokumente den eigenen Server, was in der DSGVO-Bewertung gesondert geprüft werden muss.

Einrichtung

Paperless-AI wird als Docker-Container betrieben, am einfachsten als Erweiterung der bestehenden paperless-ngx docker-compose.yml:

paperless-ai:
  image: clusterzx/paperless-ai:latest
  container_name: paperless-ai
  restart: unless-stopped
  ports:
    - "3000:3000"
  volumes:
    - paperless-ai_data:/app/data

Nach dem ersten Start öffnet sich eine Weboberfläche für die Einrichtung. Dort werden eingetragen:

paperless-ngx API-URL und API-Token — damit Paperless-AI auf Dokumente zugreifen und Metadaten schreiben darf
KI-Backend — Ollama-URL mit Modellname oder OpenAI-API-Key
Scan-Intervall — wie oft neue Dokumente abgerufen werden (Standard: alle 30 Minuten)

Nach dem Speichern läuft Paperless-AI im Hintergrund. Im Dashboard sieht man, welche Dokumente bereits verarbeitet wurden und wie sie klassifiziert wurden.

Zwei Betriebsarten

Im Auto-Modus analysiert Paperless-AI jedes neue Dokument und schreibt die Metadaten direkt in paperless-ngx zurück. Das ist die empfohlene Einstellung, sobald Dokumentarten und Tags gepflegt sind. Die ebenfalls verfügbare Option, neue Dokumentarten und Tags automatisch erzeugen zu lassen, sollte ausgeschaltet bleiben. Sonst wuchert das Schema schneller, als jemand hinterherräumen kann.

Der manuelle Modus legt Vorschläge zur Bestätigung vor. Sinnvoll in der Einarbeitungsphase oder bei besonders sensiblen Dokumenten, wenn jemand jede Zuordnung gegenlesen will, bevor sie produktiv wird.

Chat über das Archiv

Neben der Klassifizierung bringt Paperless-AI eine Chat-Funktion mit. Sie nutzt RAG (Retrieval Augmented Generation): Das Modell durchsucht den tatsächlichen Inhalt der Dokumente und antwortet auf Basis der gefundenen Textstellen.

Konkrete Abfragen, die damit funktionieren:

„Wann wurde mein Stromvertrag abgeschlossen?”
„Welche Rechnungen von der Telekom liegen über 200 Euro?”
„Zeig mir alle Dokumente, die die IBAN DE12… erwähnen.”

Anders als eine Schlagwortsuche versteht das Modell den Kontext. Es findet auch dann eine Antwort, wenn der gesuchte Begriff nicht wörtlich im Dokument steht.

Grenzen

Die automatische Klassifizierung ist so gut wie die Grundlage, auf der sie arbeitet. Ohne durchdachte Dokumentarten und Tags in paperless-ngx liefert auch das Sprachmodell keine sinnvollen Ergebnisse, denn es kann nur aus dem auswählen, was im DMS bereits definiert ist.

Dokumentarten, Tags und Workflows einzurichten bleibt Handarbeit und gehört vor den KI-Einsatz. Paperless-AI übernimmt danach die laufende Zuordnung. Die konzeptionelle Planung nimmt es niemandem ab.

Fazit

Paperless-AI ist eine sinnvolle Erweiterung für jedes produktive paperless-ngx-System. Wer seine Dokumentarten und Tags sauber gepflegt hat, spart mit dem Auto-Modus täglich manuelle Klassifizierungsarbeit. Der Betrieb mit Ollama hält die Dokumente im Haus und entkoppelt den Stack von Cloud-Diensten.

Wir richten paperless-ngx und Paperless-AI gemeinsam ein, inklusive Modellauswahl, Docker-Konfiguration und Feintuning der Klassifizierungsregeln. Pakete und Ablauf auf unserer Angebotsseite zu paperless-ngx.

Eine Einschränkung zur aktuellen Lage: Die Weiterentwicklung von Paperless-AI stockt, weil paperless-ngx ein eigenes integriertes KI-Modul plant. Wir behalten beide Stränge im Auge und entscheiden im Einzelfall, welcher der bessere Weg ist.

Paperless-AI: KI-Erweiterung für paperless-ngx