Dokumentation

Dezcry Plattform
Dokumentation

Alles, was Sie über die Nutzung von Dezcry wissen müssen — von der Dokumentenaufnahme bis zum offenlegungsfertigen Export.

Erste Schritte

Plattformübersicht

Dezcry ist eine Self-Service-eDiscovery-Plattform mit KI-Unterstützung für Datenschutz-, Rechts- und Compliance-Teams. Sie bietet einen vollständigen Workflow zum Erfassen von Dokumenten, Prüfen relevanter Unterlagen, Anwenden KI-gestützter Schwärzungen, Klassifizieren von Dokumenten, Suchen und Exportieren offenlegungsfertiger Pakete — alles mit einem vollständigen Audit-Trail und rollenbasierter Zugriffskontrolle.

Im Gegensatz zu schwergewichtigen eDiscovery-Suiten wurde Dezcry für interne Teams entwickelt, die einen effizienten, rechtlich belastbaren Prozess benötigen — ohne spezialisierte eDiscovery-Administratoren oder ausgelagerte Prüfungsunterstützung. Alle KI-Modelle laufen auf der internen Infrastruktur innerhalb derselben Azure-Umgebung — es werden keine Dokumentdaten an KI-Dienste Dritter übermittelt.

Kernfunktionen
  • Erfassung von über 100 Dateitypen, darunter PST, EML, ZIP, Office, PDF, Bilder, Audio und Video
  • Automatische Deduplizierung, E-Mail-Threading und NIST-Filterung
  • KI-gestützte Schwärzung mit einer 5-stufigen Erkennungspipeline
  • KI-gestützte Klassifizierung mit benutzerdefinierten Feldern und Konfidenzwertung
  • eDiscovery-taugliche Stichwortsuche (Elasticsearch-basiert, dtSearch-Äquivalent)
  • LLM-gestützte Dokumentzusammenfassungen und konversationelle Dokumenten-Fragen&Antworten
  • KI-OCR für bildlastige Dokumente
  • Produktionsfertige Exporte mit Bates-Nummerierung, Ladedateien und eingebrannten Schwärzungen
  • Vollständiger Audit-Trail, der jede Aktion für die regulatorische Belastbarkeit protokolliert
  • Rollenbasierte Zugriffskontrolle mit Berechtigungen auf Vorgangsebene

Grundlegende Konzepte

KonzeptBeschreibung
VorgangEin Container für einen einzelnen DSAR oder eine Untersuchung. Alle Dokumente, Schwärzungen, Klassifizierungen, Exporte und Audit-Protokolle sind einem Vorgang zugeordnet. Vorgänge verfügen über einen eindeutigen Code, einen Mandantennamen, einen Typ und einen Status.
DokumentEine einzelne Datei innerhalb eines Vorgangs — eine E-Mail, ein Anhang, eine PDF-, Tabellenkalkulations-, Bild-, Audio- oder Videodatei. Jedes Dokument verfügt über extrahierten Text, Metadaten, eine Vorschau und kann Prüferentscheidungen enthalten.
FamilieEine Gruppe zusammengehöriger Dokumente — typischerweise eine E-Mail und ihre Anhänge. Die übergeordnete E-Mail und die untergeordneten Anhänge teilen sich eine Familien-ID für die gruppierte Prüfung.
VerwahrerDie Person oder Datenquelle, von der Dokumente gesammelt wurden. Wird pro Upload-Stapel zur Nachvollziehbarkeit der Beweiskette erfasst.
Gespeicherte SucheEine wiederverwendbare Abfrage mit Filtern, die als Geltungsbereich für Schwärzung, Klassifizierung, Export oder Suchbegriffsberichte verwendet werden kann.
SchwärzungssatzEin KI-Stapelverarbeitungsauftrag zur Schwärzung, der einen Dokumentenbereich durch die 5-stufige Pipeline verarbeitet und Schwärzungseinträge zur Prüfung erzeugt.
KlassifizierungssatzEin KI-Stapelverarbeitungsauftrag zur Klassifizierung, der benutzerdefinierte Entscheidungsfelder mit Konfidenzwertung auf Dokumente anwendet.
ExportsatzEine konfigurierte Exportvorlage mit Nummerierung, Branding und Ausgabeeinstellungen, die offenlegungsfertige Pakete erzeugt.
Audit-ProtokollEin unveränderlicher Datensatz jeder wesentlichen Aktion auf der Plattform, der einen belastbaren Nachweis für Aufsichtsbehörden bietet.

Anmeldung

Navigieren Sie zur Anmeldeseite Ihrer Dezcry-Instanz und geben Sie Ihre E-Mail-Adresse und Ihr Passwort ein. Wenn Ihre Organisation die Zwei-Faktor-Authentifizierung (2FA) aktiviert hat, werden Sie nach der Eingabe Ihrer Anmeldedaten aufgefordert, ein zeitbasiertes Einmalpasswort (TOTP) aus Ihrer Authenticator-App einzugeben.

Wenn Sie zu Dezcry eingeladen wurden, erhalten Sie eine E-Mail mit einem eindeutigen Einladungslink. Klicken Sie auf den Link, um Ihr Passwort festzulegen und 2FA zu konfigurieren. Einladungslinks sind einmalig verwendbar und laufen nach einem festgelegten Zeitraum ab.

Sitzungsverwaltung

Sitzungen laufen automatisch nach 30 Minuten Inaktivität ab. Ihr Sitzungstoken wird automatisch alle 20 Minuten aktualisiert, solange Sie aktiv sind. Wenn Ihre Sitzung abläuft, werden Sie durch eine Vollbild-Einblendung zur erneuten Anmeldung aufgefordert — nicht gespeicherte Arbeit wird in Ihrem Browser beibehalten.

Vorgänge

Vorgang erstellen

Ein Vorgang ist der übergeordnete Container in Dezcry. Jeder DSAR, jede Untersuchung oder jedes Prüfprojekt wird als separater Vorgang mit eigenen Dokumenten, Workflows, Benutzern und Audit-Trail organisiert.

Um einen Vorgang zu erstellen, navigieren Sie zur Seite Vorgänge und klicken Sie auf Vorgang erstellen (Administratorrolle erforderlich). Sie werden aufgefordert, folgende Angaben zu machen:

FeldBeschreibung
NameEin aussagekräftiger Name für den Vorgang (z. B. 'Schmidt DSAR – Q1 2025').
VorgangscodeEin eindeutiger, 6-stelliger alphanumerischer Code, automatisch generiert, aber editierbar.
MandantennameDie Organisation oder der Mandant, auf die/den sich der Vorgang bezieht.
VorgangstypEiner von: DSAR, Untersuchung, Rechtsstreit, Cyber oder Sonstiges.
BeschreibungOptionale ausführliche Beschreibung des Vorgangsumfangs und der Ziele.
ZusammenfassungsspracheDie Sprache für KI-generierte Zusammenfassungen (z. B. Englisch, Deutsch, Französisch).
Hosting-StandortDie Azure-Region für die Datenresidenz (z. B. Australien, Schweiz, Deutschland, Vereinigtes Königreich).

Vorgangs-Dashboard

Durch Klicken auf einen Vorgang gelangen Sie zum Vorgangs-Dashboard — dem zentralen Arbeitsbereich für diesen Vorgang. Das Dashboard zeigt eine durchsuchbare, filterbare Tabelle aller Dokumente im Vorgang sowie den Zugang zu allen vorgangsbezogenen Funktionen über die Seitenleistennavigation:

  • Dokumente — alle Dokumente durchsuchen, filtern und prüfen
  • Hochladen — neue Dokumente in den Vorgang aufnehmen
  • Schwärzung — KI-Schwärzungssätze erstellen und verwalten
  • Klassifizierung — KI-Klassifizierungsaufträge konfigurieren und ausführen
  • Export — offenlegungsfertige Exportpakete erstellen und ausführen
  • Suchbegriffe — Stichwort-Suchbegriffssätze und -berichte erstellen
  • KI-OCR — optische Zeichenerkennung für Bilddokumente ausführen
  • Passwortbank — Passwörter für verschlüsselte Dateien verwalten
  • Audit — den vollständigen Audit-Trail für diesen Vorgang einsehen
  • Berichtswesen — Analyse-Dashboards und Kennzahlen anzeigen
  • Abrechnung — Speichernutzung und Kosten für diesen Vorgang einsehen

Die Dokumententabelle unterstützt Massenaktionen — wählen Sie mehrere Dokumente aus, um Stapeloperationen wie Tagging, Klassifizierung oder Statusänderungen anzuwenden. Ein Hintergrundaufgaben-Bereich zeigt den Status aller laufenden Aufträge (Schwärzung, Klassifizierung, Export) im Vorgang an.

Vorgangseinstellungen

Die Vorgangseinstellungen steuern das Verhalten der KI-Funktionen und Prüfer-Workflows innerhalb des Vorgangs. Administratoren können Folgendes konfigurieren:

  • Entscheidungsfelder — benutzerdefinierte Felder, die Prüfer für jedes Dokument setzen können (z. B. 'Relevanz', 'Privilegierungsstatus', 'Datenkategorie'). Felder können Einfachauswahl, Mehrfachauswahl oder Freitext sein.
  • Zusammenfassungssprache — die Sprache, die für KI-generierte Dokumentzusammenfassungen verwendet wird.
  • Vorgangsstatus — offen, geschlossen oder archiviert. Geschlossene Vorgänge sind schreibgeschützt; archivierte Vorgänge werden in der Standardansicht ausgeblendet.

Dokumentenaufnahme

Dokumente hochladen

Navigieren Sie zur Seite Upload innerhalb einer Angelegenheit, um Dokumente aufzunehmen. Dezcry unterstützt das Hochladen per Drag-and-Drop sowie die herkömmliche Dateiauswahl. Sie können einzelne Dateien oder Containerdateien (PST, ZIP, 7Z, RAR, TAR, GZ) hochladen, die automatisch entpackt werden.

Konfigurieren Sie vor Beginn der Verarbeitung die folgenden Optionen:

OptionBeschreibung
DeduplizierungsmodusWählen Sie 'Global', um identische Dateien innerhalb der gesamten Angelegenheit automatisch anhand von SHA-256-Hashing zu erkennen und zu kennzeichnen. Duplikate werden beibehalten, aber markiert, was den Prüfaufwand reduziert.
NIST-FilterungAktivieren Sie diese Option, um bekannte System- und Laufzeitdateien (aus der NIST National Software Reference Library) automatisch herauszufiltern, die für die Prüfung niemals relevant sind.
OCRAktivieren Sie diese Option, um optische Zeichenerkennung (OCR) auf bildbasierte Dokumente anzuwenden und durchsuchbaren Text aus gescannten PDFs, Fotografien und Bilddateien zu extrahieren.
E-Mail-ThreadingAktivieren Sie diese Option, um zusammengehörige E-Mails in Konversationsthreads zu gruppieren und zu identifizieren, welche Nachrichten 'inklusiv' (einzigartigen Inhalt enthalten) und welche nicht-inklusive Duplikate sind.
Nur InklusiveWenn E-Mail-Threading aktiviert ist, können Sie optional nicht-inklusive E-Mails aus dem Prüfarbeitsbereich ausschließen, um das Volumen zu reduzieren.

Sie können außerdem Verwahrer-Informationen und Datenquellen-Metadaten für die Nachverfolgung der Beweiskette angeben. Verfügbare Datenquellen umfassen: Laptop, Desktop, Server, O365 Email, O365 OneDrive, SharePoint, Google Workspace, Mobile Device, External Hard Drive, USB Drive, Network Share, Cloud Storage, Backup Tape, Database und Other.

Unterstützte Dateitypen

Dezcry unterstützt standardmäßig über 100 Dateitypen. Während der Aufnahme werden alle Dateien extrahiert, ihr Textinhalt analysiert, Metadaten erfasst und für die Suche indexiert.

KategorieFormate
E-MailPST, OST, EML, MSG, MBOX
DokumenteDOCX, DOC, PDF, RTF, TXT, ODT
TabellenkalkulationenXLSX, XLS, CSV, ODS
PräsentationenPPTX, PPT, ODP
ArchiveZIP, RAR, 7Z, TAR, GZ
BilderPNG, JPG, JPEG, TIFF, BMP, GIF (mit OCR)
AudioMP3, WAV, M4A, OGG, FLAC
VideoMP4, AVI, MOV, MKV, WEBM
Web / DatenHTML, XML, JSON, CSV

Deduplizierung

Wenn die globale Deduplizierung aktiviert ist, führt Dezcry eine exakte Deduplizierung auf oberster Ebene durch — der Standardansatz in der eDiscovery-Praxis. Dies ist eine wichtige Unterscheidung: Dezcry identifiziert und entfernt Dateien, die anhand ihres MD5-Hashwerts byteweise identisch sind, tut dies jedoch auf der obersten Ebene der Dokumentenhierarchie.

Was "Deduplizierung auf oberster Ebene" bedeutet

In der eDiscovery-Praxis bedeutet "Deduplizierung auf oberster Ebene", dass die Deduplizierung auf eigenständige Dokumente und übergeordnete Container (E-Mails, Archive) angewendet wird und nicht auf einzelne Anhänge oder untergeordnete Elemente isoliert. Wenn eine Datei auf oberster Ebene als Duplikat identifiziert wird, werden das gesamte Dokument und seine Familie (einschließlich aller Anhänge) gemeinsam entfernt — wodurch die Integrität der Dokumentenfamilien gewahrt bleibt.

Dies unterscheidet sich von der "Deduplizierung auf Anhangsebene", bei der einzelne Anhänge, die in mehreren E-Mails vorkommen, unabhängig voneinander entfernt würden. Die Deduplizierung auf oberster Ebene bewahrt den vollständigen Kontext jeder E-Mail und ihrer Anhänge als Einheit, was für eine verteidigungsfähige Prüfung entscheidend ist — ein Prüfer sieht stets die vollständige E-Mail mit allen Anhängen, niemals eine unvollständige Familie.

Sie unterscheidet sich auch von der Beinahe-Deduplizierung, die Dateien identifiziert, die ähnlich, aber nicht identisch sind (z. B. verschiedene Versionen desselben Dokuments). Die Deduplizierung von Dezcry ist streng exakt — nur byteweise identische Dateien werden gekennzeichnet.

Die Deduplizierung erstreckt sich global über die gesamte Angelegenheit, d. h. eine Datei, die von einem Verwahrer hochgeladen wurde, wird gegen Dateien aller anderen Verwahrer in derselben Angelegenheit dedupliziert. Die zuerst aufgenommene Instanz wird als Stammdokumentbeibehalten, und alle nachfolgenden identischen Kopien werden entfernt. Die Deduplizierungsergebnisse umfassen:

  • Stammdokument — die erste Instanz jeder eindeutigen Datei, die mit vollständigen Metadaten und Familienbeziehungen im Prüfset verbleibt
  • Duplikatgruppe — alle Kopien derselben Datei, die zu Prüfzwecken mit dem Stammdokument verknüpft sind
  • Eingesparte Bytes — die gesamte Speicherersparnis durch das Entfernen doppelter Kopien
  • Verwahrer-Nachverfolgung — das System erfasst, welche Verwahrer Kopien jeder deduplizierten Datei besaßen, wodurch die Beweiskette erhalten bleibt, auch wenn die doppelten Kopien aus dem aktiven Prüfset entfernt werden

Der Upload-Zusammenfassungsbericht dokumentiert jede Duplikatgruppe mit Dateinamen, Größen und der Referenz zum Stammdokument. Dies bietet einen verteidigungsfähigen Nachweis darüber, was genau dedupliziert wurde und warum.

E-Mail-Threading

E-Mail-Threading gruppiert zusammengehörige E-Mails in Konversationsthreads und identifiziert die hierarchische Antwortkette. Das Threading wird zum Zeitpunkt der Aufnahme angewendet, was bedeutet, dass nicht-inklusive E-Mails identifiziert und aus dem Prüfarbeitsbereich ausgeschlossen werden können, bevor eine nachgelagerte Verarbeitung stattfindet. Dies ist eine bewusste Designentscheidung — durch das Herausfiltern redundanter E-Mails im Vorfeld sparen Organisationen erheblich bei den Hosting-Kosten (weniger Speicher, kleinere Suchindizes) und KI-Verarbeitungskosten (weniger Dokumente zum Klassifizieren, Schwärzen und Zusammenfassen).

Jede E-Mail in einem Thread wird wie folgt klassifiziert:

  • Inklusiv — enthält einzigartigen Inhalt oder Anhänge, die in späteren Nachrichten des Threads nicht vorhanden sind. Dies sind die Nachrichten, auf die sich Prüfer konzentrieren sollten, da sie die vollständigste Version jedes Punkts im Gesprächsverlauf darstellen.
  • Nicht-inklusiv — der vollständige Inhalt dieser E-Mail ist bereits in einer späteren, umfassenderen Nachricht im Thread enthalten. Die Prüfung dieser E-Mails wäre redundant, da die inklusive Nachricht bereits alles erfasst.

Wenn die Option Nur Inklusive beim Upload aktiviert ist, werden nicht-inklusive E-Mails vollständig aus dem aktiven Prüfarbeitsbereich ausgeschlossen. Sie werden weiterhin zu Prüfzwecken im System aufbewahrt, zählen jedoch nicht zum Hosting-Speicher, werden nicht für die Suche indexiert und werden nicht durch KI-Klassifizierung, Schwärzung oder Zusammenfassung verarbeitet — was die Kosten direkt reduziert.

Das Threading verwendet E-Mail-Header (Message-ID, In-Reply-To, References) und den Microsoft Exchange Conversation Index, um präzise Thread-Strukturen aufzubauen. Der Threading-Zusammenfassungsbericht enthält:

  • Gesamtzahl der verarbeiteten E-Mails und wie viele davon threading-fähig waren
  • Anzahl inklusiver vs. nicht-inklusiver Nachrichten
  • Nicht-inklusive E-Mails, die aus dem Prüfarbeitsbereich ausgeschlossen wurden
  • Identifizierte Thread-Gruppen
  • Aufgetretene Threading-Fehler

NIST-Filterung

Die NIST-Filterung entfernt bekannte Systemdateien, Betriebssystemkomponenten und Software-Laufzeitdateien aus dem Prüfset. Diese Dateien werden identifiziert, indem ihre Hashwerte mit derNIST National Software Reference Library (NSRL) abgeglichen werden — einer umfassenden Datenbank bekannter, nicht relevanter Systemdateien.

NIST-gefilterte Dateien werden gekennzeichnet und aus dem aktiven Prüfarbeitsbereich ausgeschlossen, verbleiben jedoch zu Prüfzwecken im System. Der Upload-Zusammenfassungsbericht dokumentiert die Anzahl und Details der gefilterten Dateien.

Verarbeitungsausnahmen

Während der Aufnahme können bei einigen Dokumenten Verarbeitungsausnahmen auftreten. Dezcry erfasst und meldet diese im Upload-Zusammenfassungsbericht:

AusnahmetypBeschreibung
VerschlüsseltPasswortgeschützte Dateien, die nicht entschlüsselt werden konnten. Fügen Sie Passwörter zur Passwortbank hinzu und verarbeiten Sie die Dateien erneut.
BeschädigtDateien, die fehlerhaft, abgeschnitten oder anderweitig nicht lesbar sind.
Nicht unterstütztes FormatDateitypen, die Dezcry derzeit nicht für die Textextraktion unterstützt.
Textextraktion fehlgeschlagenDateien, bei denen der Inhalt trotz eines unterstützten Formats nicht extrahiert werden konnte.

Jede Ausnahme enthält die Dokument-ID, den Dateinamen, den Ausnahmetyp und eine beschreibende Nachricht, um die Diagnose und Behebung des Problems zu erleichtern.

Upload-Stapel

Jeder Upload erstellt einen Verarbeitungsstapel mit einer eindeutigen Anzeige-ID (z. B. UPL-001). Navigieren Sie zur Seite Uploads, um alle Stapel für die Angelegenheit anzuzeigen, einschließlich:

  • Stapelstatus (in Verarbeitung, abgeschlossen, fehlgeschlagen)
  • Gesamtzahl der eingereichten und verarbeiteten Dateien
  • Anzahl nach Ergebnis (erfolgreich verarbeitet, verschlüsselt, beschädigt, Duplikate, NIST-gefiltert)
  • Entschlüsselungsergebnisse (erfolgreich, fehlgeschlagen)
  • Extrahierte Unterdokumente (Anhänge aus Containerdateien)
  • Verteilung der Dateitypen
  • Verarbeitungsdauer
  • MD5-Hash des Upload-Sets zur Verifizierung der Beweiskette

Klicken Sie auf einen beliebigen Stapel, um den detaillierten Verarbeitungsbericht einzusehen, einschließlich dokumentspezifischer Ausnahmedetails, Duplikatgruppen und Threading-Statistiken.

Dokumentenprüfung

Dokumentenliste

Der Hauptarbeitsbereich der Angelegenheit zeigt alle Dokumente in einer durchsuchbaren, sortierbaren Tabelle an. Jede Zeile zeigt den Dateinamen, den Typ, den Status, die Größe, den Custodian sowie alle angewendeten Tags oder Entscheidungen des Dokuments. Zu den wichtigsten Funktionen gehören:

  • Volltextsuche — Stichwortsuche über Dokumentinhalte, Dateinamen und E-Mail-Metadaten mit eDiscovery-tauglichem Elasticsearch
  • Spaltenfilter — Filtern nach Status, Dateityp, Custodian, Datumsbereichen, Tags, Relevanz-Codierung und benutzerdefinierten Entscheidungsfeldern
  • Massenauswahl — Mehrere Dokumente für Stapeloperationen wie Tagging, Entscheidungscodierung oder Export auswählen
  • Sortierung — Nach jeder Spalte sortieren, einschließlich Dateiname, Datum, Größe, Relevanz oder Typ
  • Gespeicherte Suchen — Jede Kombination aus Suchabfrage und Filtern zur Wiederverwendung speichern

Dokumentenbetrachter

Klicken Sie auf ein beliebiges Dokument, um den vollständigen Dokumentenbetrachter zu öffnen. Der Betrachter bietet eine umfangreiche, mehrteilige Oberfläche zur Prüfung einzelner Dokumente:

  • Dokumentenanzeige — native Darstellung des Dokuments mit Zoom-Steuerung (0,25x bis 3x)
  • Drei Ansichts-Tabs: Original (natives Format), Markup (mit Schwärzungs-Overlays) und Text (extrahierter Klartext mit Suchhervorhebung)
  • Metadaten-Panel — Dokumenteigenschaften, E-Mail-Header, Datei-Hashes und Verarbeitungsinformationen
  • Entscheidungs-Panel — Relevanz festlegen, Hot-Document-Markierung, Kommentare und benutzerdefinierte Entscheidungsfelder
  • Familien-Panel — Eltern-/Kind-Beziehungen anzeigen (z. B. E-Mail und Anhänge)
  • Chat-Panel — Fragen zum Dokument mithilfe von KI stellen
  • Navigation — Vor-/Zurück-Schaltflächen mit Tastenkombinationen für eine schnelle sequenzielle Prüfung
Leistung

Der Dokumentenbetrachter verwendet einen Prefetch-Cache, der benachbarte Dokumente (vorheriges und nächstes) im Hintergrund vorlädt. Dies ermöglicht eine nahezu sofortige Navigation bei der sequenziellen Dokumentenprüfung. Der Cache speichert bis zu 50 Dokumente mit einer TTL von 2 Minuten.

Native Dateibetrachter

Dezcry enthält speziell entwickelte Betrachter für jeden unterstützten Dateityp, die Dokumente direkt im Browser darstellen, ohne dass Plugins oder Downloads erforderlich sind:

BetrachterDateitypenFunktionen
PDF-BetrachterPDF-DateienSeitenweise Darstellung, Zoom, Scrollen, Textauswahl, Suchhervorhebung
Bild-BetrachterPNG, JPG, TIFF, BMP, GIFSchwenken und Zoomen, An Breite/Höhe anpassen, Anzeige in voller Auflösung
DOCX-BetrachterWord-Dokumente (DOCX)Formatierte Textdarstellung mit Formatvorlagen, Überschriften, Listen und Tabellen
PPTX-BetrachterPowerPoint (PPTX)Folienweise Darstellung mit Layouts und Formatierung
Tabellen-BetrachterXLSX, XLS, CSVMehrere Blatt-Tabs, Spalten-/Zeilenüberschriften, Zellformatierung, fixierte Bereiche
Text-BetrachterTXT, LOG, HTML, XML, JSONSyntaxhervorgehobener Text mit Zeilennummern und Suche
Audio-BetrachterMP3, WAV, M4AAudioplayer mit Wellenform, Wiedergabesteuerung und Zeitstempelanzeige
Video-BetrachterMP4, AVI, MOVVideoplayer mit Wiedergabesteuerung, Vollbildmodus
Markup-BetrachterJedes Dokument mit SchwärzungenDarstellung von Schwärzungs-Overlays mit farbcodierten Entitätskategorien

Metadaten-Panel

Das Metadaten-Panel zeigt alle extrahierten Eigenschaften des aktuellen Dokuments an. Bei E-Mail-Dateienumfasst dies:

  • Von-, An-, CC-, BCC-Adressen
  • Betreffzeile
  • Sendedatum und Empfangsdatum
  • Message-ID und Konversations-Threading-Referenzen
  • Anzahl und Liste der Anhänge

Für alle Dokumente zeigt das Metadaten-Panel:

  • Dateigröße, MIME-Typ und Dokumenttyp
  • MD5- und SHA-256-Hashes (zur Integritätsprüfung)
  • Erstellungs- und Änderungsdatum
  • Autor (sofern aus den Dokumenteigenschaften verfügbar)
  • Quellordnerpfad aus dem Originalcontainer
  • OCR-Status und KI-Zusammenfassung (sofern verfügbar)
  • Verarbeitungsstatus und etwaige Fehlermeldungen

Entscheidungs-Panel

Im Entscheidungs-Panel erfassen Prüfer ihre Bewertungen. Jede Entscheidung wird mit einem Zeitstempel versehen und im Audit-Trail protokolliert. Verfügbare Felder:

  • Relevanz — Das Dokument als relevant, nicht relevant oder mit anderen benutzerdefinierten Werten kennzeichnen
  • Hot Document — Wichtige oder bedeutsame Dokumente zur Beachtung markieren
  • Entscheidungskommentar — Freitext-Anmerkung zur Erläuterung der Begründung des Prüfers
  • Benutzerdefinierte Entscheidungsfelder — Alle zusätzlichen Felder, die auf Angelegenheitsebene konfiguriert wurden (Einfachauswahl, Mehrfachauswahl oder Freitext)
Optimistisches Sperren

Dezcry verwendet optimistisches Sperren bei Dokumentenentscheidungen, um Überschreibungskonflikte zu verhindern, wenn mehrere Prüfer an derselben Angelegenheit arbeiten. Jedes Dokument verfolgt eine Versionsnummer, die bei jeder Aktualisierung hochgezählt wird. Wenn zwei Prüfer gleichzeitig versuchen, Änderungen am selben Dokument zu speichern, erhält der zweite Speichervorgang einen Konfliktfehler und wird aufgefordert, die Daten zu aktualisieren, bevor die Änderungen erneut angewendet werden.

Dokumentenfamilien

Dokumente, die aus Containerdateien extrahiert wurden (E-Mails mit Anhängen, ZIP-Archive), werden automatisch in Familien gruppiert. Eine Familie besteht aus einem übergeordneten Dokument (z. B. einer E-Mail) und seinen untergeordneten Dokumenten (z. B. Anhängen).

Das Familien-Panel im Dokumentenbetrachter zeigt alle zugehörigen Dokumente an und ermöglicht es Prüfern, schnell zwischen einer übergeordneten E-Mail und ihren Anhängen zu navigieren. Familienbeziehungen bleiben in allen Arbeitsabläufen erhalten — Suchergebnisse können eine Familienerweiterung umfassen, und Exporte können Familienmitglieder zusammenfassen.

Tagging

Dokumente können mit Relevanz-Codes und benutzerdefinierten Entscheidungsfeldwerten versehen werden. Tags werden über das Entscheidungs-Panel im Dokumentenbetrachter oder über Massenaktionen in der Dokumentenliste gesetzt. Alle Tagging-Aktionen werden im Audit-Trail mit der Identität des Prüfers und einem Zeitstempel protokolliert.

Metadaten

Übersicht

Jedes in eine Angelegenheit aufgenommene Dokument verfügt über einen umfangreichen Satz von Metadatenfeldern, die während der Verarbeitung automatisch extrahiert werden. Dezcry erfasstüber 60 Metadatenfelder pro Dokument — von grundlegenden Dateieigenschaften und E-Mail-Headern bis hin zu KI-generierten Zusammenfassungen und Prüferentscheidungen. Diese Felder stehen plattformweit für Filterung, Sortierung, Spaltenanzeige, Suche und Export zur Verfügung.

Metadaten werden zum Zeitpunkt der Aufnahme ohne manuellen Aufwand extrahiert. Bei E-Mail-Dateien analysiert Dezcry alle Standard-Header einschließlich Threading-Referenzen. Bei Office-Dokumenten und PDFs werden eingebettete Eigenschaften wie Autor, Titel und Erstellungsdatum erfasst. Bei Bildern werden EXIF-Daten einschließlich Kameramodell, GPS-Koordinaten und Zeitstempel gesichert. Alle Datumsangaben werden für konsistente zeitzonenübergreifende Analysen auf UTC normalisiert.

Warum Metadaten in eDiscovery wichtig sind

Metadaten sind entscheidend für verteidigungsfähige Review-Workflows. Felder wie Hash-Werte (MD5, SHA-256) gewährleisten die Integrität der Beweiskette (Chain of Custody). Datumsfelder ermöglichen eine präzise Datumsbereichsfilterung zur Eingrenzung der Prüfungsmenge. E-Mail-Threading-Metadaten erlauben es Prüfern, sich ausschließlich auf inklusive Nachrichten zu konzentrieren. Und die Custodian-Verfolgung über Duplikate hinweg stellt sicher, dass nichts verloren geht, selbst wenn redundante Kopien entfernt werden. Alle unten aufgeführten Metadatenfelder sind in Load-File-Exporten (DAT, CSV, XLSX) für die Weiterverwendung in Relativity, Nuix oder anderen Review-Plattformen verfügbar.

Kerndokumentfelder

Diese Felder sind unabhängig vom Dateityp bei jedem Dokument vorhanden. Sie liefern die grundlegenden Identifikatoren, Dateieigenschaften und Verarbeitungsinformationen, die für die Dokumentenverwaltung und die Nachverfolgung der Beweiskette erforderlich sind.

FeldTypBeschreibung
doc_idStringEindeutiger Dokumentenidentifikator innerhalb der Angelegenheit (z. B. DOC-000001). Dies ist die primäre Referenz, die plattformweit verwendet wird — in Suchergebnissen, Exporten, Audit-Logs und Querverweisen.
doc_seqIntegerLaufende Nummer, die bei der Aufnahme vergeben wird und für die Sortierung sowie Bates-Nummerierung in Exporten verwendet wird. Sequenzen sind innerhalb jeder Angelegenheit eindeutig und werden in Upload-Reihenfolge vergeben.
filenameStringUrsprünglicher Dateiname des Dokuments, wie er in den Quelldaten vorhanden war. Wird aus Gründen der Verteidigungsfähigkeit exakt beibehalten — es erfolgt keine Umbenennung oder Bereinigung.
mimeStringMIME-Typ der Datei (z. B. application/pdf, message/rfc822). Wird sowohl durch Dateierweiterung als auch durch Magic-Byte-Analyse für eine genaue Identifizierung bestimmt.
document_typeStringAngereicherte Dokumentkategorie — Email, PDF, Word, Excel, PowerPoint, Image, Text, Archive, Audio, Video oder Other. Nützlich zum Filtern der Dokumentenliste nach Dateityp.
size_bytesIntegerDateigröße in Bytes. Wird in der Benutzeroberfläche in lesbarem Format (KB, MB) angezeigt. Nützlich zur Identifizierung ungewöhnlich großer oder verdächtig kleiner Dateien.
source_folderStringUrsprünglicher Ordnerpfad innerhalb des Quellcontainers — z. B. die PST-Ordnerhierarchie (Inbox/Projects/2024), ZIP-Verzeichnispfad oder verschachtelte Archivstruktur. Bewahrt den organisatorischen Kontext der Originaldaten.
date_created_utcDateTimeErstellungsdatum der Datei in UTC. Bei Office-Dokumenten aus eingebetteten Dokumenteigenschaften extrahiert. Bei anderen Dateien aus Dateisystem-Zeitstempeln oder Container-Metadaten abgeleitet.
date_modified_utcDateTimeDatum der letzten Änderung der Datei in UTC. Entscheidend für die Datumsbereichsfilterung in Review-Workflows und für die Erstellung von Dokumentenzeitachsen.
md5StringMD5-Hash des Dateiinhalts (32 Hexadezimalzeichen). Wird für die Deduplizierung innerhalb der Angelegenheit und zur Integritätsüberprüfung der Beweiskette in Exporten verwendet.
sha256StringSHA-256-Hash des Dateiinhalts (64 Hexadezimalzeichen). Bietet einen kryptographisch starken Integritäts-Fingerabdruck für eine verteidigungsfähige Produktion.
statusStringVerarbeitungsstatus — queued (wartet auf Verarbeitung), processing (wird derzeit aufgenommen), ready (erfolgreich verarbeitet und zur Prüfung verfügbar) oder failed (Fehler aufgetreten).
processing_errorStringDetaillierte Fehlermeldung bei fehlgeschlagener Verarbeitung. Hilft bei der Diagnose von Problemen wie passwortgeschützten Dateien, beschädigten Archiven oder nicht unterstützten Formaten.
processing_datasetStringUpload-Batch-Identifikator (z. B. UPL-001), der das Dokument mit seinem Aufnahme-Batch verknüpft. Nützlich zur Nachverfolgung, zu welchem Upload-Satz ein Dokument gehört, und zur Anzeige von Batch-Statistiken.

Familien- & Hierarchiefelder

Dokumente, die aus Containerdateien extrahiert wurden — wie E-Mails mit Anhängen, ZIP-Archive oder verschachtelte PST-Ordner — werden automatisch in Familien gruppiert. Familienbeziehungen sind entscheidend für eine verteidigungsfähige Prüfung: Prüfer sehen jede E-Mail zusammen mit ihren Anhängen, und Exporte können Familienmitglieder im selben Volume für die Produktion zusammenfassen.

FeldTypBeschreibung
family_idStringFamiliengruppenidentifikator. Bei übergeordneten Dokumenten (z. B. einer E-Mail) entspricht dieser der eigenen doc_id des Dokuments. Bei untergeordneten Dokumenten (z. B. Anhängen) wird die family_id des übergeordneten Dokuments übernommen — wodurch die gesamte Familie für Gruppierung, Export und Prüfung verknüpft wird.
parent_idUUIDID des übergeordneten Dokuments (z. B. die E-Mail, die diesen Anhang enthielt). Null bei eigenständigen Dokumenten der obersten Ebene. Ermöglicht die Familienbaumansicht im Dokumenten-Viewer, in der Prüfer zwischen einem übergeordneten Dokument und allen untergeordneten Dokumenten navigieren können.
Familienintegrität in Exporten

Beim Exportieren von Dokumenten bewahrt Dezcry die Familienbeziehungen in der Load-Datei. Übergeordnete Dokumente und ihre untergeordneten Dokumente werden über die Felder family_id und parent_id verknüpft, sodass nachgelagerte Review-Plattformen (Relativity, Nuix usw.) die Familienhierarchie rekonstruieren können. Der Export-Assistent unterstützt zudem familienbasierte Volume-Gruppierung, um zusammengehörige Dokumente beieinander zu halten.

E-Mail-Felder

E-Mail ist oft der wichtigste Datentyp in eDiscovery. Dezcry extrahiert einen umfassenden Satz von E-Mail-Metadaten aus sowohl EML- als auch MSG-Formaten, einschließlich Nachrichten, die aus PST-, OST- und MBOX-Containern extrahiert wurden. Diese Felder werden als erstklassige Datenbankspalten gespeichert, um effizientes Filtern, Sortieren und feldspezifisches Suchen zu ermöglichen (z. B. from:john@acme.com).

FeldTypBeschreibung
email_fromStringE-Mail-Adresse und Anzeigename des Absenders (z. B. 'John Smith <john@acme.com>'). Durchsuchbar über das Feldpräfix from: in der Stichwortsuche.
email_toStringEmpfänger-E-Mail-Adressen (durch Semikolon getrennt). Unterstützt mehrere Empfänger. Durchsuchbar über das Feldpräfix to:.
email_ccStringCC-Empfänger-E-Mail-Adressen (durch Semikolon getrennt). Durchsuchbar über das Feldpräfix cc:.
email_bccStringBCC-Empfänger-E-Mail-Adressen (durch Semikolon getrennt). Durchsuchbar über das Feldpräfix bcc:. Nur verfügbar, wenn die Quelldaten BCC-Header enthalten (typischerweise nur im Postfach des Absenders).
email_subjectStringE-Mail-Betreffzeile. Durchsuchbar über das Feldpräfix subject:. Wird häufig für die Stichwortsuche und Klassifizierungs-Workflows verwendet.
email_message_idStringRFC 2822 Message-ID-Header — ein global eindeutiger Identifikator, der vom sendenden Mailserver zugewiesen wird. Wird intern für E-Mail-Threading und Deduplizierung verwendet.
email_date_sent_utcDateTimeDatum und Uhrzeit des E-Mail-Versands, normalisiert auf UTC. Dies ist das primäre Datumsfeld für die Datumsbereichsfilterung und Zeitachsenanalyse von E-Mails.
email_date_received_utcDateTimeDatum und Uhrzeit des E-Mail-Empfangs, normalisiert auf UTC. Kann aufgrund von Zustellverzögerungen oder Zeitzonenunterschieden zwischen Absender- und Empfängerservern von date_sent abweichen.
email_attachments_jsonJSONStrukturierte Anhangszusammenfassung mit Anzahl und Liste der Dateinamen (z. B. {count: 3, names: ['report.pdf', 'data.xlsx', 'photo.jpg']}). Nützlich zur schnellen Identifizierung von E-Mails mit bestimmten Anhängen, ohne diese öffnen zu müssen.
email_in_reply_toStringMessage-ID der E-Mail, auf die direkt geantwortet wird. Wird von der Threading-Engine zum Aufbau des Konversationsbaums verwendet.
email_referencesStringGeordnete Kette von Message-IDs, die den vollständigen Konversationsverlauf darstellen. Jede Antwort fügt die Message-ID der übergeordneten Nachricht hinzu und erzeugt so eine Breadcrumb-Spur durch den Thread.
email_conversation_indexStringMicrosoft Exchange PR_CONVERSATION_INDEX — ein hexadezimal kodierter Binärwert, der in Outlook/Exchange-Nachrichten vorhanden ist. Ermöglicht eine präzise Thread-Positionierung, selbst wenn Standard-Header fehlen oder unzuverlässig sind.
email_thread_indexStringHierarchischer Thread-Positionspfad, berechnet von Dezcry (z. B. 'a1b2c3d4+0001+0002'). Kodiert die exakte Baumposition für die korrekte chronologische Sortierreihenfolge und Zweigidentifikation in Konversationsansichten.
E-Mail-Suchfunktionen

Alle E-Mail-Metadatenfelder sind in der Suchmaschine indexiert. Sie können feldspezifische Suchpräfixe verwenden, um einzelne Felder gezielt anzusprechen — zum Beispiel from:john@acme.com AND subject:"quarterly report" oder to:legal@company.com AND date >= 2024-01-01. Siehe den Abschnitt Suchsyntaxfür die vollständige Liste der unterstützten Feldpräfixe und Operatoren.

E-Mail-Threading-Felder

Diese Felder werden von Dezcry's E-Mail-Threading-Engine während der Aufnahme berechnet. Threading gruppiert zusammengehörige Nachrichten in Konversationsbäume und identifiziert, welche Nachrichteninklusiv (mit einzigartigem Inhalt, den ein Prüfer sehen muss) und welche nicht-inklusiv (redundante Nachrichten, deren Inhalt vollständig durch eine spätere Antwort erfasst wird) sind. Dies kann die Prüfungsmenge in E-Mail-lastigen Angelegenheiten um 40–60 % reduzieren und senkt direkt die Prüfungszeit und KI-Verarbeitungskosten.

FeldTypBeschreibung
email_thread_group_idUUIDIdentifikator der Konversations-Thread-Gruppe, zu der diese E-Mail gehört. Alle E-Mails in derselben Konversation teilen diese ID, was Thread-Gruppierung und Navigation im Dokumenten-Viewer ermöglicht.
email_thread_indentationIntegerTiefe innerhalb des Thread-Baums (0 = die Ursprungsnachricht, 1 = eine direkte Antwort, 2 = eine Antwort auf eine Antwort usw.). Wird für die visuelle Einrückung in Konversationsansichten verwendet.
is_inclusive_emailBooleanGibt an, ob diese E-Mail inklusiv ist — das heißt, sie enthält einzigartigen Nachrichteninhalt oder Anhänge, die in keiner späteren Nachricht im Thread vorhanden sind. Null, wenn Threading für dieses Dokument nicht aktiviert war. Inklusive E-Mails sind die Mindestmenge, die ein Prüfer sehen muss.
inclusive_reasonStringErklärt, warum die E-Mail inklusiv ist: unique_message_content (Textkörper nicht in späteren Antworten enthalten), unique_attachment (hat einen Anhang, der nicht in späteren Nachrichten vorkommt), unanalyzed_attachment (Anhang konnte nicht verglichen werden), root_message (erste Nachricht im Thread) oder threading_error (Inklusivität konnte nicht bestimmt werden).
Nur-Inklusive-Prüfungsmodus

Wenn "Inclusive Only" beim Upload aktiviert ist, werden nicht-inklusive E-Mails vollständig aus dem aktiven Prüfungsarbeitsbereich ausgeschlossen. Sie verbleiben im System und können über die Thread-Ansicht als Kontext aufgerufen werden, erscheinen jedoch nicht in der Hauptdokumentenliste, werden nicht

Wenn "Inclusive Only" beim Upload aktiviert ist, werden nicht-inklusive E-Mails vollständig aus dem aktiven Prüfungsarbeitsbereich ausgeschlossen. Sie verbleiben weiterhin im System und können über die Thread-Ansicht als Kontext abgerufen werden, erscheinen jedoch nicht in der Hauptdokumentenliste, werden nicht durch KI-Klassifizierung oder Schwärzung verarbeitet und zählen nicht zum Speicherverbrauch. Dies ist der empfohlene Ansatz für Vorgänge mit großen E-Mail-Volumina, bei denen Kosteneffizienz Priorität hat.

OCR-Felder

Dezcry erkennt automatisch Dokumente, die keinen extrahierbaren Text enthalten — wie gescannte PDFs, Fotos von Dokumenten und Bilddateien — und markiert diese für OCR (Optical Character Recognition). Nach Durchführung der OCR wird der extrahierte Text vollständig durchsuchbar und steht für die KI-Verarbeitung zur Verfügung.

FeldTypBeschreibung
ocr_requiredBooleanGibt an, ob das Dokument OCR zur Extraktion von durchsuchbarem Text benötigt. Wird während der Aufnahme automatisch auf true gesetzt für gescannte PDFs, reine Bild-PDFs und Bilddateien (JPEG, PNG, TIFF, BMP). Dokumente mit vorhandenem eingebettetem Text werden auf false gesetzt.
ocr_statusStringAktueller OCR-Verarbeitungsstatus: not_applicable (Dokument enthält eingebetteten Text, OCR nicht erforderlich), completed (OCR erfolgreich abgeschlossen, Text extrahiert), failed (OCR versucht, aber Fehler aufgetreten), partial (einige Seiten erfolgreich verarbeitet) oder skipped (OCR trotz Erforderlichkeit noch nicht durchgeführt).

Deduplizierungsfelder

Wenn die globale Deduplizierung beim Upload aktiviert ist, identifiziert Dezcry byteweise identische Dateien im gesamten Vorgang mittels Hash-Abgleich. Die erste Instanz wird als Masterdokument beibehalten und nachfolgende Kopien werden als Duplikate markiert. Die Deduplizierung erfolgt auf oberster Ebene — das bedeutet, dass ganze Familien (E-Mail + Anhänge) als Einheit dedupliziert werden, wodurch die Familienintegrität erhalten bleibt. Weitere Einzelheiten finden Sie im Abschnitt Deduplizierung.

FeldTypBeschreibung
is_duplicateBooleanGibt an, ob dieses Dokument ein Duplikat eines anderen Dokuments im Vorgang ist. Duplizierte Dokumente werden aus dem aktiven Prüfungssatz ausgeschlossen, bleiben jedoch für Prüfungs- und Exportzwecke erhalten.
duplicate_of_idUUIDID des Masterdokuments, dessen Duplikat dieses Dokument ist. Ermöglicht Prüfern und Exporten die Rückverfolgung zur beibehaltenen Kopie. Das Masterdokument ist stets die zuerst aufgenommene Instanz.
duplicate_custodian_infoStringErfasst, welche Verwahrer Kopien dieses Dokuments besaßen. Entscheidend für die Verteidigungsfähigkeit — auch wenn duplizierte Kopien aus dem Prüfungssatz entfernt werden, bewahrt dieses Feld eine vollständige Aufzeichnung darüber, wer das Dokument über alle Datenquellen hinweg besaß.

NIST-Filterfelder

Die NIST-Filterung (auch als "De-NISTing" bekannt) entfernt bekannte Systemdateien, Betriebssystemkomponenten und Anwendungslaufzeitdateien aus dem Prüfungssatz durch Abgleich von Datei-Hashes mit der NIST National Software Reference Library (NSRL). Dies ist eine Standardpraxis im eDiscovery, die Dateien eliminiert, die für die Prüfung niemals relevant sind — wie Windows-DLLs, Office-Vorlagen und Browser-Cache-Dateien — und häufig 10–30 % eines Datensatzes entfernt, bevor die Prüfung beginnt.

FeldTypBeschreibung
is_nist_filteredBooleanGibt an, ob diese Datei über den NIST-NSRL-Hash-Abgleich als bekannte System- oder Anwendungsdatei identifiziert wurde. Gefilterte Dateien werden aus dem aktiven Prüfungsarbeitsbereich ausgeschlossen, verbleiben jedoch für Prüfungs- und Berichtszwecke im System.
nist_product_nameStringName des Softwareprodukts, zu dem die Datei laut NSRL-Datenbank gehört (z. B. Microsoft Windows 11, Adobe Acrobat Reader, Google Chrome). Hilft zu erkennen, warum eine Datei gefiltert wurde, und bietet Kontext in Ausnahmeberichten.

Verschlüsselungs- & Integritätsfelder

Dezcry führt während der Aufnahme eine detaillierte Analyse jeder Datei durch, um Verschlüsselung, Beschädigung und Dateityp-Nichtübereinstimmungen zu erkennen. Diese Felder bieten ein vollständiges Bild des Integritätsstatus jedes Dokuments — unverzichtbar für die eDiscovery-Ausnahmeberichterstattung und um sicherzustellen, dass keine Dokumente während der Verarbeitung stillschweigend übersehen werden.

FeldTypBeschreibung
is_encryptedBooleanGibt an, ob das Dokument verschlüsselt oder passwortgeschützt ist. Verschlüsselte Dateien können erst nach der Entschlüsselung verarbeitet werden — fügen Sie das Passwort zur Passwortdatenbank hinzu und verarbeiten Sie erneut, oder vermerken Sie die Ausnahme in der Berichterstattung.
encryption_typeStringDetaillierte Verschlüsselungsklassifizierung: password_protected (standardmäßiger Office-/PDF-Passwortschutz), drm_protected (Digital Rights Management), pgp_encrypted (PGP/GPG-Verschlüsselung), smime_encrypted (S/MIME-E-Mail-Verschlüsselung) oder bitlocker (Artefakt einer Festplattenverschlüsselung). Hilft IT-Teams, die geeignete Entschlüsselungsmethode zu bestimmen.
is_corruptBooleanGibt an, ob das Dokument beschädigt oder fehlerhaft ist. Beschädigte Dateien werden als Verarbeitungsausnahmen markiert und in Ausnahmeberichten zur Transparenz aufgeführt.
corruption_typeStringDetaillierte Beschädigungsklassifizierung: truncated (Datei abgeschnitten), malformed_header (ungültiger Datei-Header), invalid_structure (interne Strukturfehler) oder zero_byte (leere Datei). Bietet verwertbare Details für die Fehlerbehebung oder erneute Beschaffung aus der Quelle.
file_signatureStringDurch Analyse der binären Header der Datei erkannte Magic-Bytes-Signatur (z. B. 'PDF-1.4', 'PK (ZIP)', 'JPEG/JFIF'). Unabhängig von der Dateierweiterung — liefert die tatsächliche Formatidentität.
file_signature_mismatchBooleanGibt an, ob die Dateierweiterung nicht mit dem tatsächlich durch Magic Bytes erkannten Inhalt übereinstimmt (z. B. eine .docx-Datei, die tatsächlich eine umbenannte .exe ist). Wichtig für die Identifizierung potenziell verdächtiger oder falsch bezeichneter Dateien in der forensischen Prüfung.
is_decryptedBooleanGibt an, ob das Dokument während der Verarbeitung mit einem Passwort aus der Passwortdatenbank oder einem beim Upload angegebenen Passwort erfolgreich entschlüsselt wurde.
decryption_methodStringArt der Entschlüsselung des Dokuments: global_password_bank (Abgleich mit den gespeicherten Passwörtern des Vorgangs) oder upload_password (beim Upload, der diese Datei enthielt, angegebenes Passwort). Bietet einen Prüfpfad für Entschlüsselungsaktionen.
Dateisignaturanalyse

Dezcry untersucht die binären Magic Bytes jeder Datei, um deren tatsächliches Format unabhängig von der Dateierweiterung zu bestimmen. Wenn eine Nichtübereinstimmung erkannt wird (z. B. eine.xlsx-Datei, die tatsächlich ein ZIP-Archiv ist, oder eine .pdf-Datei, die tatsächlich ein JPEG-Bild ist), wird das Flag file_signature_mismatch gesetzt. Dies ist wertvoll für die Identifizierung von Dateien, die absichtlich umbenannt wurden, um einer Prüfung zu entgehen — eine gängige Taktik bei Ermittlungen und Rechtsstreitigkeiten.

Verarbeitungsausnahmefelder

In jedem eDiscovery-Vorgang wird ein gewisser Prozentsatz der Dokumente auf Verarbeitungsprobleme stoßen. Dezcry kategorisiert jede Ausnahme mit einem Typ und einer Aktion und liefert die strukturierten Daten, die für eine verteidigungsfähige Ausnahmeberichterstattung erforderlich sind. Diese Felder sind in Exporten und Verarbeitungsstapelberichten enthalten, damit Rechtsteams eine vollständige Aufzeichnung darüber haben, was erfolgreich verarbeitet wurde — und was nicht.

FeldTypBeschreibung
exception_typeStringDie Kategorie der Verarbeitungsausnahme: encryption (passwortgeschützte oder verschlüsselte Datei), corruption (fehlerhafte oder beschädigte Datei), unsupported_format (Dateityp wird für Textextraktion nicht unterstützt) oder text_extraction_failed (unterstütztes Format, aber bei der Extraktion ist ein Fehler aufgetreten). Wird für Filterung und Berichterstattung über Verarbeitungsergebnisse verwendet.
exception_actionStringDie von Dezcry als Reaktion auf die Ausnahme ergriffene Maßnahme: processed_with_errors (teilweise Verarbeitung mit einigen festgestellten Problemen abgeschlossen), skipped (Dokument konnte überhaupt nicht verarbeitet werden), partial_extraction (einige Inhalte wurden extrahiert, aber der Prozess wurde nicht vollständig abgeschlossen) oder placeholder_created (ein Platzhaltereintrag wurde zu Nachverfolgungs- und Berichtszwecken erstellt). Bietet Transparenz für Rechtsteams, die die Vollständigkeit bewerten.

KI- & Verarbeitungsfelder

Dezcry nutzt KI, um automatisch Dokumentzusammenfassungen zu erstellen, Schwärzungen durchzuführen und Dokumentvorschauen zu generieren. Diese Felder verfolgen den Status und die Ergebnisse jedes KI-gestützten Workflows und ermöglichen es Prüfern, schnell zu sehen, welche Dokumente zusammengefasst, geschwärzt oder noch in Bearbeitung sind.

FeldTypBeschreibung
llm_summaryStringKI-generierte Zusammenfassung des Dokumentinhalts in 1–2 Sätzen. Zusammenfassungen werden nach der Aufnahme automatisch erstellt und in der Dokumentenliste sowie im Viewer angezeigt. Nützlich für die schnelle Sichtung von Dokumenten, ohne diese öffnen zu müssen — Prüfer können Zusammenfassungen scannen, um relevante Dokumente schneller zu identifizieren.
markup_statusStringSchwärzungs- und Annotations-Workflow-Status: not_started (keine Schwärzungen angewendet), pending (Schwärzung in Bearbeitung), complete (alle Schwärzungen angewendet und Markup generiert) oder failed (bei der Markup-Generierung ist ein Fehler aufgetreten). Dokumente mit dem markup_status 'complete' verfügen über eine vollständig geschwärzte Vorschau.
markup_page_countIntegerGesamtanzahl der Seiten im Markup-Dokument. Wird nach Abschluss der Markup-Generierung befüllt. Nützlich für die Einschätzung des Prüfungsaufwands und für die seitenbezogene Schwärzungsverfolgung in Produktionsberichten.
preview_statusStringStatus der Dokumentvorschau-Generierung: none (keine Vorschau angefordert), queued (wartet auf Generierung), generating (wird derzeit konvertiert), ready (Vorschau zur Ansicht verfügbar) oder error (Generierung fehlgeschlagen). Vorschauen konvertieren native Formate in darstellbare HTML/PDF-Dokumente für die Dokumentprüfung im Browser.

Prüfer-Entscheidungsfelder

Diese Felder werden von Prüfern während der Dokumentprüfung über das Entscheidungspanel im Dokumentviewer oder über Massenaktionen in der Dokumentenliste gesetzt. Jede Änderung an diesen Feldern wird mit Zeitstempel versehen, dem Prüfer zugeordnet und im Prüfprotokoll für volle Verteidigungsfähigkeit protokolliert. Optimistisches Locking verhindert widersprüchliche Bearbeitungen, wenn mehrere Prüfer gleichzeitig am selben Vorgang arbeiten.

FeldTypBeschreibung
relevanceStringVom Prüfer zugewiesene Relevanzklassifizierung — typischerweise Responsive, Non-Responsive oder Privileged, aber auf Vorgangsebene vollständig anpassbar. Dies ist das primäre Codierungsfeld, das zur Trennung relevanter Dokumente vom Rest des Datensatzes verwendet wird.
hot_documentBooleanMarkierung, die anzeigt, dass das Dokument besonders bedeutsam ist — ein entscheidendes Beweisstück, das erhöhte Aufmerksamkeit erfordert. Hot Documents werden in der Dokumentenliste visuell hervorgehoben und können zur schnellen Zugriffsmöglichkeit gefiltert werden.
decision_commentStringFreitext-Anmerkung, in der Prüfer ihre Begründung für die Relevanzentscheidung erläutern. Nützlich für die Qualitätskontrolle, die Zweitprüfung und die Bereitstellung von Kontext für leitende Prüfer oder Rechtsberater.
relevance_coded_atDateTimeZeitstempel der letzten Erfassung der Relevanzentscheidung. Wird für die Verfolgung des Prüfungsfortschritts, Produktivitätskennzahlen und Prüfprotokollzwecke verwendet. Wird bei jeder Änderung der Entscheidung durch den Prüfer aktualisiert.
Benutzerdefinierte Entscheidungsfelder

Zusätzlich zu den oben genannten integrierten Feldern können Vorgänge mit benutzerdefinierten Entscheidungsfeldern konfiguriert werden — Einzelauswahl-Dropdowns, Mehrfachauswahl-Tags oder Freitextfelder — um vorgangsspezifische Codierungen wie Sachgebietscodes, Privilegkategorien oder Vertraulichkeitsbezeichnungen zu erfassen. Benutzerdefinierte Felder sind vollständig exportierbar und erscheinen im Entscheidungspanel neben den Standardfeldern. Einzelheiten zur Konfiguration finden Sie unter Benutzerdefinierte Felder.

Erweiterte Metadaten (metadata_json)

Zusätzlich zu den oben genannten erstklassigen Feldern enthält jedes Dokument ein erweitertes Metadatenobjekt mit formatspezifischen Eigenschaften, die nach Namensraum organisiert sind. Diese Felder erfassen die vollständige Tiefe der in jedem Dateityp eingebetteten Informationen — von PDF-Erstellungstools über EXIF-Geolokalisierungsdaten in Bildern bis hin zu E-Mail-Authentifizierungsergebnissen. Erweiterte Metadaten sind im Metadatenpanel einsehbar und in Exporten enthalten.

NamensraumDokumenttypenFelder
generalAlle Dokumentefilename, extension, mime, document_type, size_bytes, upload_batch_id. Bei jedem Dokument als grundlegender Eigenschaftssatz vorhanden.
emailEML, MSGfrom, to, cc, bcc, subject, message_id, in_reply_to, references, conversation_index, date_sent_utc, date_received_utc, attachments (Anzahl und Namen). Enthält außerdem E-Mail-Authentifizierungsergebnisse: dkim_result, spf_result und dmarc_result — nützlich zur Identifizierung gefälschter oder nicht authentifizierter Nachrichten.
pdfPDF-Dateientitle, author, subject, producer (die Anwendung, die das PDF generiert hat), creator (die Ursprungsanwendung), creation_date_utc, modification_date_utc, page_count, is_encrypted. Extrahiert sowohl aus dem PDF-Info-Wörterbuch als auch aus XMP-Metadatenströmen, sofern verfügbar.
ooxmlWord, Excel, PowerPoint (DOCX, XLSX, PPTX)Core-Eigenschaften: created, modified, title, subject, creator, lastModifiedBy, revision, keywords, description, category. Application-Eigenschaften: application (z. B. Microsoft Excel), company, template. Dies sind die Eigenschaften, die im Dialogfeld 'Eigenschaften' einer Datei in Microsoft Office sichtbar sind.
imageJPEG, PNG, TIFF, BMP, GIFformat (z. B. JPEG, PNG), mode (z. B. RGB, RGBA), width, height. EXIF-Daten (sofern verfügbar): DateTimeOriginal, DateTimeDigitized, Make (Kamerahersteller), Model (Kameramodell), Software, Orientation, XResolution, YResolution und GPSInfo (Breitengrad, Längengrad, Höhe). EXIF-Geolokalisierungsdaten können bei Ermittlungen mit Fotografien entscheidend sein.
E-Mail-Authentifizierung (DKIM, SPF, DMARC)

Bei E-Mail-Dokumenten extrahiert Dezcry die Authentifizierungsergebnisse aus den E-Mail-Headern, sofern vorhanden. DKIM (DomainKeys Identified Mail) überprüft, ob die E-Mail während der Übertragung nicht verändert wurde. SPF (Sender Policy Framework) prüft, ob der sendende Server für die Domain autorisiert ist. DMARC (Domain-based Message Authentication) kombiniert beide Prüfungen. Diese Ergebnisse können bei einer Ermittlung helfen, gefälschte oder potenziell betrügerische E-Mails zu identifizieren.

AI-Klassifizierung

Übersicht

Die AI-Klassifizierung ermöglicht es Ihnen, Dokumente automatisch mithilfe von benutzerdefinierten Entscheidungsfeldernzu kategorisieren, die von Ihrem Team definiert werden. Im Gegensatz zur manuellen Prüfung verarbeitet die AI-Klassifizierung gesamte Dokumentenmengen in wenigen Minuten und erzeugt Vorhersagen mit kalibrierten Konfidenzwerten, sodass Prüfer ihre Aufmerksamkeit auf tatsächlich uneindeutige Dokumente richten können, während Vorhersagen mit hoher Konfidenz automatisch angewendet werden.

Die Klassifizierung läuft auf Large Language Models innerhalb derselben Azure-Umgebung wie die restliche Plattform — keine Dokumentendaten verlassen Ihre Bereitstellung. Das System umfasst Konfidenz-Debiasing zur Korrektur bekannter LLM-Überconfidence, einen Verifikationsdurchlauffür Grenzfallvorhersagen mit einem separaten Modell sowie intelligentes Dokument-Chunking für lange Dokumente. Jede Vorhersage enthält einen kalibrierten Konfidenzwert und eine Begründung, und alle Entscheidungen werden im Prüfpfad protokolliert.

Unterschied zwischen Klassifizierung und Schwärzung

Klassifizierung und Schwärzung dienen unterschiedlichen Zwecken. Die Klassifizierung weist ganzen Dokumenten Bezeichnungen zu — sie kategorisiert diese nach Typ, Relevanz, Sensitivität oder einer beliebigen benutzerdefinierten Taxonomie, die Ihr Team festlegt. Die Schwärzung identifiziert und entfernt spezifischen Text innerhalb von Dokumenten. Die Klassifizierung hilft Ihrem Team zu entscheiden,was mit einem Dokument zu tun ist; die Schwärzung hilft Ihnen, es für die Offenlegung vorzubereiten.

Benutzerdefinierte Felder

Bevor Sie einen Klassifizierungsauftrag ausführen, definieren Sie die Entscheidungsfelder, die die AI vorhersagen soll. Diese sind vollständig anpassbar — Sie definieren die Feldnamen, Typen, Optionen und Anweisungen, die für Ihre Prüfung spezifisch sind. Navigieren Sie innerhalb eines Vorgangs zu Klassifizierung, um die Felder zu konfigurieren.

FeldtypBeschreibungBeispiel
EinzelauswahlDie AI wählt genau einen Wert aus einer vordefinierten Liste von Optionen. Am besten für sich gegenseitig ausschließende Kategorien geeignet.Relevanz: Responsiv / Nicht responsiv / Teilweise responsiv
MehrfachauswahlDie AI kann einen oder mehrere zutreffende Werte aus einer Liste auswählen. Am besten für nicht-exklusive Bezeichnungen geeignet.Datenkategorien: Finanziell / Medizinisch / Beschäftigung / Persönlich
BooleanEine einfache Ja/Nein-Entscheidung.Enthält personenbezogene Daten: true / false
FreitextDie AI liefert eine kurze Freitextantwort. Am besten für Zusammenfassungen oder Beschreibungen geeignet.Hauptthemen: Beschreibung des Dokumentinhalts in einem Satz

Für jedes Feld geben Sie Anweisungen in natürlicher Sprache an, die der AI genau erklären, wie Dokumente zu bewerten sind. Die Qualität dieser Anweisungen hat direkten Einfluss auf die Klassifizierungsgenauigkeit. Dezcry bietet einen Echtzeit-Qualitätsindikator während Sie schreiben:

QualitätsstufeLängeHinweis
SchlechtUnter 10 ZeichenZu kurz, um nützlich zu sein — die AI hat keinen Kontext für Entscheidungen. Fügen Sie spezifische Kriterien, Beispiele und Hinweise zu Grenzfällen hinzu.
Ausreichend10–50 ZeichenGrundlegende Orientierung, aber ohne Nuancen. Mehr Details darüber, was für jede Option qualifiziert und wie mehrdeutige Fälle zu behandeln sind, verbessern die Genauigkeit.
Gut50–200 ZeichenDie AI hat genug Kontext für zuverlässige Vorhersagen. Erwägen Sie, Beispiele für Grenzfälle hinzuzufügen.
Ausgezeichnet200+ ZeichenDetaillierte Anweisungen mit klaren Kriterien, Beispielen und Behandlung von Grenzfällen. Dies liefert die genauesten und konsistentesten Ergebnisse.
Effektive Anweisungen verfassen

Gute Klassifizierungsanweisungen sollten Folgendes enthalten:

  • Klare Kriterien — was ein Dokument für jede Option qualifiziert
  • Beispiele — konkrete Beispiele dafür, was in jede Kategorie gehört
  • Grenzfälle — wie mehrdeutige oder grenzwertige Dokumente zu behandeln sind
  • Kontext — relevante Hintergrundinformationen zum Vorgang, zur Branche oder zum regulatorischen Rahmen
  • Negativbeispiele — was nicht als eine bestimmte Kategorie klassifiziert werden sollte

Schreiben Sie zum Beispiel anstatt "Ist dies relevant?": "Klassifizieren Sie als Responsiv, wenn das Dokument Informationen über die Beschäftigungsgeschichte, das Gehalt, Leistungsbeurteilungen oder HR-Kommunikation der betroffenen Person enthält. Klassifizieren Sie als Nicht responsiv, wenn das Dokument eine systemgenerierte Benachrichtigung, Werbematerial ist oder sich auf eine andere Person bezieht. Klassifizieren Sie als Teilweise responsiv, wenn das Dokument einige relevante Inhalte gemischt mit irrelevanten Inhalten enthält."

Klassifizierungssätze

Ein Klassifizierungssatz ist eine wiederverwendbare Konfiguration, die festlegt, welche Felder vorhergesagt werden sollen, wie sich die AI verhalten soll und welche Konfidenzschwellen angewendet werden. Klassifizierungssätze können mehrfach ausgeführt werden — zum Beispiel nach dem Hinzufügen neuer Dokumente zum Vorgang. So erstellen und führen Sie eine Klassifizierung aus:

  1. 1
    Umfang auswählenWählen Sie alle Dokumente oder eine gespeicherte Suche aus, um festzulegen, welche Dokumente klassifiziert werden sollen. Der Umfang wird zum Zeitpunkt der Ausführung eingefroren — später hinzugefügte Dokumente werden in diesem Durchlauf nicht berücksichtigt.
  2. 2
    Satz benennenGeben Sie dem Klassifizierungssatz einen beschreibenden Namen für die Nachverfolgung und Prüfzwecke.
  3. 3
    Felder konfigurierenDefinieren Sie ein oder mehrere benutzerdefinierte Entscheidungsfelder mit Typen, Optionen und AI-Anweisungen in natürlicher Sprache.
  4. 4
    Schwellen festlegenKonfigurieren Sie die automatische Akzeptanzschwelle (Standard: 0,85) und die Prüfschwelle (Standard: 0,60), um zu steuern, wie Vorhersagen weitergeleitet werden.
  5. 5
    Systemprompt (optional)Geben Sie einen optionalen Prompt auf Systemebene an, der für alle Felder gilt — nützlich, um allgemeinen Kontext wie den Vorgangstyp, die Rechtsordnung oder das Prüfprotokoll festzulegen.
  6. 6
    Optionales SamplingKonfigurieren Sie bei großen Dokumentenmengen ein Prävalenz-Sampling, um die Klassifizierungsqualität an einer Teilmenge zu validieren, bevor Sie einen vollständigen Durchlauf starten.
  7. 7
    Prüfen und startenÜberprüfen Sie alle Einstellungen in einer Übersichtsansicht und starten Sie den Klassifizierungsauftrag.

Konfidenzschwellen und Weiterleitung

Dezcry verwendet ein dreistufiges Weiterleitungssystem auf Basis kalibrierter Konfidenzwerte, um zu bestimmen, wie jede Vorhersage behandelt wird:

KonfidenzbereichWeiterleitungBeschreibung
Über Auto-Akzeptanz (Standard: > 0,85)Automatisch angewendetDie Vorhersage wird automatisch ohne menschliche Prüfung angewendet. Die AI ist hochkonfident und die Vorhersage ist vertretbar.
Zwischen Prüf- und Auto-Akzeptanzschwelle (Standard: 0,50–0,85)Zur Prüfung markiertDie Vorhersage wird gespeichert, aber als 'needs_review' markiert. Ein menschlicher Prüfer muss sie genehmigen, korrigieren oder ablehnen, bevor sie angewendet wird.
Unter der Prüfschwelle (Standard: < 0,50)UnbestimmtDie AI konnte keine zuverlässige Vorhersage treffen. Das Dokument wird für die manuelle Kodierung durch einen Prüfer markiert.

Beide Schwellen sind pro Klassifizierungssatz konfigurierbar, sodass Teams den Kompromiss zwischen Automatisierung und menschlicher Aufsicht entsprechend dem Risikoprofil der Prüfung anpassen können. Eine Prüfung mit hohem Risiko (z. B. Privileg-Prüfung) könnte eine niedrigere Auto-Akzeptanzschwelle (0,95) verwenden, um mehr menschliche Prüfung sicherzustellen, während eine routinemäßige Dokumententypklassifizierung eine höhere Schwelle (0,80) verwenden könnte, um die Automatisierung zu maximieren.

Konfidenzkalibierung (Debiasing)

LLMs sind bekannt dafür, systematisch überconfident zu sein — sie neigen dazu, Konfidenzwerte von 0,90 oder 0,95 anzugeben, auch wenn ihre tatsächliche Genauigkeit eher bei 0,80–0,85 liegt. Dies ist besonders problematisch im eDiscovery-Bereich, wo Konfidenzschwellen Prüfentscheidungen steuern.

Dezcry wendet empirisches Konfidenz-Debiasing an — eine Kalibrierungsschicht, die rohe LLM-Konfidenzwerte anpasst, um die tatsächliche Genauigkeit besser widerzuspiegeln. Die Kalibrierung ist:

  • Monoton — höhere Rohkonfidenz erzeugt immer höhere kalibrierte Konfidenz (Rangfolge wird beibehalten)
  • Deterministisch — derselbe Eingabewert erzeugt immer denselben Ausgabewert (in regulatorischen Kontexten vertretbar)
  • Konservativ — zieht überconfidente Werte systematisch in Richtung empirischer Genauigkeitskurven

Die Kalibrierung basiert auf veröffentlichten Forschungsergebnissen zur LLM-Konfidenzkalibierung und wurde an eDiscovery-spezifische Genauigkeitsmessungen angepasst. Sie komprimiert den überconfidenten Bereich (0,85–0,99) aggressiver als den gut kalibrierten Niedrigkonfidenzbereich (0,05–0,50).

Verifikationsdurchlauf

Bei Vorhersagen, die in einen Grenzbereich der Konfidenz fallen (standardmäßig 0,35–0,70), löst Dezcry automatisch einen Verifikationsdurchlauf aus — einen zweiten Klassifizierungsversuch mit einer anderen Modellbereitstellung. Dieser fungiert als Qualitätskontrollebene:

  • Der Verifikationsdurchlauf verwendet eine andere Prompt-Persona ("QC-Prüfer"), um die ursprüngliche Klassifizierung zu hinterfragen
  • Er verwendet eine separate Modellbereitstellung für Modellvielfalt, um korrelierte Fehler zu reduzieren
  • Wenn die Verifikation mit dem ersten Durchlauf übereinstimmt, werden die Konfidenzwerte gemittelt (was die endgültige Konfidenz typischerweise erhöht)
  • Wenn die Verifikation nicht übereinstimmt, wird der niedrigere Konfidenzwert verwendet, die Klassifizierung der Verifikation übernommen und das Ergebnis zwingend zur menschlichen Prüfung markiert

Dokument-Chunking für lange Dokumente

Dokumente, die das Kontextbudget des Modells überschreiten (Standard: ca. 112.000 Zeichen), werden automatisch zur Verarbeitung in deterministische Abschnitte (Chunks) aufgeteilt. Das Chunking ist darauf ausgelegt, die Klassifizierungsgenauigkeit aufrechtzuerhalten:

  • Satzgrenzen-bewusst — Chunks werden an Satzgrenzen aufgeteilt, nie mitten im Satz, um die semantische Kohärenz zu wahren
  • Überlappend — benachbarte Chunks teilen ca. 200 Zeichen Überlappung, um die Kontextkontinuität über Chunk-Grenzen hinweg sicherzustellen
  • Deterministisch — dasselbe Dokument erzeugt immer dieselben Chunks, was reproduzierbare Ergebnisse gewährleistet
  • Fallback-Aufteilung — wenn ein einzelner Satz das Chunk-Limit überschreitet, wird auf eine Wortgrenzaufteilung mit Überlappung zurückgegriffen

Wenn ein Dokument in Chunks aufgeteilt wird, wird jeder Chunk unabhängig klassifiziert, und die Ergebnisse werden mithilfe eines gewichteten Abstimmungssystems aggregiert:

  • Die Vorhersage jedes Chunks wird mit seinem Konfidenzwert gewichtet
  • Chunks, die Null zurückgeben (kein klassifizierbarer Inhalt), werden von der Abstimmung ausgeschlossen und nicht als Evidenz gezählt
  • Die gewinnende Vorhersage wird durch den gesamten konfidenzgewichteten Score bestimmt, mit Stichentscheid durch die höchste Einzelchunk-Konfidenz
  • Ein Einstimmigkeitsbonus erhöht die Konfidenz, wenn alle Chunks übereinstimmen; Uneinigkeit reduziert sie
  • Eine Abweichungsstrafe wird angewendet, wenn ein abweichender Chunk eine hohe Konfidenz aufweist (≥ 0,70), mit einem Hinweis zur manuellen Prüfung
Chunk-Uneinigkeit

Wenn verschiedene Chunks eines Dokuments unterschiedliche Klassifizierungen ergeben, wird dies als Chunk-Uneinigkeit markiert und das Dokument automatisch zur menschlichen Prüfung weitergeleitet. Dies ist ein wichtiges Qualitätssignal — es deutet häufig darauf hin, dass ein Dokument gemischte Inhalte enthält (z. B. ein teilweise responsives Dokument, bei dem einige Abschnitte relevant und andere irrelevant sind). Die aggregierte Begründung enthält einen Hinweis auf die abweichenden Chunks und deren Konfidenzwerte.

Klassifizierungssätze verfolgen Durchläufe mit detaillierter Fortschrittsberichterstattung: Gesamtanzahl der Dokumente, verarbeitete Dokumente, aufgetretene Fehler und Token-Nutzung für die Kostenzuordnung. Abgeschlossene Durchläufe erstellen automatisch eine gespeicherte Suche mit den klassifizierten Dokumenten für die nachgelagerte Verarbeitung.

Klassifizierungsdurchläufe unterstützen Parallelverarbeitung — mehrere Dokumente werden gleichzeitig klassifiziert (Standard: 6 gleichzeitige LLM-Aufrufe), um den Durchsatz zu maximieren und dabei die AI-Ratenlimits einzuhalten. Durchläufe können jederzeit abgebrochen werden, und der Abbruch erfolgt sauber, nachdem das aktuelle Dokument fertig verarbeitet wurde.

Die Klassifizierungsfortschrittsansicht zeigt die Echtzeitverarbeitung mit einer Live-Konsole, dokumentenweise Ergebnisse einschließlich Konfidenzwerte sowie die geschätzte verbleibende Zeit. Sie können weiterarbeiten, während die Klassifizierung im Hintergrund läuft.

Vorhersagen prüfen

Nach Abschluss eines Klassifizierungsdurchlaufs können Prüfer die Ergebnisse einsehen. Jedes Dokument erhält für jedes konfigurierte Feld ein Ergebnis, das folgende Informationen enthält:

FeldBeschreibung
Vorhergesagter WertDie vom AI gewählte Klassifizierung für dieses Feld (z. B. 'Responsiv', 'Finanziell'). Null, wenn die AI keine Klassifizierung bestimmen konnte.
KonfidenzwertEin kalibrierter Wert von 0,0–1,0, der die Gewissheit der AI widerspiegelt. Debiased, um LLM-Überconfidence zu korrigieren.
BegründungEine kurze Erklärung in natürlicher Sprache, warum die AI diese Vorhersage getroffen hat, mit Bezug auf spezifische Inhalte im Dokument.
Prüfung erforderlichBoolean-Flag — true, wenn die Konfidenz unter der Auto-Akzeptanzschwelle liegt, wenn Chunks nicht übereinstimmten oder wenn der Verifikationsdurchlauf die ursprüngliche Klassifizierung überschrieben hat.
Chunk-AnzahlWie viele Chunks das Dokument aufgeteilt wurde (1 für kurze Dokumente, die in ein einzelnes Kontextfenster passen).
Chunk-UneinigkeitOb verschiedene Chunks des Dokuments unterschiedliche Vorhersagen ergaben — ein Signal dafür, dass das Dokument möglicherweise gemischte Inhalte enthält.
VerifikationsstatusOb der Verifikationsdurchlauf ausgelöst wurde und ob er mit der ursprünglichen Klassifizierung übereinstimmte oder nicht.

Prüfer können folgende Aktionen für jede Vorhersage durchführen:

  • Genehmigen — die Vorhersage der AI als endgültige Entscheidung für dieses Dokument und Feld akzeptieren
  • Korrigieren — die Vorhersage der AI mit einem vom Prüfer gewählten anderen Wert überschreiben. Die Korrektur wird zusammen mit der ursprünglichen AI-Vorhersage für Prüfzwecke protokolliert.
  • Ablehnen — die Vorhersage vollständig verwerfen, sodass das Feld für dieses Dokument unkodiert bleibt

Alle Prüfaktionen werden im Prüfpfad mit der Identität des Prüfers, dem Zeitstempel, der ursprünglichen AI-Vorhersage und der Entscheidung des Prüfers protokolliert. Dies liefert einen vertretbaren Nachweis, wie jede Klassifizierungsentscheidung getroffen wurde — ob durch AI mit menschlicher Genehmigung, durch menschliche Korrektur eines AI-Vorschlags oder durch rein manuelle Kodierung.

Prävalenz-Sampling

Bei großen Dokumentenmengen unterstützt Dezcry das Prävalenz-Sampling — die Klassifizierung einer statistisch repräsentativen Teilmenge von Dokumenten, bevor ein vollständiger Durchlauf gestartet wird. Dies ermöglicht Teams:

  • Zu validieren, dass die Klassifizierungsanweisungen genaue Ergebnisse liefern, bevor die gesamte Menge verarbeitet wird
  • Die Prävalenz jeder Kategorie in der Sammlung zu schätzen (z. B. 'ca. 30 % der Dokumente sind responsiv')
  • Präzisions- und Recall-Metriken zu berechnen, indem AI-Vorhersagen mit der manuellen Kodierung der Stichprobe verglichen werden
  • Anweisungen auf Basis der Stichprobenergebnisse zu verfeinern, bevor die vollständige Klassifizierung gestartet wird

Sampling-Ergebnisse werden als ClassificationSample-Datensätze gespeichert, wobei sowohl die AI-Vorhersage als auch die manuell kodierte Grundwahrheit für Qualitätsmessungen und Nachvollziehbarkeit aufbewahrt werden.

KI-Schwärzung

Überblick

KI-Schwärzung ist Dezcry's Kernfunktion — eine 5-stufige Erkennungspipeline, die personenbezogene Daten, sensible Inhalte und rechtlich geschütztes Material zur Schwärzung identifiziert. Das System ist als Unterstützung für Prüfer konzipiert, nicht als autonomes Werkzeug: Jeder KI-Vorschlag kann überprüft, bearbeitet und protokolliert werden, bevor er angewendet wird.

Die Schwärzung wird durch Large Language Models innerhalb derselben Azure-Umgebung ausgeführt. Es werden keine Dokumentdaten an Drittanbieter gesendet. Die Pipeline kombiniert deterministische Mustererkennung mit LLM-Analyse und dokumentübergreifender Entitätsauflösung für umfassende Abdeckung.

Schwärzungstypen

Dezcry unterstützt drei Schwärzungsprotokolle, die jeweils auf unterschiedliche Anwendungsfälle zugeschnitten sind:

TypZweckKonfiguration
DSAREntfernung der personenbezogenen Daten der betroffenen Person aus offenzulegenden Dokumenten. Verwendet einen Whitelist-Ansatz — Sie geben den Namen, die E-Mail-Adressen und Telefonnummern der betroffenen Person an, und die KI identifiziert alle Vorkommen.Vor-/Nachname der betroffenen Person, bekannte E-Mail-Adressen, bekannte Telefonnummern
PrivilegIdentifizierung und Schwärzung rechtlich geschützter Kommunikation (Anwalt-Mandanten-Privileg, Work-Product-Doktrin). Verwendet Domain- und Schlüsselwortfilterung zur Erkennung geschützten Materials.Privilegierte Personen, Kanzlei-Domains, Privileg-Schlüsselwörter, benutzerdefinierte Anweisungen
Ad HocBenutzerdefinierte Schwärzung mit Freitextanweisungen. Verwenden Sie dies für jede Schwärzungsaufgabe, die nicht in die DSAR- oder Privileg-Vorlagen passt.Freitextanweisungen, die beschreiben, was geschwärzt werden soll

Schwärzungsmodelle

Beim Erstellen eines Schwärzungssatzes wählen Sie aus, welche Entitätskategorien die KI erkennen soll. Jede Kategorie hat eine eigene Farbe zur visuellen Unterscheidung in der Prüfoberfläche:

ModellBeschreibungFarbe
NamenPersonennamen, Vor-/Nachnamen, Initialen, SpitznamenRot
E-MailsE-Mail-AdressenOrange
TelefonnummernTelefonnummern, Faxnummern, MobilnummernBernstein
IdentifikatorenSSN, Reisepassnummern, Führerscheinnummern, nationale AusweiseGrün
BeschäftigungBerufsbezeichnungen, Mitarbeiternummern, Gehaltsinformationen, BerufserfahrungBlau
Unternehmens-IDsHandelsregisternummern, Steuer-IDs, ABN/ACNLila
StandortePostanschriften, Postleitzahlen, GPS-KoordinatenMagenta
Politische MeinungenPolitische Zugehörigkeiten, Parteimitgliedschaft, WahlverhaltenHelllila
GesundheitsinformationenKrankheiten, Behandlungen, Diagnosen, MedikamenteRot
Sexuelle OrientierungGeschlechtsidentität, Details zur sexuellen OrientierungRosa
FinanzdatenBankkontonummern, Kreditkartennummern, FinanzdatenGrün
Auth CredentialsPasswörter, PINs, API-Schlüssel, SicherheitstokenCyan
Familiäre BeziehungenVerwandtschaftsverhältnisse, Unterhaltsberechtigte, FamiliendetailsHellrot
Geräte-IDsIP-Adressen, MAC-Adressen, GerätekennungenHellblau

Sensible Kategorien — Gesundheitsinformationen, sexuelle Orientierung,politische Meinungen und Auth Credentials — verwenden einen niedrigeren Standard-Schwellenwert für die automatische Anwendung (0,70), um eine konservativere Behandlung sicherzustellen.

5-stufige Pipeline

Dezcry verarbeitet jedes Dokument durch eine 5-stufige Schwärzungspipeline, die mehrere Erkennungsmethoden für umfassende Abdeckung kombiniert:

StufeNameMethodeBeschreibung
L1MusterscanNER-Engine (deterministisch)Mustererkennungs-Engine, die strukturierte personenbezogene Daten mittels Regex-Regeln und Named Entity Recognition erkennt. Bietet eine schnelle, deterministische Grundlage — erfasst E-Mail-Adressen, Telefonnummern, Kreditkartennummern und gängige Identifikatorformate.
L2KI-AnalyseLarge Language ModelDer primäre KI-Erkennungsdurchlauf. Das LLM analysiert jedes Dokument unter Berücksichtigung der Ergebnisse aus L1 und L4 und identifiziert kontextuelle personenbezogene Daten, die allein durch Mustererkennung nicht gefunden würden — etwa natürlichsprachlich erwähnte Namen, implizite Beziehungen und sensible Inhalte.
L3KI-GegenprüfungUnabhängige LLM-VerifizierungEine unabhängige Verifizierungsstufe unter Verwendung eines separaten Modell-Deployments. Fungiert als 'Senior eDiscovery QA-Prüfer' — untersucht die L2-Ergebnisse kritisch, um Schwärzungseinträge zu bestätigen, abzulehnen oder hochzustufen. Erkennt falsch-positive Treffer und übersehene Einträge.
L4QuervergleichEntity Resolution (algorithmisch)Unscharfes Clustering von Entitätsvarianten über alle Dokumente im Umfang hinweg. Gruppiert verschiedene Schreibweisen und Formate derselben Entität (z. B. 'J. Smith', 'John Smith', 'john.smith@acme.com') in Cluster mit kanonischer Form. Gewährleistet konsistente Schwärzung über den gesamten Dokumentensatz.
L5Intelligente WeiterleitungConfidence Routing (algorithmisch)Leitet jeden Schwärzungseintrag basierend auf seinem Konfidenzwert weiter: Einträge mit hoher Konfidenz werden automatisch angewendet, Einträge mit mittlerer Konfidenz gelangen in die Prüfwarteschlange, und Einträge mit niedriger Konfidenz werden zur manuellen Überprüfung markiert.
Pipeline-Ausführung

Die Stufen werden in folgender Reihenfolge ausgeführt: L4 (Entity Resolution) → L1 (Musterscan) → L2 (KI-Analyse) → L3 (Verifizierung) → L5 (Weiterleitung). L4 wird zuerst ausgeführt, um den Entitätsindex aufzubauen, der den nachfolgenden KI-Stufen als Kontext dient. Der Fortschritt wird pro Phase erfasst, mit Echtzeit-Statusaktualisierungen in der Benutzeroberfläche.

Schwärzungen überprüfen

Nachdem ein Schwärzungssatz verarbeitet wurde, navigieren Sie zur Seite Überprüfung, um die Vorschläge der KI zu begutachten und freizugeben. Die Prüfwarteschlange stellt jede erkannte Entität mit folgenden Informationen dar:

  • Originaltext — der genaue Text, den die KI zur Schwärzung identifiziert hat
  • Modellkategorie — der Entitätstyp (Namen, E-Mails usw.) mit farbcodiertem Badge
  • Quellstufe — welche Pipeline-Stufe die Erkennung vorgenommen hat (L1, L2, L3, L4)
  • Konfidenzwert — wie sicher die KI ist, dass es sich um eine echte Entität handelt
  • Verifizierungsstatus — bestätigt, abgelehnt, hochgestuft oder neu (aus L3)
  • Seitenposition — die Seitennummer und Pixelkoordinaten innerhalb des Dokuments

Prüfer können die Warteschlange nach Stufe, Modellkategorie und Konfidenzschwellenwert filtern. Für jeden Eintrag stehen folgende Aktionen zur Verfügung:

  • Genehmigen — die Schwärzung akzeptieren und auf das Dokument anwenden
  • Ablehnen — den Vorschlag als falsch-positiv verwerfen
  • Zur Überprüfung markieren — an einen leitenden Prüfer zur Zweitmeinung eskalieren

Die Prüfwarteschlange wird mit 100 Einträgen pro Seite paginiert. Alle Prüfentscheidungen werden im Prüfprotokoll mit Identität des Prüfers, Zeitstempel und durchgeführter Aktion protokolliert.

Manuelle Schwärzungen

Zusätzlich zur KI-gestützten Schwärzung können Prüfer manuell Schwärzungsrahmen auf jedem Dokument im Markup-Viewer einzeichnen. Manuelle Schwärzungen werden direkt auf die Markup-Bilder des Dokuments angewendet und zusammen mit KI-Schwärzungen im Prüfprotokoll erfasst.

Für Tabellendokumente bietet Dezcry einen spezialisierten Tabellen-Markup-Viewer, der Schwärzung auf Zellebene ermöglicht — Prüfer können einzelne Zellen oder Bereiche zur Schwärzung auswählen.

KI-Zusammenfassungen & Chat

Dokumentzusammenfassungen

Dezcry erstellt automatisch LLM-gestützte Zusammenfassungen für jedes Dokument in einer Angelegenheit. Die Zusammenfassungen bestehen aus 1–2 Sätzen und geben Prüfern einen schnellen Überblick, um Relevanz einzuschätzen, über Ein- oder Ausschluss zu entscheiden und große Prüfmengen effizienter zu bearbeiten.

Die Zusammenfassungen werden von einem dedizierten Sprachmodell auf GPU-Infrastruktur innerhalb derselben Azure-Umgebung generiert. Es werden keine Dokumentdaten an Drittanbieter gesendet. Zusammenfassungen werden im Hintergrund erstellt und sind zusammen mit dem Dokument im Metadatenpanel verfügbar.

  • Zusammenfassungen werden beim Hochladen und während der Hintergrundnachverarbeitung automatisch generiert
  • Die Zusammenfassungssprache ist pro Angelegenheit konfigurierbar (Englisch, Deutsch, Französisch, Spanisch usw.)
  • Zusammenfassungen sind durchsuchbar und erscheinen im Dokument-Metadatenpanel
  • Administratoren können die Neugenerierung von Zusammenfassungen für einzelne Dokumente oder Stapel auslösen

Dokumenten-Chat

Das Dokumenten-Chat-Panel bietet konversationelle KI für Fragen zu Dokumenten. Verfügbar über den Dokumenten-Viewer, nutzt der Chat Retrieval-Augmented Generation (RAG), um relevante Inhalte zu finden und präzise Antworten mit Quellenangaben zu generieren.

So funktioniert es:

  1. 1
    Stellen Sie eine FrageGeben Sie eine natürlichsprachliche Frage im Chat-Panel ein (z. B. 'Welche Schlüsseldaten werden in diesem Dokument erwähnt?')
  2. 2
    Hybride SucheDezcry durchsucht relevante Inhalte sowohl mittels Schlüsselwortsuche (Elasticsearch) als auch semantischer Suche (Vektoreinbettungen) und kombiniert die Ergebnisse über Reciprocal Rank Fusion.
  3. 3
    KI generiert AntwortDas LLM liest die relevanten Dokumentabschnitte und generiert eine Antwort mit Inline-Zitaten, die auf bestimmte Dokumente verweisen.
  4. 4
    QuellenverifizierungJede Antwort enthält anklickbare Quelldokument-Referenzen (z. B. [DOC-00028]), damit Prüfer die Antwort der KI verifizieren können.
Ratenbegrenzung

Der Chat ist auf 20 Anfragen pro Minute pro Benutzer und 60 Anfragen pro Minute pro Angelegenheit begrenzt, um eine faire Ressourcenverteilung zwischen den Teams sicherzustellen.

KI-OCR

Überblick

KI-OCR (Optical Character Recognition) extrahiert durchsuchbaren Text aus bildbasierten Dokumenten — gescannten PDFs, Fotografien, Screenshots und anderen Bilddateien, die keinen eingebetteten Text enthalten. Dezcry verwendet die Azure Computer Vision Read API für eine hochpräzise Textextraktion.

OCR kann beim Hochladen automatisch aktiviert (als Verarbeitungsoption) oder nach der Aufnahme manuell für bestimmte Dokumente oder Stapel ausgeführt werden.

OCR ausführen

Navigieren Sie zur Seite KI-OCR innerhalb einer Angelegenheit, um OCR-Aufträge zu verwalten:

  1. 1
    Auftrag erstellenWählen Sie den Umfang — alle Dokumente oder eine gespeicherte Suche — und starten Sie den OCR-Auftrag.
  2. 2
    VerarbeitungDezcry sendet jedes Bilddokument an die Azure Computer Vision API zur Textextraktion. Der Fortschritt wird in Echtzeit mit 4-Sekunden-Abfrageintervallen verfolgt.
  3. 3
    ErgebnisseDer extrahierte Text wird im Dokumentdatensatz gespeichert und ist sofort durchsuchbar. Ergebnisse pro Dokument umfassen extrahierte Seiten, extrahierte Zeichen, Konfidenzwerte und Verarbeitungsdauer.

Die Ergebnisse eines OCR-Auftrags verfolgen jedes Dokument einzeln mit folgenden Angaben:

  • Extrahierte Seiten und Zeichen pro Dokument
  • Status pro Dokument (abgeschlossen, fehlgeschlagen, übersprungen)
  • Fehlermeldungen für fehlgeschlagene Dokumente
  • Verarbeitungsdauer pro Dokument

Aufträge können während der Ausführung oder in der Warteschlange abgebrochen werden. Das KI-OCR-Dashboard zeigt aggregierte Kennzahlen: Gesamtaufträge, abgeschlossene Aufträge, aktive Aufträge und insgesamt verarbeitete Dokumente.

Passwort-Bank

Übersicht

Die Passwort-Bank speichert Passwörter und Zugangsdaten für verschlüsselte Dokumente innerhalb eines Vorgangs. Wenn geschützte Dateien (passwortgeschützte ZIPs, verschlüsselte PDFs, gesperrte Office-Dokumente) aufgenommen werden, versucht Dezcry automatisch, sie mit gespeicherten Passwörtern zu entschlüsseln.

Passwörter verwalten

  • Bezeichnungen — lesbare Hinweise zur Identifizierung des Passwort-Zwecks (die Bezeichnung ist sichtbar, das Passwort selbst ist verborgen)
  • Tags — Passwörter kategorisieren
  • Nutzungsverfolgung — für jedes Passwort wird erfasst, wann es zuletzt verwendet wurde und wie oft es angewendet wurde
  • Bearbeiten und Löschen — Passwörter aktualisieren oder entfernen mit Bestätigungsdialogen

Passwörter sind innerhalb des Vorgangs wiederverwendbar. Wenn neue Dokumente hochgeladen werden, werden alle Passwörter in der Passwortbank gegen verschlüsselte Dateien getestet. Die Upload-Zusammenfassung zeigt an, wie viele Dateien erfolgreich entschlüsselt wurden und wie viele fehlgeschlagen sind.

Export

Übersicht

Das Export-System von Dezcry erzeugt offenlegungsfertige Ausgabepakete mit Bates-Nummerierung, Metadaten-Ladedateien, eingebrannten Schwärzungen und vollständiger Entscheidungshistorie. Exporte werden über einen mehrstufigen Assistenten konfiguriert und können mit aktualisierten Einstellungen erneut ausgeführt werden.

Zwei Exporttypen werden unterstützt:

  • Produktion — formelle Offenlegungspakete mit Bates-Nummerierung, gebrandeten Kopf-/Fußzeilen und strukturierter Volume-Organisation. Wird für behördliche Einreichungen und formelle DSAR-Antworten verwendet.
  • Review — einfachere Pakete für die interne Überprüfung oder Weitergabe an externe Rechtsberater, ohne Anforderungen an Produktionsnummerierung.

Export-Assistent

Der Export-Assistent führt Sie durch einen 6-stufigen Konfigurationsprozess:

  1. 1
    UmfangWählen Sie aus, welche Dokumente exportiert werden sollen — alle Dokumente im Vorgang oder eine gespeicherte Suche.
  2. 2
    Name & TypBenennen Sie das Export-Set und wählen Sie den Typ Produktion oder Review.
  3. 3
    AusgabekomponentenWählen Sie die einzuschließenden Ausgabetypen: Metadaten-Ladedatei, Native-Dateien, Bilder, Textdateien und/oder PDFs.
  4. 4
    Nummerierung & BrandingKonfigurieren Sie die Bates-Nummerierung (Präfix, Suffix, Startnummer, Auffüllung) und optionales Kopf-/Fußzeilen-Branding.
  5. 5
    Ladedatei & VolumesKonfigurieren Sie das Format der Metadaten-Ladedatei, Zeichenkodierung, Datumsformate und Volume-Organisationseinstellungen.
  6. 6
    Überprüfen & AusführenÜberprüfen Sie alle Einstellungen in einer Zusammenfassungsansicht und starten Sie den Export.

Umfangsauswahl

Der Exportumfang definiert, welche Dokumente im Ausgabepaket enthalten sind. Sie können wählen:

  • Alle Dokumente — exportiert jedes Dokument im Vorgang
  • Gespeicherte Suche — exportiert nur Dokumente, die einer zuvor gespeicherten Suchabfrage und Filtern entsprechen

Der Assistent zeigt eine Dokumentanzahl für den ausgewählten Umfang an, damit Sie das Volumen vor dem Fortfahren überprüfen können. Der Umfang wird zum Ausführungszeitpunkt eingefroren — neue Dokumente, die dem Vorgang nach dem Exportstart hinzugefügt werden, sind nicht enthalten.

Ausgabekomponenten

Wählen Sie die Ausgabetypen aus, die im Exportpaket enthalten sein sollen:

KomponenteBeschreibung
Metadaten-LadedateiEine strukturierte Datendatei (DAT, CSV oder HTML) mit allen Dokumentmetadaten, Entscheidungen und Bates-Nummern. Kompatibel mit Relativity, Concordance und anderen Review-Plattformen.
Native-DateienOriginaldateien in ihrem nativen Format (DOCX, PDF, XLSX usw.)
BilderGerenderte Dokumentbilder (einseitige oder mehrseitige TIFF) mit optionalen Opticon- oder iProrev-Ladedateien für die Bildquerverweiserfassung.
TextdateienExtrahierter Klartext-Inhalt für jedes Dokument, nützlich für nachgelagerte Textanalysen oder Querverweise.
PDFsGerenderte PDF-Versionen jedes Dokuments, optional mit eingebrannten Schwärzungen und Bates-Nummern-Branding.

Nummerierung & Branding

Produktionsexporte unterstützen Bates-Dokumentnummerierung:

EinstellungBeschreibungBeispiel
PräfixText, der jeder Bates-Nummer vorangestellt wirdACME-
SuffixText, der jeder Bates-Nummer angehängt wird-PROD
StartnummerDie erste Nummer in der Sequenz1
Ziffern-AuffüllungNullauffüllung für den numerischen Teil7 → 0000001
NummerierungsmodusDokumentebene (eine Nummer pro Dokument) oder Seitenebene (eine Nummer pro Seite)Dokumentebene
SeitentrennzeichenZeichen zwischen Dokumentnummer und Seitennummer im Seitenebenen-Modus_ → ACME-0000001_001
AnlagengruppierungElterndokumente und Anlagen fortlaufend nummerierenAktiviert
SortierreihenfolgeWie Dokumente für die Nummerierung sortiert werden (sequenziell, Familiengruppe oder nach Feld)doc_seq

Optionales Branding fügt Kopf- und Fußzeilen zur PDF-Ausgabe hinzu:

  • Kopf- und Fußzeile mit linkem, mittlerem und rechtem Bereich
  • Vorlagen-Token: {BatesNumber}, {PageX}, {PageY}
  • Standard-Fußzeile: "CONFIDENTIAL"

Ladedateien & Volumes

Ladedatei-Einstellungen steuern das Ausgabeformat der Metadaten:

EinstellungStandardBeschreibung
FormatDATLadedateiformat — DAT (Concordance), CSV, HTML oder benutzerdefiniertes TXT
KodierungUTF-8Zeichenkodierung für die Ladedatei
DatumsformatMM/dd/yyyyFormat für Datumsfelder in der Ladedatei
ZeitformatHH:mm:ssFormat für Zeitfelder

Volume-Einstellungen steuern die physische Organisation des Exportpakets:

EinstellungStandardBeschreibung
Volume-PräfixVOLPräfix für Volume-Ordnernamen (VOL001, VOL002 usw.)
Startnummer1Erste Volume-Nummer
Ziffern-Auffüllung3Nullauffüllung für Volume-Nummern
Maximale Volume-Größe4500 MBMaximale Größe pro Volume-Ordner vor der Aufteilung
Max. Dateien pro Ordner5000Maximale Anzahl Dateien in einem einzelnen Unterordner
DateibenennungKontrollnummerWie Dateien benannt werden — nach Bates-/Kontrollnummer oder originalem Dateinamen

Exporte herunterladen

Sobald ein Export-Durchlauf abgeschlossen ist, steht das Ausgabepaket zum Download bereit. Die Exportseite zeigt:

  • Durchlaufstatus — wird ausgeführt, abgeschlossen, fehlgeschlagen oder abgebrochen
  • Fortschritt — verarbeitete Dokumente im Verhältnis zur Gesamtzahl
  • Ausgabegröße — Gesamtgröße des generierten Pakets
  • Dauer — benötigte Zeit zur Erstellung des Exports
  • Fehler- und Warnungsanzahl — aufgetretene Probleme pro Dokument
  • Einstellungs-Snapshot — die exakte Konfiguration, die für diesen Durchlauf verwendet wurde

Die Schwärzungsintegration ermöglicht es Ihnen, Schwärzungen einzubrennen in die Exportausgabe. Wählen Sie ein abgeschlossenes Schwärzungs-Set und den Platzhalter-Modus:

  • Keine — keine Schwärzungsplatzhalter (geschwärzte Bereiche werden einfach schwarz dargestellt)
  • Klammern — geschwärzter Text wird durch Kategoriebeschriftungen in Klammern ersetzt
  • Schwärzungsblock — durchgehend schwarze Felder über geschwärztem Inhalt

Alle Exportaktionen — Erstellung, Durchlaufstart, Download — werden im Prüfprotokoll protokolliert.

Prüfung & Berichtswesen

Prüfprotokoll

Jede bedeutende Aktion in Dezcry wird in einem unveränderlichen Prüfprotokoll erfasst, das einen belastbaren Nachweis für Regulierungsbehörden, rechtliche Überprüfung und interne Governance bietet. Das Prüfprotokoll erfasst:

KategorieErfasste Aktionen
DokumenteAngesehen, hochgeladen, heruntergeladen, gelöscht, Zusammenfassungen neu generiert
EntscheidungenRelevanz-Codierung aktualisiert, Massenentscheidungsänderungen, Tag-Änderungen
Schwärzungen (manuell)Schwärzungsrahmen gezeichnet, aktualisiert oder gelöscht auf Dokumenten
SchwärzungsprüfungKI-Schwärzungseinträge genehmigt, abgelehnt oder eskaliert
SchwärzungsaufträgeSets erstellt/gelöscht, Durchläufe gestartet/abgeschlossen/abgebrochen/fehlgeschlagen
KlassifizierungSets erstellt/gelöscht, Durchläufe gestartet/abgeschlossen/abgebrochen/fehlgeschlagen
ExportSets erstellt/aktualisiert/gelöscht/geklont, Durchläufe gestartet/abgebrochen, Downloads
MarkierungVorschau- und Markierungsbilder generiert oder fehlgeschlagen
DownloadsPDF-Downloads, Massen-PDF-Downloads, geschwärzte Tabellen-Downloads
SucheGespeicherte Suchen erstellt, aktualisiert oder gelöscht
ChatNachrichten gesendet, Konversationen erstellt/aktualisiert/gelöscht
IndizierungDokumente indiziert, Vorgang neu indiziert, Index gelöscht
AuthentifizierungAnmeldung erfolgreich/fehlgeschlagen, Passwortänderungen, Kontosperrungen
AdministrationBenutzer erstellt/aktualisiert, Rollen geändert, Vorgangszugriff gewährt/entzogen
AbrechnungNutzung neu berechnet, Rechnungen generiert

Jeder Prüfprotokolleintrag enthält: den Aktionstyp, das Ziel (welches Dokument, Set oder welche Ressource betroffen war), die Benutzeridentität (wer die Aktion ausgeführt hat), den Zeitstempel und Details (umfangreicher Kontext einschließlich Dateinamen, Anzahlen, alter/neuer Werte). Das Prüfprotokoll ist filterbar nach Aktionstyp, Zieltyp, Benutzer und Datumsbereich, mit Paginierung von 50 Einträgen pro Seite.

Das Prüfprotokoll auf Vorgangsebene ist über die Prüfungsseite innerhalb jedes Vorgangs zugänglich. Das systemweite Prüfprotokoll steht Administratoren im Administrationsbereich zur Verfügung.

Berichts-Dashboard

Die Seite Berichtswesen bietet Analyse-Dashboards mit Visualisierungen über acht Registerkarten:

RegisterkarteMetriken
ÜbersichtZusammenfassende KPIs — Dokumentanzahl, Abschlussquoten, Aktivitätsübersicht
VerarbeitungErfassungsstapel-Verlauf, Volumenwachstum über Zeit, Verarbeitungsdurchsatz
SchwärzungSchwärzungsdurchläufe, erkannte Entitäten nach Modell, Schichtstatistiken, Abdeckungsraten
KlassifizierungKlassifizierungsdurchläufe, Feldergebnisse, Konfidenzwert-Verteilungen
KI-LeistungToken-Nutzung, Kostenzuordnung, Modellgenauigkeit und Qualitätsmetriken
ÜberprüfungTiefe der Überprüfungswarteschlange, ausstehende Elemente, Bearbeitungszeiten der Prüfer
AktivitätBenutzeraktionstrends, Prüfprotokoll-Zusammenfassungen, Anzahl aktiver Prüfer
ExporteExportverlauf, Produktionsstatistiken, Lieferungsgrößen

Die Dashboards umfassen KPI-Karten, Balkendiagramme, Liniendiagramme, Kreisdiagramme und Flächendiagramme. Berichte können als PDF mit eingebetteten Diagrammen, Vorgangsinformations-Kopfzeilen und Erzeugungszeitstempeln exportiert werden.

Abrechnung & Nutzung

Die Seite Abrechnung zeigt Speichernutzung und Kosten für jeden Vorgang an. Der Speicher ist in sieben Kategorien unterteilt:

KategorieBeschreibung
DokumenteOriginal hochgeladene Dateien in ihrem nativen Format
Extrahierter TextKlartext, der während der Verarbeitung und OCR extrahiert wurde
MarkierungsbilderGerenderte Seitenbilder für den Schwärzungsworkflow
Geschwärzte PDFsPDF-Versionen mit eingebrannten Schwärzungen und Branding
IndizesElasticsearch-Suchindizes für den Vorgang
EinbettungenVektoreinbettungen für KI-Chat und semantische Suche
SonstigesVerschiedene Verarbeitungsartefakte

Das Abrechnungs-Dashboard zeigt die aktuelle Nutzung (Gesamt-GB und prognostizierte monatliche Kosten), Speicheraufschlüsselung nach Kategorie, Nutzungsverlauf über Zeit und Rechnungsdetails. Die Preisgestaltung erfolgt pro GB mit regionalen Variationen und Mengenrabatten.

Verwaltung

Benutzerverwaltung

Die Seite Admin (zugänglich für die Rollen Admin und Super Admin) bietet eine zentrale Oberfläche zur Verwaltung aller Benutzer in der Organisation. Die Benutzerliste zeigt:

  • E-Mail-Adresse und vollständiger Name
  • Zugewiesene Rolle
  • Kontostatus (aktiv, inaktiv, ausstehend, eingeladen, gesperrt, deaktiviert)
  • 2FA/MFA-Aktivierungsstatus
  • Datum der letzten Anmeldung
  • Anzahl der Vorgangszuweisungen

Administratoren können nach E-Mail-Adresse oder Name suchen und nach Status oder Rolle filtern. Verfügbare Aktionen umfassen das Erstellen von Benutzern, Bearbeiten von Details, Ändern von Rollen, Versenden von Einladungen, Zurücksetzen von Passwörtern sowie das Aktivieren oder Deaktivieren von Konten.

Rollen & Berechtigungen

Dezcry verwendet ein hierarchisches rollenbasiertes Zugriffskontrollsystem (RBAC) mit vier Rollen. Die Rollen sind hierarchisch aufgebaut — jede Rolle erbt alle Berechtigungen der darunterliegenden Rollen. Die Zugriffskontrolle erfolgt auf zwei Ebenen: Rollenebene (welche Aktionen ein Benutzer plattformweit ausführen kann) und Vorgangsebene (auf welche spezifischen Vorgänge ein Benutzer zugreifen kann).

Rollenhierarchie

RolleBeschreibungVorgangszugriff
Super AdminVollständige Plattformkontrolle. Kann alle Benutzer verwalten (einschließlich anderer Administratoren), Vorgänge löschen, systemweite Einstellungen konfigurieren und auf alle Funktionen zugreifen. Vorgesehen für Plattformeigentümer und IT-Administratoren.Impliziter Zugriff auf alle Vorgänge im gesamten Mandanten — keine explizite Zuweisung erforderlich.
AdminVerwaltung auf Organisationsebene. Kann Vorgänge erstellen, Benutzer einladen und verwalten, Benutzer zu Vorgängen zuweisen, Audit-Protokolle einsehen, die Passwortdatenbank verwalten und die Abrechnung konfigurieren. Kann keine Vorgänge löschen oder andere Administratoren verwalten.Impliziter Zugriff auf alle Vorgänge im gesamten Mandanten — keine explizite Zuweisung erforderlich.
ReviewerDie primäre Arbeitsrolle für Mitglieder des Rechts-, Datenschutz- und Compliance-Teams. Kann Dokumente hochladen, Dokumente prüfen und codieren, KI-Klassifizierungs- und Schwärzungsaufträge ausführen, Exporte erstellen und verwalten, gespeicherte Suchen verwalten und Suchbegriffberichte erstellen.Muss jedem Vorgang explizit zugewiesen werden. Kann nur Vorgänge sehen und bearbeiten, für die der Zugriff gewährt wurde.
Read OnlyNur-Lese-Zugriff für Stakeholder, externe Berater oder Prüfer, die Einblick benötigen, aber keine Änderungen vornehmen sollen. Kann Dokumente durchsuchen, Metadaten einsehen, Berichte lesen, den Chat nutzen und Exporte herunterladen — kann jedoch keine Uploads durchführen, Änderungen vornehmen oder Aufträge ausführen.Muss jedem Vorgang explizit zugewiesen werden. Kann nur Vorgänge sehen, für die der Zugriff gewährt wurde.

Detaillierte Berechtigungsmatrix

Die folgende Tabelle zeigt die Mindestrolle, die für jede Aktion in der Plattform erforderlich ist. Höhere Rollen erben automatisch alle Berechtigungen niedrigerer Rollen.

FunktionsbereichAktionMindestrolle
VorgängeVorgänge anzeigenRead Only
VorgängeNeue Vorgänge erstellenAdmin
VorgängeVorgangseinstellungen aktualisierenAdmin
VorgängeVorgänge löschenSuper Admin
DokumenteDokumente anzeigen und durchsuchenRead Only
DokumenteDokumente hochladenReviewer
DokumenteEntscheidungen, Tags und Codierung aktualisierenReviewer
DokumenteDokumente löschenAdmin
KI-KlassifizierungKlassifizierungsergebnisse anzeigenRead Only
KI-KlassifizierungSets erstellen und Klassifizierungsaufträge ausführenReviewer
KI-SchwärzungSchwärzungsergebnisse anzeigenRead Only
KI-SchwärzungSets erstellen, Aufträge ausführen und Einträge prüfenReviewer
ExportExport-Sets anzeigen und Pakete herunterladenRead Only
ExportExport-Sets erstellen und Exporte ausführenReviewer
SucheGespeicherte Suchen anzeigenRead Only
SucheGespeicherte Suchen erstellen und verwaltenReviewer
SuchbegriffberichteSuchbegriffberichte anzeigenRead Only
SuchbegriffberichteBerichte erstellen und ausführenReviewer
Chat / KI-Fragen&amp;AntwortenFragen stellen und Chatverlauf anzeigenRead Only
BerichteAnalyse-Dashboards anzeigenRead Only
AbrechnungAbrechnung und Nutzung anzeigenRead Only
AbrechnungAbrechnungseinstellungen verwaltenAdmin
PasswortdatenbankGespeicherte Passwörter anzeigenAdmin
PasswortdatenbankPasswörter hinzufügen, bearbeiten und löschenAdmin
Audit-ProtokollVorgangs- und System-Audit-Protokolle anzeigenAdmin
BenutzerverwaltungBenutzer anzeigen und verwaltenAdmin
BenutzerverwaltungBenutzer einladen und Rollen zuweisenAdmin
SystemverwaltungAndere Administratoren verwalten, Vorgänge löschen, SystemkonfigurationSuper Admin

Zugriffskontrolle auf Vorgangsebene

Der Zugriff auf einzelne Vorgänge wird getrennt von den Rollenberechtigungen gesteuert:

  • Die Rollen Super Admin und Admin haben impliziten Zugriff auf jeden Vorgang im Mandanten. Sie müssen nicht explizit zugewiesen werden — sie können alle Vorgänge automatisch sehen und verwalten.
  • Die Rollen Reviewer und Read Only erfordern eine explizite Zuweisung zu jedem Vorgang. Ein Administrator muss den Zugriff gewähren, indem er den Benutzer dem Vorgang zuweist. Bis zur Zuweisung ist der Vorgang für den Benutzer vollständig unsichtbar — er erscheint nicht in der Vorgangsliste und kann nicht über eine direkte URL aufgerufen werden.

Dieses zweistufige Modell ermöglicht es Organisationen, eine Aufgabentrennung und einen Need-to-know-Zugriff durchzusetzen. Beispielsweise kann ein Reviewer, der HR-DSARs bearbeitet, auf HR-bezogene Vorgänge beschränkt werden, während ein anderer Reviewer Kunden-DSARs bearbeitet — obwohl beide dieselbe Rolle haben, sehen sie völlig unterschiedliche Vorgangssets.

Mandantenisolierung

Alle Zugriffskontrollen operieren innerhalb einer Mandantengrenze. Jede Datenbankabfrage ist auf den Mandanten des authentifizierten Benutzers beschränkt, und jede Operation auf Vorgangsebene überprüft, dass der Vorgang zum selben Mandanten gehört. Ein mandantenübergreifender Zugriff ist architektonisch ausgeschlossen — es gibt keinen Mechanismus in der Anwendungsschicht, um auf Daten einer anderen Organisation zuzugreifen, selbst mit einer Super-Admin-Rolle.

Zugriff auf Dokumentenebene

Der Zugriff auf einzelne Dokumente folgt dem Zugriffsmodell auf Vorgangsebene. Wenn ein Benutzer Zugriff auf einen Vorgang hat, kann er alle Dokumente innerhalb dieses Vorgangs sehen (vorbehaltlich seiner Rollenberechtigungen für Anzeige vs. Bearbeitung). Es gibt keine Zugriffsbeschränkung auf Dokumentenebene — der Zugriff wird auf Vorgangsebene gesteuert, was dem Standardansatz in eDiscovery- und DSAR-Prüfungsworkflows entspricht, bei denen Reviewer den vollständigen Kontext eines Vorgangs sehen müssen, um nachvollziehbare Entscheidungen zu treffen.

Sicherheitsdurchsetzung

Berechtigungen werden serverseitig bei jeder API-Anfrage durchgesetzt, nicht nur in der Benutzeroberfläche. Selbst wenn ein Benutzer das Frontend manipuliert oder API-Anfragen direkt erstellt, validiert das Backend dessen Rolle und Vorgangszugriff vor der Verarbeitung jeder Operation. Abgelehnte Anfragen erhalten eine strukturierte 403-Forbidden-Antwort mit einer klaren Erläuterung, warum der Zugriff verweigert wurde.

Benutzer einladen

Administratoren laden neue Benutzer ein, indem sie deren E-Mail-Adresse, Namen und zugewiesene Rolle angeben. Der Eingeladene erhält eine E-Mail mit einem einmalig verwendbaren Einladungslink, der durch folgende Schritte führt:

  1. 1
    Passwort festlegenErstellen Sie ein sicheres Passwort (mindestens 12 Zeichen, muss Groß- und Kleinbuchstaben sowie eine Zahl enthalten).
  2. 2
    2FA konfigurierenScannen Sie einen QR-Code mit einer Authenticator-App (Google Authenticator, Authy usw.) und geben Sie den Bestätigungscode ein.
  3. 3
    Einrichtung abschließenDas Konto wird aktiviert und der Benutzer kann sich anmelden.

Einladungslinks sind einmalig verwendbar und haben ein Ablaufdatum. Die Einladung protokolliert, wer sie erstellt hat, wann sie eingelöst wurde und die IP-Adresse des annehmenden Benutzers.

Admin-Dashboard

Das Admin-Dashboard bietet mandantenweite Analysen und operativen Überblick:

  • Benutzerübersicht — Gesamt-, aktive, gesperrte, eingeladene Benutzer; 2FA-Adoptionsrate; Rollenverteilung; aktuell online befindliche Benutzer
  • Vorgangsübersicht — Gesamtanzahl der Vorgänge; Statusverteilung (offen/geschlossen/archiviert); Typenverteilung; Dokumentenanzahl und Speicherverbrauch pro Vorgang
  • Dokumentenübersicht — Gesamtanzahl der Dokumente; Gesamtspeicher; Statusverteilung; verschlüsselte, beschädigte und doppelte Dokumente
  • Verarbeitungsstatus — Letzte Upload-Stapel; aktive Klassifizierungs-, Schwärzungs- und Exportläufe
  • Speicheraufschlüsselung — Detaillierte Speichernutzung nach Kategorie über alle Vorgänge hinweg
  • Letzte Audit-Aktivitäten — Neueste systemweite Audit-Einträge

System-Audit

Die Seite System-Audit im Verwaltungsbereich bietet eine mandantenweite Übersicht über alle Audit-Protokolleinträge über alle Vorgänge hinweg. Dies ermöglicht es Administratoren, die plattformweite Aktivität zu überwachen, Sicherheitsereignisse zu untersuchen und Compliance-Berichte zu erstellen. Die gleichen Filter- und Suchfunktionen des Audit-Protokolls auf Vorgangsebene stehen auch auf Systemebene zur Verfügung.

Sicherheit & Compliance

Datensicherheit

Dezcry wird vollständig auf Microsoft Azure gehostet und nutzt Azure Container Apps, Azure PostgreSQL und Azure Storage. Die gesamte Infrastruktur läuft innerhalb einer einzelnen Ressourcengruppe mit Isolierung auf Netzwerkebene. Der GPU-Worker-Dienst, der die KI-Inferenz durchführt, läuft mit ausschließlich internem Ingress und ist nicht über das öffentliche Internet erreichbar.

Die Plattform arbeitet mit einer logisch isolierten mandantenfähigen Architektur. Die Daten jeder Organisation — Dokumente, Metadaten, Reviewer-Entscheidungen und Audit-Protokolle — sind auf Anwendungs- und Datenbankebene getrennt. Hochgeladene Dateien werden in organisationsspezifischen Speicherpfaden abgelegt. Ein mandantenübergreifender Datenzugriff ist über die Anwendungsschicht nicht möglich.

Verschlüsselung

Alle Daten werden während der Übertragung mit TLS 1.2+ für alle Verbindungen zwischen Diensten, Speicher und der Datenbank verschlüsselt. Daten werden im Ruhezustand mit von Azure verwalteten Verschlüsselungsschlüsseln über Azure Storage Service Encryption und Azure-Datenbankverschlüsselung verschlüsselt. Hochgeladene Dateien, verarbeitete Ausgaben und Datenbankeinträge sind vollständig abgedeckt.

Datenresidenz

Dezcry unterstützt regionale Datenresidenz — jeder Vorgang kann in einer bestimmten Azure-Region gehostet werden, um lokale Datenschutzanforderungen zu erfüllen:

  • Australia East — Standardregion
  • Switzerland North — für Schweizer Datenschutzanforderungen
  • Germany — für deutsche/EU-Datenresidenzanforderungen
  • United Kingdom — für britische Datenschutzanforderungen

KI-Modelle werden regional bereitgestellt — australische Daten nutzen australische KI-Endpunkte, Schweizer Daten nutzen Schweizer Endpunkte und so weiter. Unternehmenskunden können die Bereitstellung in zusätzlichen Regionen oder dedizierten/On-Premises-Umgebungen besprechen.

KI-Datenverarbeitung

Dezcry betreibt eigene KI-Modelle für Schwärzung, Klassifizierung und Zusammenfassung. Es werden keine Dokumentendaten an KI-Dienste Dritter gesendet. Die gesamte KI-Inferenz erfolgt innerhalb derselben Azure-Umgebung wie der Rest der Plattform:

  • Klassifizierung und Schwärzung nutzen große Sprachmodelle, die innerhalb der Azure-Umgebung bereitgestellt werden
  • Chat und Zusammenfassungen nutzen ein dediziertes Sprachmodell, das auf der GPU-Infrastruktur läuft
  • Embeddings werden auf der CPU innerhalb derselben Container-Umgebung generiert

KI-gestützte Schwärzung ist als Unterstützungswerkzeug für Prüfer konzipiert, nicht als autonomes System. Die KI identifiziert wahrscheinlich sensible Inhalte für die menschliche Prüfung. Prüfer genehmigen, lehnen ab oder bearbeiten jeden Vorschlag, bevor er angewendet wird. Alle KI-generierten Vorschläge und Prüferentscheidungen werden im Audit-Trail protokolliert.

Kundendaten werden niemals zum Trainieren oder Feinabstimmen von Modellen verwendet, die mandantenübergreifend geteilt werden.