Dezcry Plattform
Dokumentation
Alles, was Sie über die Nutzung von Dezcry wissen müssen — von der Dokumentenaufnahme bis zum offenlegungsfertigen Export.
Erste Schritte
Plattformübersicht
Dezcry ist eine Self-Service-eDiscovery-Plattform mit KI-Unterstützung für Datenschutz-, Rechts- und Compliance-Teams. Sie bietet einen vollständigen Workflow zum Erfassen von Dokumenten, Prüfen relevanter Unterlagen, Anwenden KI-gestützter Schwärzungen, Klassifizieren von Dokumenten, Suchen und Exportieren offenlegungsfertiger Pakete — alles mit einem vollständigen Audit-Trail und rollenbasierter Zugriffskontrolle.
Im Gegensatz zu schwergewichtigen eDiscovery-Suiten wurde Dezcry für interne Teams entwickelt, die einen effizienten, rechtlich belastbaren Prozess benötigen — ohne spezialisierte eDiscovery-Administratoren oder ausgelagerte Prüfungsunterstützung. Alle KI-Modelle laufen auf der internen Infrastruktur innerhalb derselben Azure-Umgebung — es werden keine Dokumentdaten an KI-Dienste Dritter übermittelt.
- Erfassung von über 100 Dateitypen, darunter PST, EML, ZIP, Office, PDF, Bilder, Audio und Video
- Automatische Deduplizierung, E-Mail-Threading und NIST-Filterung
- KI-gestützte Schwärzung mit einer 5-stufigen Erkennungspipeline
- KI-gestützte Klassifizierung mit benutzerdefinierten Feldern und Konfidenzwertung
- eDiscovery-taugliche Stichwortsuche (Elasticsearch-basiert, dtSearch-Äquivalent)
- LLM-gestützte Dokumentzusammenfassungen und konversationelle Dokumenten-Fragen&Antworten
- KI-OCR für bildlastige Dokumente
- Produktionsfertige Exporte mit Bates-Nummerierung, Ladedateien und eingebrannten Schwärzungen
- Vollständiger Audit-Trail, der jede Aktion für die regulatorische Belastbarkeit protokolliert
- Rollenbasierte Zugriffskontrolle mit Berechtigungen auf Vorgangsebene
Grundlegende Konzepte
| Konzept | Beschreibung |
|---|---|
| Vorgang | Ein Container für einen einzelnen DSAR oder eine Untersuchung. Alle Dokumente, Schwärzungen, Klassifizierungen, Exporte und Audit-Protokolle sind einem Vorgang zugeordnet. Vorgänge verfügen über einen eindeutigen Code, einen Mandantennamen, einen Typ und einen Status. |
| Dokument | Eine einzelne Datei innerhalb eines Vorgangs — eine E-Mail, ein Anhang, eine PDF-, Tabellenkalkulations-, Bild-, Audio- oder Videodatei. Jedes Dokument verfügt über extrahierten Text, Metadaten, eine Vorschau und kann Prüferentscheidungen enthalten. |
| Familie | Eine Gruppe zusammengehöriger Dokumente — typischerweise eine E-Mail und ihre Anhänge. Die übergeordnete E-Mail und die untergeordneten Anhänge teilen sich eine Familien-ID für die gruppierte Prüfung. |
| Verwahrer | Die Person oder Datenquelle, von der Dokumente gesammelt wurden. Wird pro Upload-Stapel zur Nachvollziehbarkeit der Beweiskette erfasst. |
| Gespeicherte Suche | Eine wiederverwendbare Abfrage mit Filtern, die als Geltungsbereich für Schwärzung, Klassifizierung, Export oder Suchbegriffsberichte verwendet werden kann. |
| Schwärzungssatz | Ein KI-Stapelverarbeitungsauftrag zur Schwärzung, der einen Dokumentenbereich durch die 5-stufige Pipeline verarbeitet und Schwärzungseinträge zur Prüfung erzeugt. |
| Klassifizierungssatz | Ein KI-Stapelverarbeitungsauftrag zur Klassifizierung, der benutzerdefinierte Entscheidungsfelder mit Konfidenzwertung auf Dokumente anwendet. |
| Exportsatz | Eine konfigurierte Exportvorlage mit Nummerierung, Branding und Ausgabeeinstellungen, die offenlegungsfertige Pakete erzeugt. |
| Audit-Protokoll | Ein unveränderlicher Datensatz jeder wesentlichen Aktion auf der Plattform, der einen belastbaren Nachweis für Aufsichtsbehörden bietet. |
Anmeldung
Navigieren Sie zur Anmeldeseite Ihrer Dezcry-Instanz und geben Sie Ihre E-Mail-Adresse und Ihr Passwort ein. Wenn Ihre Organisation die Zwei-Faktor-Authentifizierung (2FA) aktiviert hat, werden Sie nach der Eingabe Ihrer Anmeldedaten aufgefordert, ein zeitbasiertes Einmalpasswort (TOTP) aus Ihrer Authenticator-App einzugeben.
Wenn Sie zu Dezcry eingeladen wurden, erhalten Sie eine E-Mail mit einem eindeutigen Einladungslink. Klicken Sie auf den Link, um Ihr Passwort festzulegen und 2FA zu konfigurieren. Einladungslinks sind einmalig verwendbar und laufen nach einem festgelegten Zeitraum ab.
Sitzungen laufen automatisch nach 30 Minuten Inaktivität ab. Ihr Sitzungstoken wird automatisch alle 20 Minuten aktualisiert, solange Sie aktiv sind. Wenn Ihre Sitzung abläuft, werden Sie durch eine Vollbild-Einblendung zur erneuten Anmeldung aufgefordert — nicht gespeicherte Arbeit wird in Ihrem Browser beibehalten.
Vorgänge
Vorgang erstellen
Ein Vorgang ist der übergeordnete Container in Dezcry. Jeder DSAR, jede Untersuchung oder jedes Prüfprojekt wird als separater Vorgang mit eigenen Dokumenten, Workflows, Benutzern und Audit-Trail organisiert.
Um einen Vorgang zu erstellen, navigieren Sie zur Seite Vorgänge und klicken Sie auf Vorgang erstellen (Administratorrolle erforderlich). Sie werden aufgefordert, folgende Angaben zu machen:
| Feld | Beschreibung |
|---|---|
| Name | Ein aussagekräftiger Name für den Vorgang (z. B. 'Schmidt DSAR – Q1 2025'). |
| Vorgangscode | Ein eindeutiger, 6-stelliger alphanumerischer Code, automatisch generiert, aber editierbar. |
| Mandantenname | Die Organisation oder der Mandant, auf die/den sich der Vorgang bezieht. |
| Vorgangstyp | Einer von: DSAR, Untersuchung, Rechtsstreit, Cyber oder Sonstiges. |
| Beschreibung | Optionale ausführliche Beschreibung des Vorgangsumfangs und der Ziele. |
| Zusammenfassungssprache | Die Sprache für KI-generierte Zusammenfassungen (z. B. Englisch, Deutsch, Französisch). |
| Hosting-Standort | Die Azure-Region für die Datenresidenz (z. B. Australien, Schweiz, Deutschland, Vereinigtes Königreich). |
Vorgangs-Dashboard
Durch Klicken auf einen Vorgang gelangen Sie zum Vorgangs-Dashboard — dem zentralen Arbeitsbereich für diesen Vorgang. Das Dashboard zeigt eine durchsuchbare, filterbare Tabelle aller Dokumente im Vorgang sowie den Zugang zu allen vorgangsbezogenen Funktionen über die Seitenleistennavigation:
- Dokumente — alle Dokumente durchsuchen, filtern und prüfen
- Hochladen — neue Dokumente in den Vorgang aufnehmen
- Schwärzung — KI-Schwärzungssätze erstellen und verwalten
- Klassifizierung — KI-Klassifizierungsaufträge konfigurieren und ausführen
- Export — offenlegungsfertige Exportpakete erstellen und ausführen
- Suchbegriffe — Stichwort-Suchbegriffssätze und -berichte erstellen
- KI-OCR — optische Zeichenerkennung für Bilddokumente ausführen
- Passwortbank — Passwörter für verschlüsselte Dateien verwalten
- Audit — den vollständigen Audit-Trail für diesen Vorgang einsehen
- Berichtswesen — Analyse-Dashboards und Kennzahlen anzeigen
- Abrechnung — Speichernutzung und Kosten für diesen Vorgang einsehen
Die Dokumententabelle unterstützt Massenaktionen — wählen Sie mehrere Dokumente aus, um Stapeloperationen wie Tagging, Klassifizierung oder Statusänderungen anzuwenden. Ein Hintergrundaufgaben-Bereich zeigt den Status aller laufenden Aufträge (Schwärzung, Klassifizierung, Export) im Vorgang an.
Vorgangseinstellungen
Die Vorgangseinstellungen steuern das Verhalten der KI-Funktionen und Prüfer-Workflows innerhalb des Vorgangs. Administratoren können Folgendes konfigurieren:
- Entscheidungsfelder — benutzerdefinierte Felder, die Prüfer für jedes Dokument setzen können (z. B. 'Relevanz', 'Privilegierungsstatus', 'Datenkategorie'). Felder können Einfachauswahl, Mehrfachauswahl oder Freitext sein.
- Zusammenfassungssprache — die Sprache, die für KI-generierte Dokumentzusammenfassungen verwendet wird.
- Vorgangsstatus — offen, geschlossen oder archiviert. Geschlossene Vorgänge sind schreibgeschützt; archivierte Vorgänge werden in der Standardansicht ausgeblendet.
Dokumentenaufnahme
Dokumente hochladen
Navigieren Sie zur Seite Upload innerhalb einer Angelegenheit, um Dokumente aufzunehmen. Dezcry unterstützt das Hochladen per Drag-and-Drop sowie die herkömmliche Dateiauswahl. Sie können einzelne Dateien oder Containerdateien (PST, ZIP, 7Z, RAR, TAR, GZ) hochladen, die automatisch entpackt werden.
Konfigurieren Sie vor Beginn der Verarbeitung die folgenden Optionen:
| Option | Beschreibung |
|---|---|
| Deduplizierungsmodus | Wählen Sie 'Global', um identische Dateien innerhalb der gesamten Angelegenheit automatisch anhand von SHA-256-Hashing zu erkennen und zu kennzeichnen. Duplikate werden beibehalten, aber markiert, was den Prüfaufwand reduziert. |
| NIST-Filterung | Aktivieren Sie diese Option, um bekannte System- und Laufzeitdateien (aus der NIST National Software Reference Library) automatisch herauszufiltern, die für die Prüfung niemals relevant sind. |
| OCR | Aktivieren Sie diese Option, um optische Zeichenerkennung (OCR) auf bildbasierte Dokumente anzuwenden und durchsuchbaren Text aus gescannten PDFs, Fotografien und Bilddateien zu extrahieren. |
| E-Mail-Threading | Aktivieren Sie diese Option, um zusammengehörige E-Mails in Konversationsthreads zu gruppieren und zu identifizieren, welche Nachrichten 'inklusiv' (einzigartigen Inhalt enthalten) und welche nicht-inklusive Duplikate sind. |
| Nur Inklusive | Wenn E-Mail-Threading aktiviert ist, können Sie optional nicht-inklusive E-Mails aus dem Prüfarbeitsbereich ausschließen, um das Volumen zu reduzieren. |
Sie können außerdem Verwahrer-Informationen und Datenquellen-Metadaten für die Nachverfolgung der Beweiskette angeben. Verfügbare Datenquellen umfassen: Laptop, Desktop, Server, O365 Email, O365 OneDrive, SharePoint, Google Workspace, Mobile Device, External Hard Drive, USB Drive, Network Share, Cloud Storage, Backup Tape, Database und Other.
Unterstützte Dateitypen
Dezcry unterstützt standardmäßig über 100 Dateitypen. Während der Aufnahme werden alle Dateien extrahiert, ihr Textinhalt analysiert, Metadaten erfasst und für die Suche indexiert.
| Kategorie | Formate |
|---|---|
| PST, OST, EML, MSG, MBOX | |
| Dokumente | DOCX, DOC, PDF, RTF, TXT, ODT |
| Tabellenkalkulationen | XLSX, XLS, CSV, ODS |
| Präsentationen | PPTX, PPT, ODP |
| Archive | ZIP, RAR, 7Z, TAR, GZ |
| Bilder | PNG, JPG, JPEG, TIFF, BMP, GIF (mit OCR) |
| Audio | MP3, WAV, M4A, OGG, FLAC |
| Video | MP4, AVI, MOV, MKV, WEBM |
| Web / Daten | HTML, XML, JSON, CSV |
Deduplizierung
Wenn die globale Deduplizierung aktiviert ist, führt Dezcry eine exakte Deduplizierung auf oberster Ebene durch — der Standardansatz in der eDiscovery-Praxis. Dies ist eine wichtige Unterscheidung: Dezcry identifiziert und entfernt Dateien, die anhand ihres MD5-Hashwerts byteweise identisch sind, tut dies jedoch auf der obersten Ebene der Dokumentenhierarchie.
In der eDiscovery-Praxis bedeutet "Deduplizierung auf oberster Ebene", dass die Deduplizierung auf eigenständige Dokumente und übergeordnete Container (E-Mails, Archive) angewendet wird und nicht auf einzelne Anhänge oder untergeordnete Elemente isoliert. Wenn eine Datei auf oberster Ebene als Duplikat identifiziert wird, werden das gesamte Dokument und seine Familie (einschließlich aller Anhänge) gemeinsam entfernt — wodurch die Integrität der Dokumentenfamilien gewahrt bleibt.
Dies unterscheidet sich von der "Deduplizierung auf Anhangsebene", bei der einzelne Anhänge, die in mehreren E-Mails vorkommen, unabhängig voneinander entfernt würden. Die Deduplizierung auf oberster Ebene bewahrt den vollständigen Kontext jeder E-Mail und ihrer Anhänge als Einheit, was für eine verteidigungsfähige Prüfung entscheidend ist — ein Prüfer sieht stets die vollständige E-Mail mit allen Anhängen, niemals eine unvollständige Familie.
Sie unterscheidet sich auch von der Beinahe-Deduplizierung, die Dateien identifiziert, die ähnlich, aber nicht identisch sind (z. B. verschiedene Versionen desselben Dokuments). Die Deduplizierung von Dezcry ist streng exakt — nur byteweise identische Dateien werden gekennzeichnet.
Die Deduplizierung erstreckt sich global über die gesamte Angelegenheit, d. h. eine Datei, die von einem Verwahrer hochgeladen wurde, wird gegen Dateien aller anderen Verwahrer in derselben Angelegenheit dedupliziert. Die zuerst aufgenommene Instanz wird als Stammdokumentbeibehalten, und alle nachfolgenden identischen Kopien werden entfernt. Die Deduplizierungsergebnisse umfassen:
- Stammdokument — die erste Instanz jeder eindeutigen Datei, die mit vollständigen Metadaten und Familienbeziehungen im Prüfset verbleibt
- Duplikatgruppe — alle Kopien derselben Datei, die zu Prüfzwecken mit dem Stammdokument verknüpft sind
- Eingesparte Bytes — die gesamte Speicherersparnis durch das Entfernen doppelter Kopien
- Verwahrer-Nachverfolgung — das System erfasst, welche Verwahrer Kopien jeder deduplizierten Datei besaßen, wodurch die Beweiskette erhalten bleibt, auch wenn die doppelten Kopien aus dem aktiven Prüfset entfernt werden
Der Upload-Zusammenfassungsbericht dokumentiert jede Duplikatgruppe mit Dateinamen, Größen und der Referenz zum Stammdokument. Dies bietet einen verteidigungsfähigen Nachweis darüber, was genau dedupliziert wurde und warum.
E-Mail-Threading
E-Mail-Threading gruppiert zusammengehörige E-Mails in Konversationsthreads und identifiziert die hierarchische Antwortkette. Das Threading wird zum Zeitpunkt der Aufnahme angewendet, was bedeutet, dass nicht-inklusive E-Mails identifiziert und aus dem Prüfarbeitsbereich ausgeschlossen werden können, bevor eine nachgelagerte Verarbeitung stattfindet. Dies ist eine bewusste Designentscheidung — durch das Herausfiltern redundanter E-Mails im Vorfeld sparen Organisationen erheblich bei den Hosting-Kosten (weniger Speicher, kleinere Suchindizes) und KI-Verarbeitungskosten (weniger Dokumente zum Klassifizieren, Schwärzen und Zusammenfassen).
Jede E-Mail in einem Thread wird wie folgt klassifiziert:
- Inklusiv — enthält einzigartigen Inhalt oder Anhänge, die in späteren Nachrichten des Threads nicht vorhanden sind. Dies sind die Nachrichten, auf die sich Prüfer konzentrieren sollten, da sie die vollständigste Version jedes Punkts im Gesprächsverlauf darstellen.
- Nicht-inklusiv — der vollständige Inhalt dieser E-Mail ist bereits in einer späteren, umfassenderen Nachricht im Thread enthalten. Die Prüfung dieser E-Mails wäre redundant, da die inklusive Nachricht bereits alles erfasst.
Wenn die Option Nur Inklusive beim Upload aktiviert ist, werden nicht-inklusive E-Mails vollständig aus dem aktiven Prüfarbeitsbereich ausgeschlossen. Sie werden weiterhin zu Prüfzwecken im System aufbewahrt, zählen jedoch nicht zum Hosting-Speicher, werden nicht für die Suche indexiert und werden nicht durch KI-Klassifizierung, Schwärzung oder Zusammenfassung verarbeitet — was die Kosten direkt reduziert.
Das Threading verwendet E-Mail-Header (Message-ID, In-Reply-To, References) und den Microsoft Exchange Conversation Index, um präzise Thread-Strukturen aufzubauen. Der Threading-Zusammenfassungsbericht enthält:
- Gesamtzahl der verarbeiteten E-Mails und wie viele davon threading-fähig waren
- Anzahl inklusiver vs. nicht-inklusiver Nachrichten
- Nicht-inklusive E-Mails, die aus dem Prüfarbeitsbereich ausgeschlossen wurden
- Identifizierte Thread-Gruppen
- Aufgetretene Threading-Fehler
NIST-Filterung
Die NIST-Filterung entfernt bekannte Systemdateien, Betriebssystemkomponenten und Software-Laufzeitdateien aus dem Prüfset. Diese Dateien werden identifiziert, indem ihre Hashwerte mit derNIST National Software Reference Library (NSRL) abgeglichen werden — einer umfassenden Datenbank bekannter, nicht relevanter Systemdateien.
NIST-gefilterte Dateien werden gekennzeichnet und aus dem aktiven Prüfarbeitsbereich ausgeschlossen, verbleiben jedoch zu Prüfzwecken im System. Der Upload-Zusammenfassungsbericht dokumentiert die Anzahl und Details der gefilterten Dateien.
Verarbeitungsausnahmen
Während der Aufnahme können bei einigen Dokumenten Verarbeitungsausnahmen auftreten. Dezcry erfasst und meldet diese im Upload-Zusammenfassungsbericht:
| Ausnahmetyp | Beschreibung |
|---|---|
| Verschlüsselt | Passwortgeschützte Dateien, die nicht entschlüsselt werden konnten. Fügen Sie Passwörter zur Passwortbank hinzu und verarbeiten Sie die Dateien erneut. |
| Beschädigt | Dateien, die fehlerhaft, abgeschnitten oder anderweitig nicht lesbar sind. |
| Nicht unterstütztes Format | Dateitypen, die Dezcry derzeit nicht für die Textextraktion unterstützt. |
| Textextraktion fehlgeschlagen | Dateien, bei denen der Inhalt trotz eines unterstützten Formats nicht extrahiert werden konnte. |
Jede Ausnahme enthält die Dokument-ID, den Dateinamen, den Ausnahmetyp und eine beschreibende Nachricht, um die Diagnose und Behebung des Problems zu erleichtern.
Upload-Stapel
Jeder Upload erstellt einen Verarbeitungsstapel mit einer eindeutigen Anzeige-ID (z. B. UPL-001). Navigieren Sie zur Seite Uploads, um alle Stapel für die Angelegenheit anzuzeigen, einschließlich:
- Stapelstatus (in Verarbeitung, abgeschlossen, fehlgeschlagen)
- Gesamtzahl der eingereichten und verarbeiteten Dateien
- Anzahl nach Ergebnis (erfolgreich verarbeitet, verschlüsselt, beschädigt, Duplikate, NIST-gefiltert)
- Entschlüsselungsergebnisse (erfolgreich, fehlgeschlagen)
- Extrahierte Unterdokumente (Anhänge aus Containerdateien)
- Verteilung der Dateitypen
- Verarbeitungsdauer
- MD5-Hash des Upload-Sets zur Verifizierung der Beweiskette
Klicken Sie auf einen beliebigen Stapel, um den detaillierten Verarbeitungsbericht einzusehen, einschließlich dokumentspezifischer Ausnahmedetails, Duplikatgruppen und Threading-Statistiken.
Dokumentenprüfung
Dokumentenliste
Der Hauptarbeitsbereich der Angelegenheit zeigt alle Dokumente in einer durchsuchbaren, sortierbaren Tabelle an. Jede Zeile zeigt den Dateinamen, den Typ, den Status, die Größe, den Custodian sowie alle angewendeten Tags oder Entscheidungen des Dokuments. Zu den wichtigsten Funktionen gehören:
- Volltextsuche — Stichwortsuche über Dokumentinhalte, Dateinamen und E-Mail-Metadaten mit eDiscovery-tauglichem Elasticsearch
- Spaltenfilter — Filtern nach Status, Dateityp, Custodian, Datumsbereichen, Tags, Relevanz-Codierung und benutzerdefinierten Entscheidungsfeldern
- Massenauswahl — Mehrere Dokumente für Stapeloperationen wie Tagging, Entscheidungscodierung oder Export auswählen
- Sortierung — Nach jeder Spalte sortieren, einschließlich Dateiname, Datum, Größe, Relevanz oder Typ
- Gespeicherte Suchen — Jede Kombination aus Suchabfrage und Filtern zur Wiederverwendung speichern
Dokumentenbetrachter
Klicken Sie auf ein beliebiges Dokument, um den vollständigen Dokumentenbetrachter zu öffnen. Der Betrachter bietet eine umfangreiche, mehrteilige Oberfläche zur Prüfung einzelner Dokumente:
- Dokumentenanzeige — native Darstellung des Dokuments mit Zoom-Steuerung (0,25x bis 3x)
- Drei Ansichts-Tabs: Original (natives Format), Markup (mit Schwärzungs-Overlays) und Text (extrahierter Klartext mit Suchhervorhebung)
- Metadaten-Panel — Dokumenteigenschaften, E-Mail-Header, Datei-Hashes und Verarbeitungsinformationen
- Entscheidungs-Panel — Relevanz festlegen, Hot-Document-Markierung, Kommentare und benutzerdefinierte Entscheidungsfelder
- Familien-Panel — Eltern-/Kind-Beziehungen anzeigen (z. B. E-Mail und Anhänge)
- Chat-Panel — Fragen zum Dokument mithilfe von KI stellen
- Navigation — Vor-/Zurück-Schaltflächen mit Tastenkombinationen für eine schnelle sequenzielle Prüfung
Der Dokumentenbetrachter verwendet einen Prefetch-Cache, der benachbarte Dokumente (vorheriges und nächstes) im Hintergrund vorlädt. Dies ermöglicht eine nahezu sofortige Navigation bei der sequenziellen Dokumentenprüfung. Der Cache speichert bis zu 50 Dokumente mit einer TTL von 2 Minuten.
Native Dateibetrachter
Dezcry enthält speziell entwickelte Betrachter für jeden unterstützten Dateityp, die Dokumente direkt im Browser darstellen, ohne dass Plugins oder Downloads erforderlich sind:
| Betrachter | Dateitypen | Funktionen |
|---|---|---|
| PDF-Betrachter | PDF-Dateien | Seitenweise Darstellung, Zoom, Scrollen, Textauswahl, Suchhervorhebung |
| Bild-Betrachter | PNG, JPG, TIFF, BMP, GIF | Schwenken und Zoomen, An Breite/Höhe anpassen, Anzeige in voller Auflösung |
| DOCX-Betrachter | Word-Dokumente (DOCX) | Formatierte Textdarstellung mit Formatvorlagen, Überschriften, Listen und Tabellen |
| PPTX-Betrachter | PowerPoint (PPTX) | Folienweise Darstellung mit Layouts und Formatierung |
| Tabellen-Betrachter | XLSX, XLS, CSV | Mehrere Blatt-Tabs, Spalten-/Zeilenüberschriften, Zellformatierung, fixierte Bereiche |
| Text-Betrachter | TXT, LOG, HTML, XML, JSON | Syntaxhervorgehobener Text mit Zeilennummern und Suche |
| Audio-Betrachter | MP3, WAV, M4A | Audioplayer mit Wellenform, Wiedergabesteuerung und Zeitstempelanzeige |
| Video-Betrachter | MP4, AVI, MOV | Videoplayer mit Wiedergabesteuerung, Vollbildmodus |
| Markup-Betrachter | Jedes Dokument mit Schwärzungen | Darstellung von Schwärzungs-Overlays mit farbcodierten Entitätskategorien |
Metadaten-Panel
Das Metadaten-Panel zeigt alle extrahierten Eigenschaften des aktuellen Dokuments an. Bei E-Mail-Dateienumfasst dies:
- Von-, An-, CC-, BCC-Adressen
- Betreffzeile
- Sendedatum und Empfangsdatum
- Message-ID und Konversations-Threading-Referenzen
- Anzahl und Liste der Anhänge
Für alle Dokumente zeigt das Metadaten-Panel:
- Dateigröße, MIME-Typ und Dokumenttyp
- MD5- und SHA-256-Hashes (zur Integritätsprüfung)
- Erstellungs- und Änderungsdatum
- Autor (sofern aus den Dokumenteigenschaften verfügbar)
- Quellordnerpfad aus dem Originalcontainer
- OCR-Status und KI-Zusammenfassung (sofern verfügbar)
- Verarbeitungsstatus und etwaige Fehlermeldungen
Entscheidungs-Panel
Im Entscheidungs-Panel erfassen Prüfer ihre Bewertungen. Jede Entscheidung wird mit einem Zeitstempel versehen und im Audit-Trail protokolliert. Verfügbare Felder:
- Relevanz — Das Dokument als relevant, nicht relevant oder mit anderen benutzerdefinierten Werten kennzeichnen
- Hot Document — Wichtige oder bedeutsame Dokumente zur Beachtung markieren
- Entscheidungskommentar — Freitext-Anmerkung zur Erläuterung der Begründung des Prüfers
- Benutzerdefinierte Entscheidungsfelder — Alle zusätzlichen Felder, die auf Angelegenheitsebene konfiguriert wurden (Einfachauswahl, Mehrfachauswahl oder Freitext)
Dezcry verwendet optimistisches Sperren bei Dokumentenentscheidungen, um Überschreibungskonflikte zu verhindern, wenn mehrere Prüfer an derselben Angelegenheit arbeiten. Jedes Dokument verfolgt eine Versionsnummer, die bei jeder Aktualisierung hochgezählt wird. Wenn zwei Prüfer gleichzeitig versuchen, Änderungen am selben Dokument zu speichern, erhält der zweite Speichervorgang einen Konfliktfehler und wird aufgefordert, die Daten zu aktualisieren, bevor die Änderungen erneut angewendet werden.
Dokumentenfamilien
Dokumente, die aus Containerdateien extrahiert wurden (E-Mails mit Anhängen, ZIP-Archive), werden automatisch in Familien gruppiert. Eine Familie besteht aus einem übergeordneten Dokument (z. B. einer E-Mail) und seinen untergeordneten Dokumenten (z. B. Anhängen).
Das Familien-Panel im Dokumentenbetrachter zeigt alle zugehörigen Dokumente an und ermöglicht es Prüfern, schnell zwischen einer übergeordneten E-Mail und ihren Anhängen zu navigieren. Familienbeziehungen bleiben in allen Arbeitsabläufen erhalten — Suchergebnisse können eine Familienerweiterung umfassen, und Exporte können Familienmitglieder zusammenfassen.
Tagging
Dokumente können mit Relevanz-Codes und benutzerdefinierten Entscheidungsfeldwerten versehen werden. Tags werden über das Entscheidungs-Panel im Dokumentenbetrachter oder über Massenaktionen in der Dokumentenliste gesetzt. Alle Tagging-Aktionen werden im Audit-Trail mit der Identität des Prüfers und einem Zeitstempel protokolliert.
Metadaten
Übersicht
Jedes in eine Angelegenheit aufgenommene Dokument verfügt über einen umfangreichen Satz von Metadatenfeldern, die während der Verarbeitung automatisch extrahiert werden. Dezcry erfasstüber 60 Metadatenfelder pro Dokument — von grundlegenden Dateieigenschaften und E-Mail-Headern bis hin zu KI-generierten Zusammenfassungen und Prüferentscheidungen. Diese Felder stehen plattformweit für Filterung, Sortierung, Spaltenanzeige, Suche und Export zur Verfügung.
Metadaten werden zum Zeitpunkt der Aufnahme ohne manuellen Aufwand extrahiert. Bei E-Mail-Dateien analysiert Dezcry alle Standard-Header einschließlich Threading-Referenzen. Bei Office-Dokumenten und PDFs werden eingebettete Eigenschaften wie Autor, Titel und Erstellungsdatum erfasst. Bei Bildern werden EXIF-Daten einschließlich Kameramodell, GPS-Koordinaten und Zeitstempel gesichert. Alle Datumsangaben werden für konsistente zeitzonenübergreifende Analysen auf UTC normalisiert.
Metadaten sind entscheidend für verteidigungsfähige Review-Workflows. Felder wie Hash-Werte (MD5, SHA-256) gewährleisten die Integrität der Beweiskette (Chain of Custody). Datumsfelder ermöglichen eine präzise Datumsbereichsfilterung zur Eingrenzung der Prüfungsmenge. E-Mail-Threading-Metadaten erlauben es Prüfern, sich ausschließlich auf inklusive Nachrichten zu konzentrieren. Und die Custodian-Verfolgung über Duplikate hinweg stellt sicher, dass nichts verloren geht, selbst wenn redundante Kopien entfernt werden. Alle unten aufgeführten Metadatenfelder sind in Load-File-Exporten (DAT, CSV, XLSX) für die Weiterverwendung in Relativity, Nuix oder anderen Review-Plattformen verfügbar.
Kerndokumentfelder
Diese Felder sind unabhängig vom Dateityp bei jedem Dokument vorhanden. Sie liefern die grundlegenden Identifikatoren, Dateieigenschaften und Verarbeitungsinformationen, die für die Dokumentenverwaltung und die Nachverfolgung der Beweiskette erforderlich sind.
| Feld | Typ | Beschreibung |
|---|---|---|
| doc_id | String | Eindeutiger Dokumentenidentifikator innerhalb der Angelegenheit (z. B. DOC-000001). Dies ist die primäre Referenz, die plattformweit verwendet wird — in Suchergebnissen, Exporten, Audit-Logs und Querverweisen. |
| doc_seq | Integer | Laufende Nummer, die bei der Aufnahme vergeben wird und für die Sortierung sowie Bates-Nummerierung in Exporten verwendet wird. Sequenzen sind innerhalb jeder Angelegenheit eindeutig und werden in Upload-Reihenfolge vergeben. |
| filename | String | Ursprünglicher Dateiname des Dokuments, wie er in den Quelldaten vorhanden war. Wird aus Gründen der Verteidigungsfähigkeit exakt beibehalten — es erfolgt keine Umbenennung oder Bereinigung. |
| mime | String | MIME-Typ der Datei (z. B. application/pdf, message/rfc822). Wird sowohl durch Dateierweiterung als auch durch Magic-Byte-Analyse für eine genaue Identifizierung bestimmt. |
| document_type | String | Angereicherte Dokumentkategorie — Email, PDF, Word, Excel, PowerPoint, Image, Text, Archive, Audio, Video oder Other. Nützlich zum Filtern der Dokumentenliste nach Dateityp. |
| size_bytes | Integer | Dateigröße in Bytes. Wird in der Benutzeroberfläche in lesbarem Format (KB, MB) angezeigt. Nützlich zur Identifizierung ungewöhnlich großer oder verdächtig kleiner Dateien. |
| source_folder | String | Ursprünglicher Ordnerpfad innerhalb des Quellcontainers — z. B. die PST-Ordnerhierarchie (Inbox/Projects/2024), ZIP-Verzeichnispfad oder verschachtelte Archivstruktur. Bewahrt den organisatorischen Kontext der Originaldaten. |
| date_created_utc | DateTime | Erstellungsdatum der Datei in UTC. Bei Office-Dokumenten aus eingebetteten Dokumenteigenschaften extrahiert. Bei anderen Dateien aus Dateisystem-Zeitstempeln oder Container-Metadaten abgeleitet. |
| date_modified_utc | DateTime | Datum der letzten Änderung der Datei in UTC. Entscheidend für die Datumsbereichsfilterung in Review-Workflows und für die Erstellung von Dokumentenzeitachsen. |
| md5 | String | MD5-Hash des Dateiinhalts (32 Hexadezimalzeichen). Wird für die Deduplizierung innerhalb der Angelegenheit und zur Integritätsüberprüfung der Beweiskette in Exporten verwendet. |
| sha256 | String | SHA-256-Hash des Dateiinhalts (64 Hexadezimalzeichen). Bietet einen kryptographisch starken Integritäts-Fingerabdruck für eine verteidigungsfähige Produktion. |
| status | String | Verarbeitungsstatus — queued (wartet auf Verarbeitung), processing (wird derzeit aufgenommen), ready (erfolgreich verarbeitet und zur Prüfung verfügbar) oder failed (Fehler aufgetreten). |
| processing_error | String | Detaillierte Fehlermeldung bei fehlgeschlagener Verarbeitung. Hilft bei der Diagnose von Problemen wie passwortgeschützten Dateien, beschädigten Archiven oder nicht unterstützten Formaten. |
| processing_dataset | String | Upload-Batch-Identifikator (z. B. UPL-001), der das Dokument mit seinem Aufnahme-Batch verknüpft. Nützlich zur Nachverfolgung, zu welchem Upload-Satz ein Dokument gehört, und zur Anzeige von Batch-Statistiken. |
Familien- & Hierarchiefelder
Dokumente, die aus Containerdateien extrahiert wurden — wie E-Mails mit Anhängen, ZIP-Archive oder verschachtelte PST-Ordner — werden automatisch in Familien gruppiert. Familienbeziehungen sind entscheidend für eine verteidigungsfähige Prüfung: Prüfer sehen jede E-Mail zusammen mit ihren Anhängen, und Exporte können Familienmitglieder im selben Volume für die Produktion zusammenfassen.
| Feld | Typ | Beschreibung |
|---|---|---|
| family_id | String | Familiengruppenidentifikator. Bei übergeordneten Dokumenten (z. B. einer E-Mail) entspricht dieser der eigenen doc_id des Dokuments. Bei untergeordneten Dokumenten (z. B. Anhängen) wird die family_id des übergeordneten Dokuments übernommen — wodurch die gesamte Familie für Gruppierung, Export und Prüfung verknüpft wird. |
| parent_id | UUID | ID des übergeordneten Dokuments (z. B. die E-Mail, die diesen Anhang enthielt). Null bei eigenständigen Dokumenten der obersten Ebene. Ermöglicht die Familienbaumansicht im Dokumenten-Viewer, in der Prüfer zwischen einem übergeordneten Dokument und allen untergeordneten Dokumenten navigieren können. |
Beim Exportieren von Dokumenten bewahrt Dezcry die Familienbeziehungen in der Load-Datei. Übergeordnete Dokumente und ihre untergeordneten Dokumente werden über die Felder family_id und parent_id verknüpft, sodass nachgelagerte Review-Plattformen (Relativity, Nuix usw.) die Familienhierarchie rekonstruieren können. Der Export-Assistent unterstützt zudem familienbasierte Volume-Gruppierung, um zusammengehörige Dokumente beieinander zu halten.
E-Mail-Felder
E-Mail ist oft der wichtigste Datentyp in eDiscovery. Dezcry extrahiert einen umfassenden Satz von E-Mail-Metadaten aus sowohl EML- als auch MSG-Formaten, einschließlich Nachrichten, die aus PST-, OST- und MBOX-Containern extrahiert wurden. Diese Felder werden als erstklassige Datenbankspalten gespeichert, um effizientes Filtern, Sortieren und feldspezifisches Suchen zu ermöglichen (z. B. from:john@acme.com).
| Feld | Typ | Beschreibung |
|---|---|---|
| email_from | String | E-Mail-Adresse und Anzeigename des Absenders (z. B. 'John Smith <john@acme.com>'). Durchsuchbar über das Feldpräfix from: in der Stichwortsuche. |
| email_to | String | Empfänger-E-Mail-Adressen (durch Semikolon getrennt). Unterstützt mehrere Empfänger. Durchsuchbar über das Feldpräfix to:. |
| email_cc | String | CC-Empfänger-E-Mail-Adressen (durch Semikolon getrennt). Durchsuchbar über das Feldpräfix cc:. |
| email_bcc | String | BCC-Empfänger-E-Mail-Adressen (durch Semikolon getrennt). Durchsuchbar über das Feldpräfix bcc:. Nur verfügbar, wenn die Quelldaten BCC-Header enthalten (typischerweise nur im Postfach des Absenders). |
| email_subject | String | E-Mail-Betreffzeile. Durchsuchbar über das Feldpräfix subject:. Wird häufig für die Stichwortsuche und Klassifizierungs-Workflows verwendet. |
| email_message_id | String | RFC 2822 Message-ID-Header — ein global eindeutiger Identifikator, der vom sendenden Mailserver zugewiesen wird. Wird intern für E-Mail-Threading und Deduplizierung verwendet. |
| email_date_sent_utc | DateTime | Datum und Uhrzeit des E-Mail-Versands, normalisiert auf UTC. Dies ist das primäre Datumsfeld für die Datumsbereichsfilterung und Zeitachsenanalyse von E-Mails. |
| email_date_received_utc | DateTime | Datum und Uhrzeit des E-Mail-Empfangs, normalisiert auf UTC. Kann aufgrund von Zustellverzögerungen oder Zeitzonenunterschieden zwischen Absender- und Empfängerservern von date_sent abweichen. |
| email_attachments_json | JSON | Strukturierte Anhangszusammenfassung mit Anzahl und Liste der Dateinamen (z. B. {count: 3, names: ['report.pdf', 'data.xlsx', 'photo.jpg']}). Nützlich zur schnellen Identifizierung von E-Mails mit bestimmten Anhängen, ohne diese öffnen zu müssen. |
| email_in_reply_to | String | Message-ID der E-Mail, auf die direkt geantwortet wird. Wird von der Threading-Engine zum Aufbau des Konversationsbaums verwendet. |
| email_references | String | Geordnete Kette von Message-IDs, die den vollständigen Konversationsverlauf darstellen. Jede Antwort fügt die Message-ID der übergeordneten Nachricht hinzu und erzeugt so eine Breadcrumb-Spur durch den Thread. |
| email_conversation_index | String | Microsoft Exchange PR_CONVERSATION_INDEX — ein hexadezimal kodierter Binärwert, der in Outlook/Exchange-Nachrichten vorhanden ist. Ermöglicht eine präzise Thread-Positionierung, selbst wenn Standard-Header fehlen oder unzuverlässig sind. |
| email_thread_index | String | Hierarchischer Thread-Positionspfad, berechnet von Dezcry (z. B. 'a1b2c3d4+0001+0002'). Kodiert die exakte Baumposition für die korrekte chronologische Sortierreihenfolge und Zweigidentifikation in Konversationsansichten. |
Alle E-Mail-Metadatenfelder sind in der Suchmaschine indexiert. Sie können feldspezifische Suchpräfixe verwenden, um einzelne Felder gezielt anzusprechen — zum Beispiel from:john@acme.com AND subject:"quarterly report" oder to:legal@company.com AND date >= 2024-01-01. Siehe den Abschnitt Suchsyntaxfür die vollständige Liste der unterstützten Feldpräfixe und Operatoren.
E-Mail-Threading-Felder
Diese Felder werden von Dezcry's E-Mail-Threading-Engine während der Aufnahme berechnet. Threading gruppiert zusammengehörige Nachrichten in Konversationsbäume und identifiziert, welche Nachrichteninklusiv (mit einzigartigem Inhalt, den ein Prüfer sehen muss) und welche nicht-inklusiv (redundante Nachrichten, deren Inhalt vollständig durch eine spätere Antwort erfasst wird) sind. Dies kann die Prüfungsmenge in E-Mail-lastigen Angelegenheiten um 40–60 % reduzieren und senkt direkt die Prüfungszeit und KI-Verarbeitungskosten.
| Feld | Typ | Beschreibung |
|---|---|---|
| email_thread_group_id | UUID | Identifikator der Konversations-Thread-Gruppe, zu der diese E-Mail gehört. Alle E-Mails in derselben Konversation teilen diese ID, was Thread-Gruppierung und Navigation im Dokumenten-Viewer ermöglicht. |
| email_thread_indentation | Integer | Tiefe innerhalb des Thread-Baums (0 = die Ursprungsnachricht, 1 = eine direkte Antwort, 2 = eine Antwort auf eine Antwort usw.). Wird für die visuelle Einrückung in Konversationsansichten verwendet. |
| is_inclusive_email | Boolean | Gibt an, ob diese E-Mail inklusiv ist — das heißt, sie enthält einzigartigen Nachrichteninhalt oder Anhänge, die in keiner späteren Nachricht im Thread vorhanden sind. Null, wenn Threading für dieses Dokument nicht aktiviert war. Inklusive E-Mails sind die Mindestmenge, die ein Prüfer sehen muss. |
| inclusive_reason | String | Erklärt, warum die E-Mail inklusiv ist: unique_message_content (Textkörper nicht in späteren Antworten enthalten), unique_attachment (hat einen Anhang, der nicht in späteren Nachrichten vorkommt), unanalyzed_attachment (Anhang konnte nicht verglichen werden), root_message (erste Nachricht im Thread) oder threading_error (Inklusivität konnte nicht bestimmt werden). |
Wenn "Inclusive Only" beim Upload aktiviert ist, werden nicht-inklusive E-Mails vollständig aus dem aktiven Prüfungsarbeitsbereich ausgeschlossen. Sie verbleiben im System und können über die Thread-Ansicht als Kontext aufgerufen werden, erscheinen jedoch nicht in der Hauptdokumentenliste, werden nicht
Wenn "Inclusive Only" beim Upload aktiviert ist, werden nicht-inklusive E-Mails vollständig aus dem aktiven Prüfungsarbeitsbereich ausgeschlossen. Sie verbleiben weiterhin im System und können über die Thread-Ansicht als Kontext abgerufen werden, erscheinen jedoch nicht in der Hauptdokumentenliste, werden nicht durch KI-Klassifizierung oder Schwärzung verarbeitet und zählen nicht zum Speicherverbrauch. Dies ist der empfohlene Ansatz für Vorgänge mit großen E-Mail-Volumina, bei denen Kosteneffizienz Priorität hat.
OCR-Felder
Dezcry erkennt automatisch Dokumente, die keinen extrahierbaren Text enthalten — wie gescannte PDFs, Fotos von Dokumenten und Bilddateien — und markiert diese für OCR (Optical Character Recognition). Nach Durchführung der OCR wird der extrahierte Text vollständig durchsuchbar und steht für die KI-Verarbeitung zur Verfügung.
| Feld | Typ | Beschreibung |
|---|---|---|
| ocr_required | Boolean | Gibt an, ob das Dokument OCR zur Extraktion von durchsuchbarem Text benötigt. Wird während der Aufnahme automatisch auf true gesetzt für gescannte PDFs, reine Bild-PDFs und Bilddateien (JPEG, PNG, TIFF, BMP). Dokumente mit vorhandenem eingebettetem Text werden auf false gesetzt. |
| ocr_status | String | Aktueller OCR-Verarbeitungsstatus: not_applicable (Dokument enthält eingebetteten Text, OCR nicht erforderlich), completed (OCR erfolgreich abgeschlossen, Text extrahiert), failed (OCR versucht, aber Fehler aufgetreten), partial (einige Seiten erfolgreich verarbeitet) oder skipped (OCR trotz Erforderlichkeit noch nicht durchgeführt). |
Deduplizierungsfelder
Wenn die globale Deduplizierung beim Upload aktiviert ist, identifiziert Dezcry byteweise identische Dateien im gesamten Vorgang mittels Hash-Abgleich. Die erste Instanz wird als Masterdokument beibehalten und nachfolgende Kopien werden als Duplikate markiert. Die Deduplizierung erfolgt auf oberster Ebene — das bedeutet, dass ganze Familien (E-Mail + Anhänge) als Einheit dedupliziert werden, wodurch die Familienintegrität erhalten bleibt. Weitere Einzelheiten finden Sie im Abschnitt Deduplizierung.
| Feld | Typ | Beschreibung |
|---|---|---|
| is_duplicate | Boolean | Gibt an, ob dieses Dokument ein Duplikat eines anderen Dokuments im Vorgang ist. Duplizierte Dokumente werden aus dem aktiven Prüfungssatz ausgeschlossen, bleiben jedoch für Prüfungs- und Exportzwecke erhalten. |
| duplicate_of_id | UUID | ID des Masterdokuments, dessen Duplikat dieses Dokument ist. Ermöglicht Prüfern und Exporten die Rückverfolgung zur beibehaltenen Kopie. Das Masterdokument ist stets die zuerst aufgenommene Instanz. |
| duplicate_custodian_info | String | Erfasst, welche Verwahrer Kopien dieses Dokuments besaßen. Entscheidend für die Verteidigungsfähigkeit — auch wenn duplizierte Kopien aus dem Prüfungssatz entfernt werden, bewahrt dieses Feld eine vollständige Aufzeichnung darüber, wer das Dokument über alle Datenquellen hinweg besaß. |
NIST-Filterfelder
Die NIST-Filterung (auch als "De-NISTing" bekannt) entfernt bekannte Systemdateien, Betriebssystemkomponenten und Anwendungslaufzeitdateien aus dem Prüfungssatz durch Abgleich von Datei-Hashes mit der NIST National Software Reference Library (NSRL). Dies ist eine Standardpraxis im eDiscovery, die Dateien eliminiert, die für die Prüfung niemals relevant sind — wie Windows-DLLs, Office-Vorlagen und Browser-Cache-Dateien — und häufig 10–30 % eines Datensatzes entfernt, bevor die Prüfung beginnt.
| Feld | Typ | Beschreibung |
|---|---|---|
| is_nist_filtered | Boolean | Gibt an, ob diese Datei über den NIST-NSRL-Hash-Abgleich als bekannte System- oder Anwendungsdatei identifiziert wurde. Gefilterte Dateien werden aus dem aktiven Prüfungsarbeitsbereich ausgeschlossen, verbleiben jedoch für Prüfungs- und Berichtszwecke im System. |
| nist_product_name | String | Name des Softwareprodukts, zu dem die Datei laut NSRL-Datenbank gehört (z. B. Microsoft Windows 11, Adobe Acrobat Reader, Google Chrome). Hilft zu erkennen, warum eine Datei gefiltert wurde, und bietet Kontext in Ausnahmeberichten. |
Verschlüsselungs- & Integritätsfelder
Dezcry führt während der Aufnahme eine detaillierte Analyse jeder Datei durch, um Verschlüsselung, Beschädigung und Dateityp-Nichtübereinstimmungen zu erkennen. Diese Felder bieten ein vollständiges Bild des Integritätsstatus jedes Dokuments — unverzichtbar für die eDiscovery-Ausnahmeberichterstattung und um sicherzustellen, dass keine Dokumente während der Verarbeitung stillschweigend übersehen werden.
| Feld | Typ | Beschreibung |
|---|---|---|
| is_encrypted | Boolean | Gibt an, ob das Dokument verschlüsselt oder passwortgeschützt ist. Verschlüsselte Dateien können erst nach der Entschlüsselung verarbeitet werden — fügen Sie das Passwort zur Passwortdatenbank hinzu und verarbeiten Sie erneut, oder vermerken Sie die Ausnahme in der Berichterstattung. |
| encryption_type | String | Detaillierte Verschlüsselungsklassifizierung: password_protected (standardmäßiger Office-/PDF-Passwortschutz), drm_protected (Digital Rights Management), pgp_encrypted (PGP/GPG-Verschlüsselung), smime_encrypted (S/MIME-E-Mail-Verschlüsselung) oder bitlocker (Artefakt einer Festplattenverschlüsselung). Hilft IT-Teams, die geeignete Entschlüsselungsmethode zu bestimmen. |
| is_corrupt | Boolean | Gibt an, ob das Dokument beschädigt oder fehlerhaft ist. Beschädigte Dateien werden als Verarbeitungsausnahmen markiert und in Ausnahmeberichten zur Transparenz aufgeführt. |
| corruption_type | String | Detaillierte Beschädigungsklassifizierung: truncated (Datei abgeschnitten), malformed_header (ungültiger Datei-Header), invalid_structure (interne Strukturfehler) oder zero_byte (leere Datei). Bietet verwertbare Details für die Fehlerbehebung oder erneute Beschaffung aus der Quelle. |
| file_signature | String | Durch Analyse der binären Header der Datei erkannte Magic-Bytes-Signatur (z. B. 'PDF-1.4', 'PK (ZIP)', 'JPEG/JFIF'). Unabhängig von der Dateierweiterung — liefert die tatsächliche Formatidentität. |
| file_signature_mismatch | Boolean | Gibt an, ob die Dateierweiterung nicht mit dem tatsächlich durch Magic Bytes erkannten Inhalt übereinstimmt (z. B. eine .docx-Datei, die tatsächlich eine umbenannte .exe ist). Wichtig für die Identifizierung potenziell verdächtiger oder falsch bezeichneter Dateien in der forensischen Prüfung. |
| is_decrypted | Boolean | Gibt an, ob das Dokument während der Verarbeitung mit einem Passwort aus der Passwortdatenbank oder einem beim Upload angegebenen Passwort erfolgreich entschlüsselt wurde. |
| decryption_method | String | Art der Entschlüsselung des Dokuments: global_password_bank (Abgleich mit den gespeicherten Passwörtern des Vorgangs) oder upload_password (beim Upload, der diese Datei enthielt, angegebenes Passwort). Bietet einen Prüfpfad für Entschlüsselungsaktionen. |
Dezcry untersucht die binären Magic Bytes jeder Datei, um deren tatsächliches Format unabhängig von der Dateierweiterung zu bestimmen. Wenn eine Nichtübereinstimmung erkannt wird (z. B. eine.xlsx-Datei, die tatsächlich ein ZIP-Archiv ist, oder eine .pdf-Datei, die tatsächlich ein JPEG-Bild ist), wird das Flag file_signature_mismatch gesetzt. Dies ist wertvoll für die Identifizierung von Dateien, die absichtlich umbenannt wurden, um einer Prüfung zu entgehen — eine gängige Taktik bei Ermittlungen und Rechtsstreitigkeiten.
Verarbeitungsausnahmefelder
In jedem eDiscovery-Vorgang wird ein gewisser Prozentsatz der Dokumente auf Verarbeitungsprobleme stoßen. Dezcry kategorisiert jede Ausnahme mit einem Typ und einer Aktion und liefert die strukturierten Daten, die für eine verteidigungsfähige Ausnahmeberichterstattung erforderlich sind. Diese Felder sind in Exporten und Verarbeitungsstapelberichten enthalten, damit Rechtsteams eine vollständige Aufzeichnung darüber haben, was erfolgreich verarbeitet wurde — und was nicht.
| Feld | Typ | Beschreibung |
|---|---|---|
| exception_type | String | Die Kategorie der Verarbeitungsausnahme: encryption (passwortgeschützte oder verschlüsselte Datei), corruption (fehlerhafte oder beschädigte Datei), unsupported_format (Dateityp wird für Textextraktion nicht unterstützt) oder text_extraction_failed (unterstütztes Format, aber bei der Extraktion ist ein Fehler aufgetreten). Wird für Filterung und Berichterstattung über Verarbeitungsergebnisse verwendet. |
| exception_action | String | Die von Dezcry als Reaktion auf die Ausnahme ergriffene Maßnahme: processed_with_errors (teilweise Verarbeitung mit einigen festgestellten Problemen abgeschlossen), skipped (Dokument konnte überhaupt nicht verarbeitet werden), partial_extraction (einige Inhalte wurden extrahiert, aber der Prozess wurde nicht vollständig abgeschlossen) oder placeholder_created (ein Platzhaltereintrag wurde zu Nachverfolgungs- und Berichtszwecken erstellt). Bietet Transparenz für Rechtsteams, die die Vollständigkeit bewerten. |
KI- & Verarbeitungsfelder
Dezcry nutzt KI, um automatisch Dokumentzusammenfassungen zu erstellen, Schwärzungen durchzuführen und Dokumentvorschauen zu generieren. Diese Felder verfolgen den Status und die Ergebnisse jedes KI-gestützten Workflows und ermöglichen es Prüfern, schnell zu sehen, welche Dokumente zusammengefasst, geschwärzt oder noch in Bearbeitung sind.
| Feld | Typ | Beschreibung |
|---|---|---|
| llm_summary | String | KI-generierte Zusammenfassung des Dokumentinhalts in 1–2 Sätzen. Zusammenfassungen werden nach der Aufnahme automatisch erstellt und in der Dokumentenliste sowie im Viewer angezeigt. Nützlich für die schnelle Sichtung von Dokumenten, ohne diese öffnen zu müssen — Prüfer können Zusammenfassungen scannen, um relevante Dokumente schneller zu identifizieren. |
| markup_status | String | Schwärzungs- und Annotations-Workflow-Status: not_started (keine Schwärzungen angewendet), pending (Schwärzung in Bearbeitung), complete (alle Schwärzungen angewendet und Markup generiert) oder failed (bei der Markup-Generierung ist ein Fehler aufgetreten). Dokumente mit dem markup_status 'complete' verfügen über eine vollständig geschwärzte Vorschau. |
| markup_page_count | Integer | Gesamtanzahl der Seiten im Markup-Dokument. Wird nach Abschluss der Markup-Generierung befüllt. Nützlich für die Einschätzung des Prüfungsaufwands und für die seitenbezogene Schwärzungsverfolgung in Produktionsberichten. |
| preview_status | String | Status der Dokumentvorschau-Generierung: none (keine Vorschau angefordert), queued (wartet auf Generierung), generating (wird derzeit konvertiert), ready (Vorschau zur Ansicht verfügbar) oder error (Generierung fehlgeschlagen). Vorschauen konvertieren native Formate in darstellbare HTML/PDF-Dokumente für die Dokumentprüfung im Browser. |
Prüfer-Entscheidungsfelder
Diese Felder werden von Prüfern während der Dokumentprüfung über das Entscheidungspanel im Dokumentviewer oder über Massenaktionen in der Dokumentenliste gesetzt. Jede Änderung an diesen Feldern wird mit Zeitstempel versehen, dem Prüfer zugeordnet und im Prüfprotokoll für volle Verteidigungsfähigkeit protokolliert. Optimistisches Locking verhindert widersprüchliche Bearbeitungen, wenn mehrere Prüfer gleichzeitig am selben Vorgang arbeiten.
| Feld | Typ | Beschreibung |
|---|---|---|
| relevance | String | Vom Prüfer zugewiesene Relevanzklassifizierung — typischerweise Responsive, Non-Responsive oder Privileged, aber auf Vorgangsebene vollständig anpassbar. Dies ist das primäre Codierungsfeld, das zur Trennung relevanter Dokumente vom Rest des Datensatzes verwendet wird. |
| hot_document | Boolean | Markierung, die anzeigt, dass das Dokument besonders bedeutsam ist — ein entscheidendes Beweisstück, das erhöhte Aufmerksamkeit erfordert. Hot Documents werden in der Dokumentenliste visuell hervorgehoben und können zur schnellen Zugriffsmöglichkeit gefiltert werden. |
| decision_comment | String | Freitext-Anmerkung, in der Prüfer ihre Begründung für die Relevanzentscheidung erläutern. Nützlich für die Qualitätskontrolle, die Zweitprüfung und die Bereitstellung von Kontext für leitende Prüfer oder Rechtsberater. |
| relevance_coded_at | DateTime | Zeitstempel der letzten Erfassung der Relevanzentscheidung. Wird für die Verfolgung des Prüfungsfortschritts, Produktivitätskennzahlen und Prüfprotokollzwecke verwendet. Wird bei jeder Änderung der Entscheidung durch den Prüfer aktualisiert. |
Zusätzlich zu den oben genannten integrierten Feldern können Vorgänge mit benutzerdefinierten Entscheidungsfeldern konfiguriert werden — Einzelauswahl-Dropdowns, Mehrfachauswahl-Tags oder Freitextfelder — um vorgangsspezifische Codierungen wie Sachgebietscodes, Privilegkategorien oder Vertraulichkeitsbezeichnungen zu erfassen. Benutzerdefinierte Felder sind vollständig exportierbar und erscheinen im Entscheidungspanel neben den Standardfeldern. Einzelheiten zur Konfiguration finden Sie unter Benutzerdefinierte Felder.
Erweiterte Metadaten (metadata_json)
Zusätzlich zu den oben genannten erstklassigen Feldern enthält jedes Dokument ein erweitertes Metadatenobjekt mit formatspezifischen Eigenschaften, die nach Namensraum organisiert sind. Diese Felder erfassen die vollständige Tiefe der in jedem Dateityp eingebetteten Informationen — von PDF-Erstellungstools über EXIF-Geolokalisierungsdaten in Bildern bis hin zu E-Mail-Authentifizierungsergebnissen. Erweiterte Metadaten sind im Metadatenpanel einsehbar und in Exporten enthalten.
| Namensraum | Dokumenttypen | Felder |
|---|---|---|
| general | Alle Dokumente | filename, extension, mime, document_type, size_bytes, upload_batch_id. Bei jedem Dokument als grundlegender Eigenschaftssatz vorhanden. |
| EML, MSG | from, to, cc, bcc, subject, message_id, in_reply_to, references, conversation_index, date_sent_utc, date_received_utc, attachments (Anzahl und Namen). Enthält außerdem E-Mail-Authentifizierungsergebnisse: dkim_result, spf_result und dmarc_result — nützlich zur Identifizierung gefälschter oder nicht authentifizierter Nachrichten. | |
| PDF-Dateien | title, author, subject, producer (die Anwendung, die das PDF generiert hat), creator (die Ursprungsanwendung), creation_date_utc, modification_date_utc, page_count, is_encrypted. Extrahiert sowohl aus dem PDF-Info-Wörterbuch als auch aus XMP-Metadatenströmen, sofern verfügbar. | |
| ooxml | Word, Excel, PowerPoint (DOCX, XLSX, PPTX) | Core-Eigenschaften: created, modified, title, subject, creator, lastModifiedBy, revision, keywords, description, category. Application-Eigenschaften: application (z. B. Microsoft Excel), company, template. Dies sind die Eigenschaften, die im Dialogfeld 'Eigenschaften' einer Datei in Microsoft Office sichtbar sind. |
| image | JPEG, PNG, TIFF, BMP, GIF | format (z. B. JPEG, PNG), mode (z. B. RGB, RGBA), width, height. EXIF-Daten (sofern verfügbar): DateTimeOriginal, DateTimeDigitized, Make (Kamerahersteller), Model (Kameramodell), Software, Orientation, XResolution, YResolution und GPSInfo (Breitengrad, Längengrad, Höhe). EXIF-Geolokalisierungsdaten können bei Ermittlungen mit Fotografien entscheidend sein. |
Bei E-Mail-Dokumenten extrahiert Dezcry die Authentifizierungsergebnisse aus den E-Mail-Headern, sofern vorhanden. DKIM (DomainKeys Identified Mail) überprüft, ob die E-Mail während der Übertragung nicht verändert wurde. SPF (Sender Policy Framework) prüft, ob der sendende Server für die Domain autorisiert ist. DMARC (Domain-based Message Authentication) kombiniert beide Prüfungen. Diese Ergebnisse können bei einer Ermittlung helfen, gefälschte oder potenziell betrügerische E-Mails zu identifizieren.
Suche
Stichwortsuche
Dezcry bietet eine eDiscovery-taugliche Stichwortsuche, die von Elasticsearch betrieben wird und Funktionen auf dem Niveau von dtSearch im grossen Massstab bereitstellt. Die Suchmaschine unterstützt Millionen von Dokumenten mit Antwortzeiten im Sekundenbruchteil-Bereich.
Die Suche ist über die Suchleiste in der Hauptdokumentenliste verfügbar. Ergebnisse werden nach Relevanz sortiert und mit Trefferhervorhebung angezeigt. Alle Suchabfragen liefern exakte Anzahlen (niemals Näherungswerte). Suchergebnisse können mit Spaltenfiltern weiter eingegrenzt und zur Wiederverwendung gespeichert werden.
Die folgenden Felder sind indexiert und durchsuchbar:
- Vollständiger Dokumenttextinhalt
- Dateiname und Dateipfad
- E-Mail-Felder: Betreff, Von, An, CC, BCC
- Autor, Verwahrer, Dokumenttyp, MIME-Typ
- MD5- und SHA-256-Hashwerte
- Schlagwörter, Datumsangaben (erstellt, geändert, gesendet, empfangen)
Suchsyntax
Dezcry unterstützt den gesamten Umfang der eDiscovery-Suchsyntax:
| Syntax | Beispiel | Beschreibung |
|---|---|---|
| Boolean AND | contract AND liability | Beide Begriffe müssen im Dokument vorkommen |
| Boolean OR | merger OR acquisition | Mindestens einer der Begriffe muss vorkommen |
| Boolean NOT | confidential NOT public | Der erste Begriff muss vorkommen, der zweite darf nicht vorkommen |
| Gruppierung | (merger OR acquisition) AND confidential | Klammern steuern die Operatorrangfolge |
| Phrase | 'privileged communication' | Exakte Phrasenübereinstimmung unter Beibehaltung der Wortreihenfolge |
| Proximity | 'contract breach'~5 | Begriffe müssen innerhalb von 5 Wörtern zueinander stehen |
| W/N (dtSearch) | merger W/5 acquisition | dtSearch-Näherungssyntax — Begriffe innerhalb von N Wörtern |
| Wildcard (Präfix) | priv* | Findet privilege, privileged, privacy usw. |
| Wildcard (Suffix) | Findet email, voicemail usw. | |
| Wildcard (Einzelzeichen) | h?t | Findet hat, hit, hot, hut usw. |
| Fuzzy | colour~ | Findet ähnliche Schreibweisen (Levenshtein-Distanz) |
| Fuzzy (explizit) | colour~2 | Findet Treffer innerhalb einer Editierdistanz von 2 |
| Feldspezifisch | subject:'quarterly earnings' | Suche innerhalb eines bestimmten Feldes |
| Feld (E-Mail) | from:john@acme.com | Durchsucht das Absenderfeld der E-Mail |
| Feld (Dateiname) | filename:report.xlsx | Suche nach Dateiname |
| Datumsbereich | date >= 2020-01-01 | Nach Datum filtern |
| Datumsbereich | date:2020-01-01..2022-12-31 | Datumsbereich mit Start- und Enddatum |
Suchabfragen wenden automatisch Stemming an — eine Suche nach "run" findet auch "running", "ran" und "runs". Dies wird durch den Elasticsearch-Analyzer gehandhabt und liefert umfassendere Ergebnisse, ohne dass Wildcard-Syntax erforderlich ist.
Suchbegriff-Sets
Suchbegriff-Berichte ermöglichen es Ihnen, eine Reihe von Stichwörtern zu definieren und diese gegen einen Dokumentenbereich auszuführen, um Trefferquoten zu messen. Dies wird häufig verwendet für:
- Validierung von Stichwortlisten vor der vollständigen Prüfung
- Messung der Häufigkeit bestimmter Themen in der Sammlung
- Erstellung nachvollziehbarer Suchbegriff-Trefferberichte für Aufsichtsbehörden
- Ermittlung, welche Verwahrer oder Datenquellen relevantes Material enthalten
Um einen Suchbegriff-Bericht zu erstellen, navigieren Sie zu Suchbegriffe innerhalb einer Angelegenheit:
- 1Bericht erstellen — Geben Sie ihm einen Namen und wählen Sie den Bereich (alle Dokumente oder eine gespeicherte Suche).
- 2Suchbegriffe hinzufügen — Geben Sie Ihre Stichwörter einzeln ein. Jeder Begriff kann bis zu 450 Zeichen lang sein und unterstützt die vollständige Suchsyntax.
- 3Optionen konfigurieren — Aktivieren Sie 'Familientreffer einbeziehen', um Dokumente zu zählen, deren Familienmitglieder übereinstimmen. Aktivieren Sie 'Treffer markieren', um dokumentbezogene Trefferdatensätze zu erstellen.
- 4Bericht ausführen — Dezcry führt jeden Suchbegriff gegen den Bereich aus und erfasst die Trefferanzahlen.
Suchbegriff-Berichte
Sobald ein Suchbegriff-Bericht abgeschlossen ist, können Sie detaillierte Ergebnisse einsehen:
- Trefferanzahlen pro Begriff — Anzahl der Dokumente, die jedem Suchbegriff entsprechen (direkte und Familientreffer)
- Eindeutige Treffer — Dokumente, die nur diesem bestimmten Begriff entsprechen
- Farbcodierte Hervorhebung — jedem Begriff kann eine individuelle Hervorhebungsfarbe zur visuellen Identifikation im Dokumentenbetrachter zugewiesen werden
- Bereichszusammenfassung — Gesamtanzahl der Dokumente im Bereich, Gesamtanzahl der Dokumente mit mindestens einem Treffer
- Begriffsstatus — individuelle Statusverfolgung für jeden Begriff (ausstehend, laufend, abgeschlossen, Fehler)
Wenn Treffer markieren aktiviert ist, können Sie die Dokumentenliste filtern, um nur Dokumente anzuzeigen, die einem bestimmten Suchbegriff entsprechen, und so eine gezielte Prüfung des stichwortrelevanten Materials ermöglichen. Suchbegriff-Hervorhebungen bleiben im Text-Tab des Dokumentenbetrachters bestehen und zeigen übereinstimmende Begriffe mit ihren zugewiesenen Farben an.
Gespeicherte Suchen
Jede Kombination aus Suchabfrage und Spaltenfiltern kann als benannte Suche gespeichertund später wiederverwendet werden. Gespeicherte Suchen sind ein zentraler Baustein in Dezcry — sie dienen als Bereichsauswahl für Schwärzung, Klassifizierung, Export und Suchbegriff-Berichte.
| Eigenschaft | Beschreibung |
|---|---|
| Name | Ein innerhalb der Angelegenheit eindeutiger Name zur einfachen Identifikation |
| Beschreibung | Optionale ausführliche Beschreibung dessen, was die Suche erfasst |
| Sichtbarkeit | Geteilt (für alle Angelegenheitsbenutzer sichtbar) oder Privat (nur für den Ersteller) |
| Angeheftet | Häufig genutzte Suchen oben in der Liste anheften |
| Schlagwörter | Suchen kategorisieren (z. B. 'Privileg', 'Prüfung', 'Produktion') |
| Abfrage + Filter | Die vollständige Suchabfrage und Spaltenfilter-Konfiguration |
Wenn eine gespeicherte Suche als Bereich für einen Auftrag (Schwärzung, Klassifizierung oder Export) verwendet wird, wird der Dokumentensatz zum Zeitpunkt des Auftragsstarts eingefroren. Dies bedeutet, dass der Auftrag die Dokumente verarbeitet, die zu diesem Zeitpunkt übereinstimmten, auch wenn später neue Dokumente zur Angelegenheit hinzugefügt werden — dies gewährleistet Nachvollziehbarkeit und Reproduzierbarkeit.
AI-Klassifizierung
Übersicht
Die AI-Klassifizierung ermöglicht es Ihnen, Dokumente automatisch mithilfe von benutzerdefinierten Entscheidungsfeldernzu kategorisieren, die von Ihrem Team definiert werden. Im Gegensatz zur manuellen Prüfung verarbeitet die AI-Klassifizierung gesamte Dokumentenmengen in wenigen Minuten und erzeugt Vorhersagen mit kalibrierten Konfidenzwerten, sodass Prüfer ihre Aufmerksamkeit auf tatsächlich uneindeutige Dokumente richten können, während Vorhersagen mit hoher Konfidenz automatisch angewendet werden.
Die Klassifizierung läuft auf Large Language Models innerhalb derselben Azure-Umgebung wie die restliche Plattform — keine Dokumentendaten verlassen Ihre Bereitstellung. Das System umfasst Konfidenz-Debiasing zur Korrektur bekannter LLM-Überconfidence, einen Verifikationsdurchlauffür Grenzfallvorhersagen mit einem separaten Modell sowie intelligentes Dokument-Chunking für lange Dokumente. Jede Vorhersage enthält einen kalibrierten Konfidenzwert und eine Begründung, und alle Entscheidungen werden im Prüfpfad protokolliert.
Klassifizierung und Schwärzung dienen unterschiedlichen Zwecken. Die Klassifizierung weist ganzen Dokumenten Bezeichnungen zu — sie kategorisiert diese nach Typ, Relevanz, Sensitivität oder einer beliebigen benutzerdefinierten Taxonomie, die Ihr Team festlegt. Die Schwärzung identifiziert und entfernt spezifischen Text innerhalb von Dokumenten. Die Klassifizierung hilft Ihrem Team zu entscheiden,was mit einem Dokument zu tun ist; die Schwärzung hilft Ihnen, es für die Offenlegung vorzubereiten.
Benutzerdefinierte Felder
Bevor Sie einen Klassifizierungsauftrag ausführen, definieren Sie die Entscheidungsfelder, die die AI vorhersagen soll. Diese sind vollständig anpassbar — Sie definieren die Feldnamen, Typen, Optionen und Anweisungen, die für Ihre Prüfung spezifisch sind. Navigieren Sie innerhalb eines Vorgangs zu Klassifizierung, um die Felder zu konfigurieren.
| Feldtyp | Beschreibung | Beispiel |
|---|---|---|
| Einzelauswahl | Die AI wählt genau einen Wert aus einer vordefinierten Liste von Optionen. Am besten für sich gegenseitig ausschließende Kategorien geeignet. | Relevanz: Responsiv / Nicht responsiv / Teilweise responsiv |
| Mehrfachauswahl | Die AI kann einen oder mehrere zutreffende Werte aus einer Liste auswählen. Am besten für nicht-exklusive Bezeichnungen geeignet. | Datenkategorien: Finanziell / Medizinisch / Beschäftigung / Persönlich |
| Boolean | Eine einfache Ja/Nein-Entscheidung. | Enthält personenbezogene Daten: true / false |
| Freitext | Die AI liefert eine kurze Freitextantwort. Am besten für Zusammenfassungen oder Beschreibungen geeignet. | Hauptthemen: Beschreibung des Dokumentinhalts in einem Satz |
Für jedes Feld geben Sie Anweisungen in natürlicher Sprache an, die der AI genau erklären, wie Dokumente zu bewerten sind. Die Qualität dieser Anweisungen hat direkten Einfluss auf die Klassifizierungsgenauigkeit. Dezcry bietet einen Echtzeit-Qualitätsindikator während Sie schreiben:
| Qualitätsstufe | Länge | Hinweis |
|---|---|---|
| Schlecht | Unter 10 Zeichen | Zu kurz, um nützlich zu sein — die AI hat keinen Kontext für Entscheidungen. Fügen Sie spezifische Kriterien, Beispiele und Hinweise zu Grenzfällen hinzu. |
| Ausreichend | 10–50 Zeichen | Grundlegende Orientierung, aber ohne Nuancen. Mehr Details darüber, was für jede Option qualifiziert und wie mehrdeutige Fälle zu behandeln sind, verbessern die Genauigkeit. |
| Gut | 50–200 Zeichen | Die AI hat genug Kontext für zuverlässige Vorhersagen. Erwägen Sie, Beispiele für Grenzfälle hinzuzufügen. |
| Ausgezeichnet | 200+ Zeichen | Detaillierte Anweisungen mit klaren Kriterien, Beispielen und Behandlung von Grenzfällen. Dies liefert die genauesten und konsistentesten Ergebnisse. |
Gute Klassifizierungsanweisungen sollten Folgendes enthalten:
- Klare Kriterien — was ein Dokument für jede Option qualifiziert
- Beispiele — konkrete Beispiele dafür, was in jede Kategorie gehört
- Grenzfälle — wie mehrdeutige oder grenzwertige Dokumente zu behandeln sind
- Kontext — relevante Hintergrundinformationen zum Vorgang, zur Branche oder zum regulatorischen Rahmen
- Negativbeispiele — was nicht als eine bestimmte Kategorie klassifiziert werden sollte
Schreiben Sie zum Beispiel anstatt "Ist dies relevant?": "Klassifizieren Sie als Responsiv, wenn das Dokument Informationen über die Beschäftigungsgeschichte, das Gehalt, Leistungsbeurteilungen oder HR-Kommunikation der betroffenen Person enthält. Klassifizieren Sie als Nicht responsiv, wenn das Dokument eine systemgenerierte Benachrichtigung, Werbematerial ist oder sich auf eine andere Person bezieht. Klassifizieren Sie als Teilweise responsiv, wenn das Dokument einige relevante Inhalte gemischt mit irrelevanten Inhalten enthält."
Klassifizierungssätze
Ein Klassifizierungssatz ist eine wiederverwendbare Konfiguration, die festlegt, welche Felder vorhergesagt werden sollen, wie sich die AI verhalten soll und welche Konfidenzschwellen angewendet werden. Klassifizierungssätze können mehrfach ausgeführt werden — zum Beispiel nach dem Hinzufügen neuer Dokumente zum Vorgang. So erstellen und führen Sie eine Klassifizierung aus:
- 1Umfang auswählen — Wählen Sie alle Dokumente oder eine gespeicherte Suche aus, um festzulegen, welche Dokumente klassifiziert werden sollen. Der Umfang wird zum Zeitpunkt der Ausführung eingefroren — später hinzugefügte Dokumente werden in diesem Durchlauf nicht berücksichtigt.
- 2Satz benennen — Geben Sie dem Klassifizierungssatz einen beschreibenden Namen für die Nachverfolgung und Prüfzwecke.
- 3Felder konfigurieren — Definieren Sie ein oder mehrere benutzerdefinierte Entscheidungsfelder mit Typen, Optionen und AI-Anweisungen in natürlicher Sprache.
- 4Schwellen festlegen — Konfigurieren Sie die automatische Akzeptanzschwelle (Standard: 0,85) und die Prüfschwelle (Standard: 0,60), um zu steuern, wie Vorhersagen weitergeleitet werden.
- 5Systemprompt (optional) — Geben Sie einen optionalen Prompt auf Systemebene an, der für alle Felder gilt — nützlich, um allgemeinen Kontext wie den Vorgangstyp, die Rechtsordnung oder das Prüfprotokoll festzulegen.
- 6Optionales Sampling — Konfigurieren Sie bei großen Dokumentenmengen ein Prävalenz-Sampling, um die Klassifizierungsqualität an einer Teilmenge zu validieren, bevor Sie einen vollständigen Durchlauf starten.
- 7Prüfen und starten — Überprüfen Sie alle Einstellungen in einer Übersichtsansicht und starten Sie den Klassifizierungsauftrag.
Konfidenzschwellen und Weiterleitung
Dezcry verwendet ein dreistufiges Weiterleitungssystem auf Basis kalibrierter Konfidenzwerte, um zu bestimmen, wie jede Vorhersage behandelt wird:
| Konfidenzbereich | Weiterleitung | Beschreibung |
|---|---|---|
| Über Auto-Akzeptanz (Standard: > 0,85) | Automatisch angewendet | Die Vorhersage wird automatisch ohne menschliche Prüfung angewendet. Die AI ist hochkonfident und die Vorhersage ist vertretbar. |
| Zwischen Prüf- und Auto-Akzeptanzschwelle (Standard: 0,50–0,85) | Zur Prüfung markiert | Die Vorhersage wird gespeichert, aber als 'needs_review' markiert. Ein menschlicher Prüfer muss sie genehmigen, korrigieren oder ablehnen, bevor sie angewendet wird. |
| Unter der Prüfschwelle (Standard: < 0,50) | Unbestimmt | Die AI konnte keine zuverlässige Vorhersage treffen. Das Dokument wird für die manuelle Kodierung durch einen Prüfer markiert. |
Beide Schwellen sind pro Klassifizierungssatz konfigurierbar, sodass Teams den Kompromiss zwischen Automatisierung und menschlicher Aufsicht entsprechend dem Risikoprofil der Prüfung anpassen können. Eine Prüfung mit hohem Risiko (z. B. Privileg-Prüfung) könnte eine niedrigere Auto-Akzeptanzschwelle (0,95) verwenden, um mehr menschliche Prüfung sicherzustellen, während eine routinemäßige Dokumententypklassifizierung eine höhere Schwelle (0,80) verwenden könnte, um die Automatisierung zu maximieren.
Konfidenzkalibierung (Debiasing)
LLMs sind bekannt dafür, systematisch überconfident zu sein — sie neigen dazu, Konfidenzwerte von 0,90 oder 0,95 anzugeben, auch wenn ihre tatsächliche Genauigkeit eher bei 0,80–0,85 liegt. Dies ist besonders problematisch im eDiscovery-Bereich, wo Konfidenzschwellen Prüfentscheidungen steuern.
Dezcry wendet empirisches Konfidenz-Debiasing an — eine Kalibrierungsschicht, die rohe LLM-Konfidenzwerte anpasst, um die tatsächliche Genauigkeit besser widerzuspiegeln. Die Kalibrierung ist:
- Monoton — höhere Rohkonfidenz erzeugt immer höhere kalibrierte Konfidenz (Rangfolge wird beibehalten)
- Deterministisch — derselbe Eingabewert erzeugt immer denselben Ausgabewert (in regulatorischen Kontexten vertretbar)
- Konservativ — zieht überconfidente Werte systematisch in Richtung empirischer Genauigkeitskurven
Die Kalibrierung basiert auf veröffentlichten Forschungsergebnissen zur LLM-Konfidenzkalibierung und wurde an eDiscovery-spezifische Genauigkeitsmessungen angepasst. Sie komprimiert den überconfidenten Bereich (0,85–0,99) aggressiver als den gut kalibrierten Niedrigkonfidenzbereich (0,05–0,50).
Verifikationsdurchlauf
Bei Vorhersagen, die in einen Grenzbereich der Konfidenz fallen (standardmäßig 0,35–0,70), löst Dezcry automatisch einen Verifikationsdurchlauf aus — einen zweiten Klassifizierungsversuch mit einer anderen Modellbereitstellung. Dieser fungiert als Qualitätskontrollebene:
- Der Verifikationsdurchlauf verwendet eine andere Prompt-Persona ("QC-Prüfer"), um die ursprüngliche Klassifizierung zu hinterfragen
- Er verwendet eine separate Modellbereitstellung für Modellvielfalt, um korrelierte Fehler zu reduzieren
- Wenn die Verifikation mit dem ersten Durchlauf übereinstimmt, werden die Konfidenzwerte gemittelt (was die endgültige Konfidenz typischerweise erhöht)
- Wenn die Verifikation nicht übereinstimmt, wird der niedrigere Konfidenzwert verwendet, die Klassifizierung der Verifikation übernommen und das Ergebnis zwingend zur menschlichen Prüfung markiert
Dokument-Chunking für lange Dokumente
Dokumente, die das Kontextbudget des Modells überschreiten (Standard: ca. 112.000 Zeichen), werden automatisch zur Verarbeitung in deterministische Abschnitte (Chunks) aufgeteilt. Das Chunking ist darauf ausgelegt, die Klassifizierungsgenauigkeit aufrechtzuerhalten:
- Satzgrenzen-bewusst — Chunks werden an Satzgrenzen aufgeteilt, nie mitten im Satz, um die semantische Kohärenz zu wahren
- Überlappend — benachbarte Chunks teilen ca. 200 Zeichen Überlappung, um die Kontextkontinuität über Chunk-Grenzen hinweg sicherzustellen
- Deterministisch — dasselbe Dokument erzeugt immer dieselben Chunks, was reproduzierbare Ergebnisse gewährleistet
- Fallback-Aufteilung — wenn ein einzelner Satz das Chunk-Limit überschreitet, wird auf eine Wortgrenzaufteilung mit Überlappung zurückgegriffen
Wenn ein Dokument in Chunks aufgeteilt wird, wird jeder Chunk unabhängig klassifiziert, und die Ergebnisse werden mithilfe eines gewichteten Abstimmungssystems aggregiert:
- Die Vorhersage jedes Chunks wird mit seinem Konfidenzwert gewichtet
- Chunks, die Null zurückgeben (kein klassifizierbarer Inhalt), werden von der Abstimmung ausgeschlossen und nicht als Evidenz gezählt
- Die gewinnende Vorhersage wird durch den gesamten konfidenzgewichteten Score bestimmt, mit Stichentscheid durch die höchste Einzelchunk-Konfidenz
- Ein Einstimmigkeitsbonus erhöht die Konfidenz, wenn alle Chunks übereinstimmen; Uneinigkeit reduziert sie
- Eine Abweichungsstrafe wird angewendet, wenn ein abweichender Chunk eine hohe Konfidenz aufweist (≥ 0,70), mit einem Hinweis zur manuellen Prüfung
Wenn verschiedene Chunks eines Dokuments unterschiedliche Klassifizierungen ergeben, wird dies als Chunk-Uneinigkeit markiert und das Dokument automatisch zur menschlichen Prüfung weitergeleitet. Dies ist ein wichtiges Qualitätssignal — es deutet häufig darauf hin, dass ein Dokument gemischte Inhalte enthält (z. B. ein teilweise responsives Dokument, bei dem einige Abschnitte relevant und andere irrelevant sind). Die aggregierte Begründung enthält einen Hinweis auf die abweichenden Chunks und deren Konfidenzwerte.
Klassifizierungssätze verfolgen Durchläufe mit detaillierter Fortschrittsberichterstattung: Gesamtanzahl der Dokumente, verarbeitete Dokumente, aufgetretene Fehler und Token-Nutzung für die Kostenzuordnung. Abgeschlossene Durchläufe erstellen automatisch eine gespeicherte Suche mit den klassifizierten Dokumenten für die nachgelagerte Verarbeitung.
Klassifizierungsdurchläufe unterstützen Parallelverarbeitung — mehrere Dokumente werden gleichzeitig klassifiziert (Standard: 6 gleichzeitige LLM-Aufrufe), um den Durchsatz zu maximieren und dabei die AI-Ratenlimits einzuhalten. Durchläufe können jederzeit abgebrochen werden, und der Abbruch erfolgt sauber, nachdem das aktuelle Dokument fertig verarbeitet wurde.
Die Klassifizierungsfortschrittsansicht zeigt die Echtzeitverarbeitung mit einer Live-Konsole, dokumentenweise Ergebnisse einschließlich Konfidenzwerte sowie die geschätzte verbleibende Zeit. Sie können weiterarbeiten, während die Klassifizierung im Hintergrund läuft.
Vorhersagen prüfen
Nach Abschluss eines Klassifizierungsdurchlaufs können Prüfer die Ergebnisse einsehen. Jedes Dokument erhält für jedes konfigurierte Feld ein Ergebnis, das folgende Informationen enthält:
| Feld | Beschreibung |
|---|---|
| Vorhergesagter Wert | Die vom AI gewählte Klassifizierung für dieses Feld (z. B. 'Responsiv', 'Finanziell'). Null, wenn die AI keine Klassifizierung bestimmen konnte. |
| Konfidenzwert | Ein kalibrierter Wert von 0,0–1,0, der die Gewissheit der AI widerspiegelt. Debiased, um LLM-Überconfidence zu korrigieren. |
| Begründung | Eine kurze Erklärung in natürlicher Sprache, warum die AI diese Vorhersage getroffen hat, mit Bezug auf spezifische Inhalte im Dokument. |
| Prüfung erforderlich | Boolean-Flag — true, wenn die Konfidenz unter der Auto-Akzeptanzschwelle liegt, wenn Chunks nicht übereinstimmten oder wenn der Verifikationsdurchlauf die ursprüngliche Klassifizierung überschrieben hat. |
| Chunk-Anzahl | Wie viele Chunks das Dokument aufgeteilt wurde (1 für kurze Dokumente, die in ein einzelnes Kontextfenster passen). |
| Chunk-Uneinigkeit | Ob verschiedene Chunks des Dokuments unterschiedliche Vorhersagen ergaben — ein Signal dafür, dass das Dokument möglicherweise gemischte Inhalte enthält. |
| Verifikationsstatus | Ob der Verifikationsdurchlauf ausgelöst wurde und ob er mit der ursprünglichen Klassifizierung übereinstimmte oder nicht. |
Prüfer können folgende Aktionen für jede Vorhersage durchführen:
- Genehmigen — die Vorhersage der AI als endgültige Entscheidung für dieses Dokument und Feld akzeptieren
- Korrigieren — die Vorhersage der AI mit einem vom Prüfer gewählten anderen Wert überschreiben. Die Korrektur wird zusammen mit der ursprünglichen AI-Vorhersage für Prüfzwecke protokolliert.
- Ablehnen — die Vorhersage vollständig verwerfen, sodass das Feld für dieses Dokument unkodiert bleibt
Alle Prüfaktionen werden im Prüfpfad mit der Identität des Prüfers, dem Zeitstempel, der ursprünglichen AI-Vorhersage und der Entscheidung des Prüfers protokolliert. Dies liefert einen vertretbaren Nachweis, wie jede Klassifizierungsentscheidung getroffen wurde — ob durch AI mit menschlicher Genehmigung, durch menschliche Korrektur eines AI-Vorschlags oder durch rein manuelle Kodierung.
Prävalenz-Sampling
Bei großen Dokumentenmengen unterstützt Dezcry das Prävalenz-Sampling — die Klassifizierung einer statistisch repräsentativen Teilmenge von Dokumenten, bevor ein vollständiger Durchlauf gestartet wird. Dies ermöglicht Teams:
- Zu validieren, dass die Klassifizierungsanweisungen genaue Ergebnisse liefern, bevor die gesamte Menge verarbeitet wird
- Die Prävalenz jeder Kategorie in der Sammlung zu schätzen (z. B. 'ca. 30 % der Dokumente sind responsiv')
- Präzisions- und Recall-Metriken zu berechnen, indem AI-Vorhersagen mit der manuellen Kodierung der Stichprobe verglichen werden
- Anweisungen auf Basis der Stichprobenergebnisse zu verfeinern, bevor die vollständige Klassifizierung gestartet wird
Sampling-Ergebnisse werden als ClassificationSample-Datensätze gespeichert, wobei sowohl die AI-Vorhersage als auch die manuell kodierte Grundwahrheit für Qualitätsmessungen und Nachvollziehbarkeit aufbewahrt werden.
KI-Schwärzung
Überblick
KI-Schwärzung ist Dezcry's Kernfunktion — eine 5-stufige Erkennungspipeline, die personenbezogene Daten, sensible Inhalte und rechtlich geschütztes Material zur Schwärzung identifiziert. Das System ist als Unterstützung für Prüfer konzipiert, nicht als autonomes Werkzeug: Jeder KI-Vorschlag kann überprüft, bearbeitet und protokolliert werden, bevor er angewendet wird.
Die Schwärzung wird durch Large Language Models innerhalb derselben Azure-Umgebung ausgeführt. Es werden keine Dokumentdaten an Drittanbieter gesendet. Die Pipeline kombiniert deterministische Mustererkennung mit LLM-Analyse und dokumentübergreifender Entitätsauflösung für umfassende Abdeckung.
Schwärzungstypen
Dezcry unterstützt drei Schwärzungsprotokolle, die jeweils auf unterschiedliche Anwendungsfälle zugeschnitten sind:
| Typ | Zweck | Konfiguration |
|---|---|---|
| DSAR | Entfernung der personenbezogenen Daten der betroffenen Person aus offenzulegenden Dokumenten. Verwendet einen Whitelist-Ansatz — Sie geben den Namen, die E-Mail-Adressen und Telefonnummern der betroffenen Person an, und die KI identifiziert alle Vorkommen. | Vor-/Nachname der betroffenen Person, bekannte E-Mail-Adressen, bekannte Telefonnummern |
| Privileg | Identifizierung und Schwärzung rechtlich geschützter Kommunikation (Anwalt-Mandanten-Privileg, Work-Product-Doktrin). Verwendet Domain- und Schlüsselwortfilterung zur Erkennung geschützten Materials. | Privilegierte Personen, Kanzlei-Domains, Privileg-Schlüsselwörter, benutzerdefinierte Anweisungen |
| Ad Hoc | Benutzerdefinierte Schwärzung mit Freitextanweisungen. Verwenden Sie dies für jede Schwärzungsaufgabe, die nicht in die DSAR- oder Privileg-Vorlagen passt. | Freitextanweisungen, die beschreiben, was geschwärzt werden soll |
Schwärzungsmodelle
Beim Erstellen eines Schwärzungssatzes wählen Sie aus, welche Entitätskategorien die KI erkennen soll. Jede Kategorie hat eine eigene Farbe zur visuellen Unterscheidung in der Prüfoberfläche:
| Modell | Beschreibung | Farbe |
|---|---|---|
| Namen | Personennamen, Vor-/Nachnamen, Initialen, Spitznamen | Rot |
| E-Mails | E-Mail-Adressen | Orange |
| Telefonnummern | Telefonnummern, Faxnummern, Mobilnummern | Bernstein |
| Identifikatoren | SSN, Reisepassnummern, Führerscheinnummern, nationale Ausweise | Grün |
| Beschäftigung | Berufsbezeichnungen, Mitarbeiternummern, Gehaltsinformationen, Berufserfahrung | Blau |
| Unternehmens-IDs | Handelsregisternummern, Steuer-IDs, ABN/ACN | Lila |
| Standorte | Postanschriften, Postleitzahlen, GPS-Koordinaten | Magenta |
| Politische Meinungen | Politische Zugehörigkeiten, Parteimitgliedschaft, Wahlverhalten | Helllila |
| Gesundheitsinformationen | Krankheiten, Behandlungen, Diagnosen, Medikamente | Rot |
| Sexuelle Orientierung | Geschlechtsidentität, Details zur sexuellen Orientierung | Rosa |
| Finanzdaten | Bankkontonummern, Kreditkartennummern, Finanzdaten | Grün |
| Auth Credentials | Passwörter, PINs, API-Schlüssel, Sicherheitstoken | Cyan |
| Familiäre Beziehungen | Verwandtschaftsverhältnisse, Unterhaltsberechtigte, Familiendetails | Hellrot |
| Geräte-IDs | IP-Adressen, MAC-Adressen, Gerätekennungen | Hellblau |
Sensible Kategorien — Gesundheitsinformationen, sexuelle Orientierung,politische Meinungen und Auth Credentials — verwenden einen niedrigeren Standard-Schwellenwert für die automatische Anwendung (0,70), um eine konservativere Behandlung sicherzustellen.
5-stufige Pipeline
Dezcry verarbeitet jedes Dokument durch eine 5-stufige Schwärzungspipeline, die mehrere Erkennungsmethoden für umfassende Abdeckung kombiniert:
| Stufe | Name | Methode | Beschreibung |
|---|---|---|---|
| L1 | Musterscan | NER-Engine (deterministisch) | Mustererkennungs-Engine, die strukturierte personenbezogene Daten mittels Regex-Regeln und Named Entity Recognition erkennt. Bietet eine schnelle, deterministische Grundlage — erfasst E-Mail-Adressen, Telefonnummern, Kreditkartennummern und gängige Identifikatorformate. |
| L2 | KI-Analyse | Large Language Model | Der primäre KI-Erkennungsdurchlauf. Das LLM analysiert jedes Dokument unter Berücksichtigung der Ergebnisse aus L1 und L4 und identifiziert kontextuelle personenbezogene Daten, die allein durch Mustererkennung nicht gefunden würden — etwa natürlichsprachlich erwähnte Namen, implizite Beziehungen und sensible Inhalte. |
| L3 | KI-Gegenprüfung | Unabhängige LLM-Verifizierung | Eine unabhängige Verifizierungsstufe unter Verwendung eines separaten Modell-Deployments. Fungiert als 'Senior eDiscovery QA-Prüfer' — untersucht die L2-Ergebnisse kritisch, um Schwärzungseinträge zu bestätigen, abzulehnen oder hochzustufen. Erkennt falsch-positive Treffer und übersehene Einträge. |
| L4 | Quervergleich | Entity Resolution (algorithmisch) | Unscharfes Clustering von Entitätsvarianten über alle Dokumente im Umfang hinweg. Gruppiert verschiedene Schreibweisen und Formate derselben Entität (z. B. 'J. Smith', 'John Smith', 'john.smith@acme.com') in Cluster mit kanonischer Form. Gewährleistet konsistente Schwärzung über den gesamten Dokumentensatz. |
| L5 | Intelligente Weiterleitung | Confidence Routing (algorithmisch) | Leitet jeden Schwärzungseintrag basierend auf seinem Konfidenzwert weiter: Einträge mit hoher Konfidenz werden automatisch angewendet, Einträge mit mittlerer Konfidenz gelangen in die Prüfwarteschlange, und Einträge mit niedriger Konfidenz werden zur manuellen Überprüfung markiert. |
Die Stufen werden in folgender Reihenfolge ausgeführt: L4 (Entity Resolution) → L1 (Musterscan) → L2 (KI-Analyse) → L3 (Verifizierung) → L5 (Weiterleitung). L4 wird zuerst ausgeführt, um den Entitätsindex aufzubauen, der den nachfolgenden KI-Stufen als Kontext dient. Der Fortschritt wird pro Phase erfasst, mit Echtzeit-Statusaktualisierungen in der Benutzeroberfläche.
Schwärzungen überprüfen
Nachdem ein Schwärzungssatz verarbeitet wurde, navigieren Sie zur Seite Überprüfung, um die Vorschläge der KI zu begutachten und freizugeben. Die Prüfwarteschlange stellt jede erkannte Entität mit folgenden Informationen dar:
- Originaltext — der genaue Text, den die KI zur Schwärzung identifiziert hat
- Modellkategorie — der Entitätstyp (Namen, E-Mails usw.) mit farbcodiertem Badge
- Quellstufe — welche Pipeline-Stufe die Erkennung vorgenommen hat (L1, L2, L3, L4)
- Konfidenzwert — wie sicher die KI ist, dass es sich um eine echte Entität handelt
- Verifizierungsstatus — bestätigt, abgelehnt, hochgestuft oder neu (aus L3)
- Seitenposition — die Seitennummer und Pixelkoordinaten innerhalb des Dokuments
Prüfer können die Warteschlange nach Stufe, Modellkategorie und Konfidenzschwellenwert filtern. Für jeden Eintrag stehen folgende Aktionen zur Verfügung:
- Genehmigen — die Schwärzung akzeptieren und auf das Dokument anwenden
- Ablehnen — den Vorschlag als falsch-positiv verwerfen
- Zur Überprüfung markieren — an einen leitenden Prüfer zur Zweitmeinung eskalieren
Die Prüfwarteschlange wird mit 100 Einträgen pro Seite paginiert. Alle Prüfentscheidungen werden im Prüfprotokoll mit Identität des Prüfers, Zeitstempel und durchgeführter Aktion protokolliert.
Manuelle Schwärzungen
Zusätzlich zur KI-gestützten Schwärzung können Prüfer manuell Schwärzungsrahmen auf jedem Dokument im Markup-Viewer einzeichnen. Manuelle Schwärzungen werden direkt auf die Markup-Bilder des Dokuments angewendet und zusammen mit KI-Schwärzungen im Prüfprotokoll erfasst.
Für Tabellendokumente bietet Dezcry einen spezialisierten Tabellen-Markup-Viewer, der Schwärzung auf Zellebene ermöglicht — Prüfer können einzelne Zellen oder Bereiche zur Schwärzung auswählen.
KI-Zusammenfassungen & Chat
Dokumentzusammenfassungen
Dezcry erstellt automatisch LLM-gestützte Zusammenfassungen für jedes Dokument in einer Angelegenheit. Die Zusammenfassungen bestehen aus 1–2 Sätzen und geben Prüfern einen schnellen Überblick, um Relevanz einzuschätzen, über Ein- oder Ausschluss zu entscheiden und große Prüfmengen effizienter zu bearbeiten.
Die Zusammenfassungen werden von einem dedizierten Sprachmodell auf GPU-Infrastruktur innerhalb derselben Azure-Umgebung generiert. Es werden keine Dokumentdaten an Drittanbieter gesendet. Zusammenfassungen werden im Hintergrund erstellt und sind zusammen mit dem Dokument im Metadatenpanel verfügbar.
- Zusammenfassungen werden beim Hochladen und während der Hintergrundnachverarbeitung automatisch generiert
- Die Zusammenfassungssprache ist pro Angelegenheit konfigurierbar (Englisch, Deutsch, Französisch, Spanisch usw.)
- Zusammenfassungen sind durchsuchbar und erscheinen im Dokument-Metadatenpanel
- Administratoren können die Neugenerierung von Zusammenfassungen für einzelne Dokumente oder Stapel auslösen
Dokumenten-Chat
Das Dokumenten-Chat-Panel bietet konversationelle KI für Fragen zu Dokumenten. Verfügbar über den Dokumenten-Viewer, nutzt der Chat Retrieval-Augmented Generation (RAG), um relevante Inhalte zu finden und präzise Antworten mit Quellenangaben zu generieren.
So funktioniert es:
- 1Stellen Sie eine Frage — Geben Sie eine natürlichsprachliche Frage im Chat-Panel ein (z. B. 'Welche Schlüsseldaten werden in diesem Dokument erwähnt?')
- 2Hybride Suche — Dezcry durchsucht relevante Inhalte sowohl mittels Schlüsselwortsuche (Elasticsearch) als auch semantischer Suche (Vektoreinbettungen) und kombiniert die Ergebnisse über Reciprocal Rank Fusion.
- 3KI generiert Antwort — Das LLM liest die relevanten Dokumentabschnitte und generiert eine Antwort mit Inline-Zitaten, die auf bestimmte Dokumente verweisen.
- 4Quellenverifizierung — Jede Antwort enthält anklickbare Quelldokument-Referenzen (z. B. [DOC-00028]), damit Prüfer die Antwort der KI verifizieren können.
Der Chat ist auf 20 Anfragen pro Minute pro Benutzer und 60 Anfragen pro Minute pro Angelegenheit begrenzt, um eine faire Ressourcenverteilung zwischen den Teams sicherzustellen.
KI-OCR
Überblick
KI-OCR (Optical Character Recognition) extrahiert durchsuchbaren Text aus bildbasierten Dokumenten — gescannten PDFs, Fotografien, Screenshots und anderen Bilddateien, die keinen eingebetteten Text enthalten. Dezcry verwendet die Azure Computer Vision Read API für eine hochpräzise Textextraktion.
OCR kann beim Hochladen automatisch aktiviert (als Verarbeitungsoption) oder nach der Aufnahme manuell für bestimmte Dokumente oder Stapel ausgeführt werden.
OCR ausführen
Navigieren Sie zur Seite KI-OCR innerhalb einer Angelegenheit, um OCR-Aufträge zu verwalten:
- 1Auftrag erstellen — Wählen Sie den Umfang — alle Dokumente oder eine gespeicherte Suche — und starten Sie den OCR-Auftrag.
- 2Verarbeitung — Dezcry sendet jedes Bilddokument an die Azure Computer Vision API zur Textextraktion. Der Fortschritt wird in Echtzeit mit 4-Sekunden-Abfrageintervallen verfolgt.
- 3Ergebnisse — Der extrahierte Text wird im Dokumentdatensatz gespeichert und ist sofort durchsuchbar. Ergebnisse pro Dokument umfassen extrahierte Seiten, extrahierte Zeichen, Konfidenzwerte und Verarbeitungsdauer.
Die Ergebnisse eines OCR-Auftrags verfolgen jedes Dokument einzeln mit folgenden Angaben:
- Extrahierte Seiten und Zeichen pro Dokument
- Status pro Dokument (abgeschlossen, fehlgeschlagen, übersprungen)
- Fehlermeldungen für fehlgeschlagene Dokumente
- Verarbeitungsdauer pro Dokument
Aufträge können während der Ausführung oder in der Warteschlange abgebrochen werden. Das KI-OCR-Dashboard zeigt aggregierte Kennzahlen: Gesamtaufträge, abgeschlossene Aufträge, aktive Aufträge und insgesamt verarbeitete Dokumente.
Passwort-Bank
Übersicht
Die Passwort-Bank speichert Passwörter und Zugangsdaten für verschlüsselte Dokumente innerhalb eines Vorgangs. Wenn geschützte Dateien (passwortgeschützte ZIPs, verschlüsselte PDFs, gesperrte Office-Dokumente) aufgenommen werden, versucht Dezcry automatisch, sie mit gespeicherten Passwörtern zu entschlüsseln.
Passwörter verwalten
- Bezeichnungen — lesbare Hinweise zur Identifizierung des Passwort-Zwecks (die Bezeichnung ist sichtbar, das Passwort selbst ist verborgen)
- Tags — Passwörter kategorisieren
- Nutzungsverfolgung — für jedes Passwort wird erfasst, wann es zuletzt verwendet wurde und wie oft es angewendet wurde
- Bearbeiten und Löschen — Passwörter aktualisieren oder entfernen mit Bestätigungsdialogen
Passwörter sind innerhalb des Vorgangs wiederverwendbar. Wenn neue Dokumente hochgeladen werden, werden alle Passwörter in der Passwortbank gegen verschlüsselte Dateien getestet. Die Upload-Zusammenfassung zeigt an, wie viele Dateien erfolgreich entschlüsselt wurden und wie viele fehlgeschlagen sind.
Export
Übersicht
Das Export-System von Dezcry erzeugt offenlegungsfertige Ausgabepakete mit Bates-Nummerierung, Metadaten-Ladedateien, eingebrannten Schwärzungen und vollständiger Entscheidungshistorie. Exporte werden über einen mehrstufigen Assistenten konfiguriert und können mit aktualisierten Einstellungen erneut ausgeführt werden.
Zwei Exporttypen werden unterstützt:
- Produktion — formelle Offenlegungspakete mit Bates-Nummerierung, gebrandeten Kopf-/Fußzeilen und strukturierter Volume-Organisation. Wird für behördliche Einreichungen und formelle DSAR-Antworten verwendet.
- Review — einfachere Pakete für die interne Überprüfung oder Weitergabe an externe Rechtsberater, ohne Anforderungen an Produktionsnummerierung.
Export-Assistent
Der Export-Assistent führt Sie durch einen 6-stufigen Konfigurationsprozess:
- 1Umfang — Wählen Sie aus, welche Dokumente exportiert werden sollen — alle Dokumente im Vorgang oder eine gespeicherte Suche.
- 2Name & Typ — Benennen Sie das Export-Set und wählen Sie den Typ Produktion oder Review.
- 3Ausgabekomponenten — Wählen Sie die einzuschließenden Ausgabetypen: Metadaten-Ladedatei, Native-Dateien, Bilder, Textdateien und/oder PDFs.
- 4Nummerierung & Branding — Konfigurieren Sie die Bates-Nummerierung (Präfix, Suffix, Startnummer, Auffüllung) und optionales Kopf-/Fußzeilen-Branding.
- 5Ladedatei & Volumes — Konfigurieren Sie das Format der Metadaten-Ladedatei, Zeichenkodierung, Datumsformate und Volume-Organisationseinstellungen.
- 6Überprüfen & Ausführen — Überprüfen Sie alle Einstellungen in einer Zusammenfassungsansicht und starten Sie den Export.
Umfangsauswahl
Der Exportumfang definiert, welche Dokumente im Ausgabepaket enthalten sind. Sie können wählen:
- Alle Dokumente — exportiert jedes Dokument im Vorgang
- Gespeicherte Suche — exportiert nur Dokumente, die einer zuvor gespeicherten Suchabfrage und Filtern entsprechen
Der Assistent zeigt eine Dokumentanzahl für den ausgewählten Umfang an, damit Sie das Volumen vor dem Fortfahren überprüfen können. Der Umfang wird zum Ausführungszeitpunkt eingefroren — neue Dokumente, die dem Vorgang nach dem Exportstart hinzugefügt werden, sind nicht enthalten.
Ausgabekomponenten
Wählen Sie die Ausgabetypen aus, die im Exportpaket enthalten sein sollen:
| Komponente | Beschreibung |
|---|---|
| Metadaten-Ladedatei | Eine strukturierte Datendatei (DAT, CSV oder HTML) mit allen Dokumentmetadaten, Entscheidungen und Bates-Nummern. Kompatibel mit Relativity, Concordance und anderen Review-Plattformen. |
| Native-Dateien | Originaldateien in ihrem nativen Format (DOCX, PDF, XLSX usw.) |
| Bilder | Gerenderte Dokumentbilder (einseitige oder mehrseitige TIFF) mit optionalen Opticon- oder iProrev-Ladedateien für die Bildquerverweiserfassung. |
| Textdateien | Extrahierter Klartext-Inhalt für jedes Dokument, nützlich für nachgelagerte Textanalysen oder Querverweise. |
| PDFs | Gerenderte PDF-Versionen jedes Dokuments, optional mit eingebrannten Schwärzungen und Bates-Nummern-Branding. |
Nummerierung & Branding
Produktionsexporte unterstützen Bates-Dokumentnummerierung:
| Einstellung | Beschreibung | Beispiel |
|---|---|---|
| Präfix | Text, der jeder Bates-Nummer vorangestellt wird | ACME- |
| Suffix | Text, der jeder Bates-Nummer angehängt wird | -PROD |
| Startnummer | Die erste Nummer in der Sequenz | 1 |
| Ziffern-Auffüllung | Nullauffüllung für den numerischen Teil | 7 → 0000001 |
| Nummerierungsmodus | Dokumentebene (eine Nummer pro Dokument) oder Seitenebene (eine Nummer pro Seite) | Dokumentebene |
| Seitentrennzeichen | Zeichen zwischen Dokumentnummer und Seitennummer im Seitenebenen-Modus | _ → ACME-0000001_001 |
| Anlagengruppierung | Elterndokumente und Anlagen fortlaufend nummerieren | Aktiviert |
| Sortierreihenfolge | Wie Dokumente für die Nummerierung sortiert werden (sequenziell, Familiengruppe oder nach Feld) | doc_seq |
Optionales Branding fügt Kopf- und Fußzeilen zur PDF-Ausgabe hinzu:
- Kopf- und Fußzeile mit linkem, mittlerem und rechtem Bereich
- Vorlagen-Token:
{BatesNumber},{PageX},{PageY} - Standard-Fußzeile: "CONFIDENTIAL"
Ladedateien & Volumes
Ladedatei-Einstellungen steuern das Ausgabeformat der Metadaten:
| Einstellung | Standard | Beschreibung |
|---|---|---|
| Format | DAT | Ladedateiformat — DAT (Concordance), CSV, HTML oder benutzerdefiniertes TXT |
| Kodierung | UTF-8 | Zeichenkodierung für die Ladedatei |
| Datumsformat | MM/dd/yyyy | Format für Datumsfelder in der Ladedatei |
| Zeitformat | HH:mm:ss | Format für Zeitfelder |
Volume-Einstellungen steuern die physische Organisation des Exportpakets:
| Einstellung | Standard | Beschreibung |
|---|---|---|
| Volume-Präfix | VOL | Präfix für Volume-Ordnernamen (VOL001, VOL002 usw.) |
| Startnummer | 1 | Erste Volume-Nummer |
| Ziffern-Auffüllung | 3 | Nullauffüllung für Volume-Nummern |
| Maximale Volume-Größe | 4500 MB | Maximale Größe pro Volume-Ordner vor der Aufteilung |
| Max. Dateien pro Ordner | 5000 | Maximale Anzahl Dateien in einem einzelnen Unterordner |
| Dateibenennung | Kontrollnummer | Wie Dateien benannt werden — nach Bates-/Kontrollnummer oder originalem Dateinamen |
Exporte herunterladen
Sobald ein Export-Durchlauf abgeschlossen ist, steht das Ausgabepaket zum Download bereit. Die Exportseite zeigt:
- Durchlaufstatus — wird ausgeführt, abgeschlossen, fehlgeschlagen oder abgebrochen
- Fortschritt — verarbeitete Dokumente im Verhältnis zur Gesamtzahl
- Ausgabegröße — Gesamtgröße des generierten Pakets
- Dauer — benötigte Zeit zur Erstellung des Exports
- Fehler- und Warnungsanzahl — aufgetretene Probleme pro Dokument
- Einstellungs-Snapshot — die exakte Konfiguration, die für diesen Durchlauf verwendet wurde
Die Schwärzungsintegration ermöglicht es Ihnen, Schwärzungen einzubrennen in die Exportausgabe. Wählen Sie ein abgeschlossenes Schwärzungs-Set und den Platzhalter-Modus:
- Keine — keine Schwärzungsplatzhalter (geschwärzte Bereiche werden einfach schwarz dargestellt)
- Klammern — geschwärzter Text wird durch Kategoriebeschriftungen in Klammern ersetzt
- Schwärzungsblock — durchgehend schwarze Felder über geschwärztem Inhalt
Alle Exportaktionen — Erstellung, Durchlaufstart, Download — werden im Prüfprotokoll protokolliert.
Prüfung & Berichtswesen
Prüfprotokoll
Jede bedeutende Aktion in Dezcry wird in einem unveränderlichen Prüfprotokoll erfasst, das einen belastbaren Nachweis für Regulierungsbehörden, rechtliche Überprüfung und interne Governance bietet. Das Prüfprotokoll erfasst:
| Kategorie | Erfasste Aktionen |
|---|---|
| Dokumente | Angesehen, hochgeladen, heruntergeladen, gelöscht, Zusammenfassungen neu generiert |
| Entscheidungen | Relevanz-Codierung aktualisiert, Massenentscheidungsänderungen, Tag-Änderungen |
| Schwärzungen (manuell) | Schwärzungsrahmen gezeichnet, aktualisiert oder gelöscht auf Dokumenten |
| Schwärzungsprüfung | KI-Schwärzungseinträge genehmigt, abgelehnt oder eskaliert |
| Schwärzungsaufträge | Sets erstellt/gelöscht, Durchläufe gestartet/abgeschlossen/abgebrochen/fehlgeschlagen |
| Klassifizierung | Sets erstellt/gelöscht, Durchläufe gestartet/abgeschlossen/abgebrochen/fehlgeschlagen |
| Export | Sets erstellt/aktualisiert/gelöscht/geklont, Durchläufe gestartet/abgebrochen, Downloads |
| Markierung | Vorschau- und Markierungsbilder generiert oder fehlgeschlagen |
| Downloads | PDF-Downloads, Massen-PDF-Downloads, geschwärzte Tabellen-Downloads |
| Suche | Gespeicherte Suchen erstellt, aktualisiert oder gelöscht |
| Chat | Nachrichten gesendet, Konversationen erstellt/aktualisiert/gelöscht |
| Indizierung | Dokumente indiziert, Vorgang neu indiziert, Index gelöscht |
| Authentifizierung | Anmeldung erfolgreich/fehlgeschlagen, Passwortänderungen, Kontosperrungen |
| Administration | Benutzer erstellt/aktualisiert, Rollen geändert, Vorgangszugriff gewährt/entzogen |
| Abrechnung | Nutzung neu berechnet, Rechnungen generiert |
Jeder Prüfprotokolleintrag enthält: den Aktionstyp, das Ziel (welches Dokument, Set oder welche Ressource betroffen war), die Benutzeridentität (wer die Aktion ausgeführt hat), den Zeitstempel und Details (umfangreicher Kontext einschließlich Dateinamen, Anzahlen, alter/neuer Werte). Das Prüfprotokoll ist filterbar nach Aktionstyp, Zieltyp, Benutzer und Datumsbereich, mit Paginierung von 50 Einträgen pro Seite.
Das Prüfprotokoll auf Vorgangsebene ist über die Prüfungsseite innerhalb jedes Vorgangs zugänglich. Das systemweite Prüfprotokoll steht Administratoren im Administrationsbereich zur Verfügung.
Berichts-Dashboard
Die Seite Berichtswesen bietet Analyse-Dashboards mit Visualisierungen über acht Registerkarten:
| Registerkarte | Metriken |
|---|---|
| Übersicht | Zusammenfassende KPIs — Dokumentanzahl, Abschlussquoten, Aktivitätsübersicht |
| Verarbeitung | Erfassungsstapel-Verlauf, Volumenwachstum über Zeit, Verarbeitungsdurchsatz |
| Schwärzung | Schwärzungsdurchläufe, erkannte Entitäten nach Modell, Schichtstatistiken, Abdeckungsraten |
| Klassifizierung | Klassifizierungsdurchläufe, Feldergebnisse, Konfidenzwert-Verteilungen |
| KI-Leistung | Token-Nutzung, Kostenzuordnung, Modellgenauigkeit und Qualitätsmetriken |
| Überprüfung | Tiefe der Überprüfungswarteschlange, ausstehende Elemente, Bearbeitungszeiten der Prüfer |
| Aktivität | Benutzeraktionstrends, Prüfprotokoll-Zusammenfassungen, Anzahl aktiver Prüfer |
| Exporte | Exportverlauf, Produktionsstatistiken, Lieferungsgrößen |
Die Dashboards umfassen KPI-Karten, Balkendiagramme, Liniendiagramme, Kreisdiagramme und Flächendiagramme. Berichte können als PDF mit eingebetteten Diagrammen, Vorgangsinformations-Kopfzeilen und Erzeugungszeitstempeln exportiert werden.
Abrechnung & Nutzung
Die Seite Abrechnung zeigt Speichernutzung und Kosten für jeden Vorgang an. Der Speicher ist in sieben Kategorien unterteilt:
| Kategorie | Beschreibung |
|---|---|
| Dokumente | Original hochgeladene Dateien in ihrem nativen Format |
| Extrahierter Text | Klartext, der während der Verarbeitung und OCR extrahiert wurde |
| Markierungsbilder | Gerenderte Seitenbilder für den Schwärzungsworkflow |
| Geschwärzte PDFs | PDF-Versionen mit eingebrannten Schwärzungen und Branding |
| Indizes | Elasticsearch-Suchindizes für den Vorgang |
| Einbettungen | Vektoreinbettungen für KI-Chat und semantische Suche |
| Sonstiges | Verschiedene Verarbeitungsartefakte |
Das Abrechnungs-Dashboard zeigt die aktuelle Nutzung (Gesamt-GB und prognostizierte monatliche Kosten), Speicheraufschlüsselung nach Kategorie, Nutzungsverlauf über Zeit und Rechnungsdetails. Die Preisgestaltung erfolgt pro GB mit regionalen Variationen und Mengenrabatten.
Verwaltung
Benutzerverwaltung
Die Seite Admin (zugänglich für die Rollen Admin und Super Admin) bietet eine zentrale Oberfläche zur Verwaltung aller Benutzer in der Organisation. Die Benutzerliste zeigt:
- E-Mail-Adresse und vollständiger Name
- Zugewiesene Rolle
- Kontostatus (aktiv, inaktiv, ausstehend, eingeladen, gesperrt, deaktiviert)
- 2FA/MFA-Aktivierungsstatus
- Datum der letzten Anmeldung
- Anzahl der Vorgangszuweisungen
Administratoren können nach E-Mail-Adresse oder Name suchen und nach Status oder Rolle filtern. Verfügbare Aktionen umfassen das Erstellen von Benutzern, Bearbeiten von Details, Ändern von Rollen, Versenden von Einladungen, Zurücksetzen von Passwörtern sowie das Aktivieren oder Deaktivieren von Konten.
Rollen & Berechtigungen
Dezcry verwendet ein hierarchisches rollenbasiertes Zugriffskontrollsystem (RBAC) mit vier Rollen. Die Rollen sind hierarchisch aufgebaut — jede Rolle erbt alle Berechtigungen der darunterliegenden Rollen. Die Zugriffskontrolle erfolgt auf zwei Ebenen: Rollenebene (welche Aktionen ein Benutzer plattformweit ausführen kann) und Vorgangsebene (auf welche spezifischen Vorgänge ein Benutzer zugreifen kann).
Rollenhierarchie
| Rolle | Beschreibung | Vorgangszugriff |
|---|---|---|
| Super Admin | Vollständige Plattformkontrolle. Kann alle Benutzer verwalten (einschließlich anderer Administratoren), Vorgänge löschen, systemweite Einstellungen konfigurieren und auf alle Funktionen zugreifen. Vorgesehen für Plattformeigentümer und IT-Administratoren. | Impliziter Zugriff auf alle Vorgänge im gesamten Mandanten — keine explizite Zuweisung erforderlich. |
| Admin | Verwaltung auf Organisationsebene. Kann Vorgänge erstellen, Benutzer einladen und verwalten, Benutzer zu Vorgängen zuweisen, Audit-Protokolle einsehen, die Passwortdatenbank verwalten und die Abrechnung konfigurieren. Kann keine Vorgänge löschen oder andere Administratoren verwalten. | Impliziter Zugriff auf alle Vorgänge im gesamten Mandanten — keine explizite Zuweisung erforderlich. |
| Reviewer | Die primäre Arbeitsrolle für Mitglieder des Rechts-, Datenschutz- und Compliance-Teams. Kann Dokumente hochladen, Dokumente prüfen und codieren, KI-Klassifizierungs- und Schwärzungsaufträge ausführen, Exporte erstellen und verwalten, gespeicherte Suchen verwalten und Suchbegriffberichte erstellen. | Muss jedem Vorgang explizit zugewiesen werden. Kann nur Vorgänge sehen und bearbeiten, für die der Zugriff gewährt wurde. |
| Read Only | Nur-Lese-Zugriff für Stakeholder, externe Berater oder Prüfer, die Einblick benötigen, aber keine Änderungen vornehmen sollen. Kann Dokumente durchsuchen, Metadaten einsehen, Berichte lesen, den Chat nutzen und Exporte herunterladen — kann jedoch keine Uploads durchführen, Änderungen vornehmen oder Aufträge ausführen. | Muss jedem Vorgang explizit zugewiesen werden. Kann nur Vorgänge sehen, für die der Zugriff gewährt wurde. |
Detaillierte Berechtigungsmatrix
Die folgende Tabelle zeigt die Mindestrolle, die für jede Aktion in der Plattform erforderlich ist. Höhere Rollen erben automatisch alle Berechtigungen niedrigerer Rollen.
| Funktionsbereich | Aktion | Mindestrolle |
|---|---|---|
| Vorgänge | Vorgänge anzeigen | Read Only |
| Vorgänge | Neue Vorgänge erstellen | Admin |
| Vorgänge | Vorgangseinstellungen aktualisieren | Admin |
| Vorgänge | Vorgänge löschen | Super Admin |
| Dokumente | Dokumente anzeigen und durchsuchen | Read Only |
| Dokumente | Dokumente hochladen | Reviewer |
| Dokumente | Entscheidungen, Tags und Codierung aktualisieren | Reviewer |
| Dokumente | Dokumente löschen | Admin |
| KI-Klassifizierung | Klassifizierungsergebnisse anzeigen | Read Only |
| KI-Klassifizierung | Sets erstellen und Klassifizierungsaufträge ausführen | Reviewer |
| KI-Schwärzung | Schwärzungsergebnisse anzeigen | Read Only |
| KI-Schwärzung | Sets erstellen, Aufträge ausführen und Einträge prüfen | Reviewer |
| Export | Export-Sets anzeigen und Pakete herunterladen | Read Only |
| Export | Export-Sets erstellen und Exporte ausführen | Reviewer |
| Suche | Gespeicherte Suchen anzeigen | Read Only |
| Suche | Gespeicherte Suchen erstellen und verwalten | Reviewer |
| Suchbegriffberichte | Suchbegriffberichte anzeigen | Read Only |
| Suchbegriffberichte | Berichte erstellen und ausführen | Reviewer |
| Chat / KI-Fragen&Antworten | Fragen stellen und Chatverlauf anzeigen | Read Only |
| Berichte | Analyse-Dashboards anzeigen | Read Only |
| Abrechnung | Abrechnung und Nutzung anzeigen | Read Only |
| Abrechnung | Abrechnungseinstellungen verwalten | Admin |
| Passwortdatenbank | Gespeicherte Passwörter anzeigen | Admin |
| Passwortdatenbank | Passwörter hinzufügen, bearbeiten und löschen | Admin |
| Audit-Protokoll | Vorgangs- und System-Audit-Protokolle anzeigen | Admin |
| Benutzerverwaltung | Benutzer anzeigen und verwalten | Admin |
| Benutzerverwaltung | Benutzer einladen und Rollen zuweisen | Admin |
| Systemverwaltung | Andere Administratoren verwalten, Vorgänge löschen, Systemkonfiguration | Super Admin |
Zugriffskontrolle auf Vorgangsebene
Der Zugriff auf einzelne Vorgänge wird getrennt von den Rollenberechtigungen gesteuert:
- Die Rollen Super Admin und Admin haben impliziten Zugriff auf jeden Vorgang im Mandanten. Sie müssen nicht explizit zugewiesen werden — sie können alle Vorgänge automatisch sehen und verwalten.
- Die Rollen Reviewer und Read Only erfordern eine explizite Zuweisung zu jedem Vorgang. Ein Administrator muss den Zugriff gewähren, indem er den Benutzer dem Vorgang zuweist. Bis zur Zuweisung ist der Vorgang für den Benutzer vollständig unsichtbar — er erscheint nicht in der Vorgangsliste und kann nicht über eine direkte URL aufgerufen werden.
Dieses zweistufige Modell ermöglicht es Organisationen, eine Aufgabentrennung und einen Need-to-know-Zugriff durchzusetzen. Beispielsweise kann ein Reviewer, der HR-DSARs bearbeitet, auf HR-bezogene Vorgänge beschränkt werden, während ein anderer Reviewer Kunden-DSARs bearbeitet — obwohl beide dieselbe Rolle haben, sehen sie völlig unterschiedliche Vorgangssets.
Mandantenisolierung
Alle Zugriffskontrollen operieren innerhalb einer Mandantengrenze. Jede Datenbankabfrage ist auf den Mandanten des authentifizierten Benutzers beschränkt, und jede Operation auf Vorgangsebene überprüft, dass der Vorgang zum selben Mandanten gehört. Ein mandantenübergreifender Zugriff ist architektonisch ausgeschlossen — es gibt keinen Mechanismus in der Anwendungsschicht, um auf Daten einer anderen Organisation zuzugreifen, selbst mit einer Super-Admin-Rolle.
Zugriff auf Dokumentenebene
Der Zugriff auf einzelne Dokumente folgt dem Zugriffsmodell auf Vorgangsebene. Wenn ein Benutzer Zugriff auf einen Vorgang hat, kann er alle Dokumente innerhalb dieses Vorgangs sehen (vorbehaltlich seiner Rollenberechtigungen für Anzeige vs. Bearbeitung). Es gibt keine Zugriffsbeschränkung auf Dokumentenebene — der Zugriff wird auf Vorgangsebene gesteuert, was dem Standardansatz in eDiscovery- und DSAR-Prüfungsworkflows entspricht, bei denen Reviewer den vollständigen Kontext eines Vorgangs sehen müssen, um nachvollziehbare Entscheidungen zu treffen.
Berechtigungen werden serverseitig bei jeder API-Anfrage durchgesetzt, nicht nur in der Benutzeroberfläche. Selbst wenn ein Benutzer das Frontend manipuliert oder API-Anfragen direkt erstellt, validiert das Backend dessen Rolle und Vorgangszugriff vor der Verarbeitung jeder Operation. Abgelehnte Anfragen erhalten eine strukturierte 403-Forbidden-Antwort mit einer klaren Erläuterung, warum der Zugriff verweigert wurde.
Benutzer einladen
Administratoren laden neue Benutzer ein, indem sie deren E-Mail-Adresse, Namen und zugewiesene Rolle angeben. Der Eingeladene erhält eine E-Mail mit einem einmalig verwendbaren Einladungslink, der durch folgende Schritte führt:
- 1Passwort festlegen — Erstellen Sie ein sicheres Passwort (mindestens 12 Zeichen, muss Groß- und Kleinbuchstaben sowie eine Zahl enthalten).
- 22FA konfigurieren — Scannen Sie einen QR-Code mit einer Authenticator-App (Google Authenticator, Authy usw.) und geben Sie den Bestätigungscode ein.
- 3Einrichtung abschließen — Das Konto wird aktiviert und der Benutzer kann sich anmelden.
Einladungslinks sind einmalig verwendbar und haben ein Ablaufdatum. Die Einladung protokolliert, wer sie erstellt hat, wann sie eingelöst wurde und die IP-Adresse des annehmenden Benutzers.
Admin-Dashboard
Das Admin-Dashboard bietet mandantenweite Analysen und operativen Überblick:
- Benutzerübersicht — Gesamt-, aktive, gesperrte, eingeladene Benutzer; 2FA-Adoptionsrate; Rollenverteilung; aktuell online befindliche Benutzer
- Vorgangsübersicht — Gesamtanzahl der Vorgänge; Statusverteilung (offen/geschlossen/archiviert); Typenverteilung; Dokumentenanzahl und Speicherverbrauch pro Vorgang
- Dokumentenübersicht — Gesamtanzahl der Dokumente; Gesamtspeicher; Statusverteilung; verschlüsselte, beschädigte und doppelte Dokumente
- Verarbeitungsstatus — Letzte Upload-Stapel; aktive Klassifizierungs-, Schwärzungs- und Exportläufe
- Speicheraufschlüsselung — Detaillierte Speichernutzung nach Kategorie über alle Vorgänge hinweg
- Letzte Audit-Aktivitäten — Neueste systemweite Audit-Einträge
System-Audit
Die Seite System-Audit im Verwaltungsbereich bietet eine mandantenweite Übersicht über alle Audit-Protokolleinträge über alle Vorgänge hinweg. Dies ermöglicht es Administratoren, die plattformweite Aktivität zu überwachen, Sicherheitsereignisse zu untersuchen und Compliance-Berichte zu erstellen. Die gleichen Filter- und Suchfunktionen des Audit-Protokolls auf Vorgangsebene stehen auch auf Systemebene zur Verfügung.
Sicherheit & Compliance
Datensicherheit
Dezcry wird vollständig auf Microsoft Azure gehostet und nutzt Azure Container Apps, Azure PostgreSQL und Azure Storage. Die gesamte Infrastruktur läuft innerhalb einer einzelnen Ressourcengruppe mit Isolierung auf Netzwerkebene. Der GPU-Worker-Dienst, der die KI-Inferenz durchführt, läuft mit ausschließlich internem Ingress und ist nicht über das öffentliche Internet erreichbar.
Die Plattform arbeitet mit einer logisch isolierten mandantenfähigen Architektur. Die Daten jeder Organisation — Dokumente, Metadaten, Reviewer-Entscheidungen und Audit-Protokolle — sind auf Anwendungs- und Datenbankebene getrennt. Hochgeladene Dateien werden in organisationsspezifischen Speicherpfaden abgelegt. Ein mandantenübergreifender Datenzugriff ist über die Anwendungsschicht nicht möglich.
Verschlüsselung
Alle Daten werden während der Übertragung mit TLS 1.2+ für alle Verbindungen zwischen Diensten, Speicher und der Datenbank verschlüsselt. Daten werden im Ruhezustand mit von Azure verwalteten Verschlüsselungsschlüsseln über Azure Storage Service Encryption und Azure-Datenbankverschlüsselung verschlüsselt. Hochgeladene Dateien, verarbeitete Ausgaben und Datenbankeinträge sind vollständig abgedeckt.
Datenresidenz
Dezcry unterstützt regionale Datenresidenz — jeder Vorgang kann in einer bestimmten Azure-Region gehostet werden, um lokale Datenschutzanforderungen zu erfüllen:
- Australia East — Standardregion
- Switzerland North — für Schweizer Datenschutzanforderungen
- Germany — für deutsche/EU-Datenresidenzanforderungen
- United Kingdom — für britische Datenschutzanforderungen
KI-Modelle werden regional bereitgestellt — australische Daten nutzen australische KI-Endpunkte, Schweizer Daten nutzen Schweizer Endpunkte und so weiter. Unternehmenskunden können die Bereitstellung in zusätzlichen Regionen oder dedizierten/On-Premises-Umgebungen besprechen.
KI-Datenverarbeitung
Dezcry betreibt eigene KI-Modelle für Schwärzung, Klassifizierung und Zusammenfassung. Es werden keine Dokumentendaten an KI-Dienste Dritter gesendet. Die gesamte KI-Inferenz erfolgt innerhalb derselben Azure-Umgebung wie der Rest der Plattform:
- Klassifizierung und Schwärzung nutzen große Sprachmodelle, die innerhalb der Azure-Umgebung bereitgestellt werden
- Chat und Zusammenfassungen nutzen ein dediziertes Sprachmodell, das auf der GPU-Infrastruktur läuft
- Embeddings werden auf der CPU innerhalb derselben Container-Umgebung generiert
KI-gestützte Schwärzung ist als Unterstützungswerkzeug für Prüfer konzipiert, nicht als autonomes System. Die KI identifiziert wahrscheinlich sensible Inhalte für die menschliche Prüfung. Prüfer genehmigen, lehnen ab oder bearbeiten jeden Vorschlag, bevor er angewendet wird. Alle KI-generierten Vorschläge und Prüferentscheidungen werden im Audit-Trail protokolliert.
Kundendaten werden niemals zum Trainieren oder Feinabstimmen von Modellen verwendet, die mandantenübergreifend geteilt werden.