Documentation

Plateforme Dezcry
Documentation

Tout ce que vous devez savoir sur l'utilisation de Dezcry — de l'ingestion des documents jusqu'a l'export pret pour la divulgation.

Premiers pas

Apercu de la plateforme

Dezcry est une plateforme eDiscovery en libre-service, dotee d'intelligence artificielle, destinee aux equipes chargees de la confidentialite, des affaires juridiques et de la conformite. Elle offre un flux de travail complet pour ingerer des documents, examiner les elements pertinents, appliquer des caviardages assistes par IA, classifier des documents, effectuer des recherches et exporter des ensembles prets a la divulgation — le tout avec une piste d'audit complete et des controles d'acces bases sur les roles.

Contrairement aux suites eDiscovery lourdes, Dezcry est concue pour les equipes internes qui ont besoin d'un processus rationnel et defensable, sans administrateurs eDiscovery specialises ni assistance externalisee pour la revue. Tous les modeles d'IA s'executent sur une infrastructure interne au sein du meme environnement Azure — aucune donnee de document n'est envoyee a des services d'IA tiers.

Fonctionnalites principales
  • Ingestion de plus de 100 types de fichiers, dont PST, EML, ZIP, Office, PDF, images, audio et video
  • Deduplication automatique, regroupement des fils de messagerie et filtrage NIST
  • Caviardage assiste par IA avec un pipeline de detection a 5 couches
  • Classification assistee par IA avec des champs personnalises et un score de confiance
  • Recherche par mots cles de niveau eDiscovery (propulsee par Elasticsearch, equivalent dtSearch)
  • Resumes de documents et questions-reponses conversationnelles bases sur un LLM
  • OCR par IA pour les documents a forte teneur en images
  • Export pret pour la production avec numerotation Bates, fichiers de chargement et caviardages integres
  • Piste d'audit complete consignant chaque action pour la defensabilite reglementaire
  • Controle d'acces base sur les roles avec des permissions au niveau du dossier

Concepts cles

ConceptDescription
DossierUn conteneur pour un seul DSAR ou une seule enquete. Tous les documents, caviardages, classifications, exports et journaux d'audit sont limites a un dossier. Les dossiers ont un code unique, un nom de client, un type et un statut.
DocumentUn seul fichier au sein d'un dossier — un e-mail, une piece jointe, un PDF, une feuille de calcul, une image, un fichier audio ou video. Chaque document dispose d'un texte extrait, de metadonnees, d'un apercu et peut porter les decisions des reviseurs.
FamilleUn groupe de documents lies — generalement un e-mail et ses pieces jointes. L'e-mail parent et les pieces jointes enfants partagent un identifiant de famille pour une revue groupee.
DepositaireLa personne ou la source de donnees a partir de laquelle les documents ont ete collectes. Suivi par lot de telechargement a des fins de chaine de traçabilite.
Recherche enregistreeUne requete reutilisable avec des filtres pouvant servir de perimetre pour le caviardage, la classification, l'export ou les rapports de termes de recherche.
Ensemble de caviardageUn traitement de caviardage par IA par lots qui fait passer un perimetre de documents par le pipeline a 5 couches, produisant des entrees de caviardage pour la revue.
Ensemble de classificationUn traitement de classification par IA par lots qui applique des champs de decision personnalises aux documents avec un score de confiance.
Ensemble d'exportUn modele d'export configure avec des parametres de numerotation, d'image de marque et de sortie, produisant des packages prets a la divulgation.
Journal d'auditUn enregistrement immuable de chaque action significative effectuee dans la plateforme, fournissant une piste defensable pour les autorites de reglementation.

Connexion

Acces a la page de connexion de votre instance Dezcry et saisissez votre adresse e-mail et votre mot de passe. Si votre organisation a active l'authentification a deux facteurs (2FA), vous serez invite a saisir un mot de passe a usage unique base sur le temps (TOTP) depuis votre application d'authentification apres avoir saisi vos identifiants.

Si vous avez ete invite a rejoindre Dezcry, vous recevrez un e-mail contenant un lien d'invitation unique. Cliquez sur le lien pour configurer votre mot de passe et activer la 2FA. Les liens d'invitation sont a usage unique et expirent apres une periode definie.

Gestion des sessions

Les sessions expirent automatiquement apres 30 minutes d'inactivite. Votre jeton de session est renouvele automatiquement toutes les 20 minutes lorsque vous etes actif. Si votre session expire, une superposition plein ecran vous invitera a vous reconnecter — tout travail en cours non sauvegarde est conserve dans votre navigateur.

Dossiers

Creer un dossier

Un dossier est le conteneur de premier niveau dans Dezcry. Chaque DSAR, enquete ou projet de revue est organise en tant que dossier distinct avec ses propres documents, flux de travail, utilisateurs et piste d'audit.

Pour creer un dossier, acces a la page Dossiers et cliquez sur Creer un dossier (role administrateur requis). Il vous sera demande de fournir :

ChampDescription
NomUn nom descriptif pour le dossier (par ex. "Smith DSAR - T1 2025").
Code du dossierUn code alphanumerique unique de 6 caracteres, genere automatiquement mais modifiable.
Nom du clientL'organisation ou le client auquel le dossier se rapporte.
Type de dossierL'un des suivants : DSAR, Enquete, Contentieux, Cyber ou Autre.
DescriptionDescription facultative detaillee du perimetre et des objectifs du dossier.
Langue des resumesLa langue des resumes generes par IA (par ex. anglais, allemand, francais).
Lieu d'hebergementLa region Azure pour la residence des donnees (par ex. Australie, Suisse, Allemagne, Royaume-Uni).

Tableau de bord du dossier

Cliquer sur un dossier vous amene au tableau de bord du dossier — l'espace de travail central pour ce dossier. Le tableau de bord affiche un tableau consultable et filtrable de tous les documents du dossier, ainsi que l'acces a toutes les fonctionnalites du dossier via la navigation dans la barre laterale :

  • Documents — parcourir, rechercher, filtrer et examiner tous les documents
  • Telechargement — ingerer de nouveaux documents dans le dossier
  • Caviardage — creer et gerer les ensembles de caviardage par IA
  • Classification — configurer et executer les traitements de classification par IA
  • Export — construire et executer des packages d'export prets a la divulgation
  • Termes de recherche — creer des ensembles de termes de recherche par mots cles et des rapports
  • AI OCR — executer la reconnaissance optique de caracteres sur les documents images
  • Coffre-fort de mots de passe — gerer les mots de passe des fichiers chiffres
  • Audit — consulter la piste d'audit complete de ce dossier
  • Rapports — consulter les tableaux de bord analytiques et les indicateurs
  • Facturation — consulter l'utilisation du stockage et les couts de ce dossier

Le tableau des documents prend en charge les actions groupees — selectionnez plusieurs documents pour appliquer des operations par lots telles que l'etiquetage, la classification ou les changements de statut. Un panneau des taches en arriere-plan affiche l'etat de toutes les taches en cours (caviardage, classification, export) dans le dossier.

Parametres du dossier

Les parametres du dossier controlent le comportement des fonctionnalites IA et des flux de travail des reviseurs au sein du dossier. Les administrateurs peuvent configurer :

  • Summary language — la langue utilisee pour les resumes de documents generes par l'IA.
  • Matter status — ouvert, clos ou archive. Les dossiers clos sont en lecture seule ; les dossiers archives sont masques dans la vue par defaut.

Ingestion de documents

Televersement de documents

Acces a la page Upload au sein d'un dossier pour ingerer des documents. Dezcry prend en charge le televersement par glisser-deposer ou par selection de fichiers classique. Vous pouvez televerser des fichiers individuels ou des fichiers conteneurs (PST, ZIP, 7Z, RAR, TAR, GZ) qui seront extraits automatiquement.

Avant le debut du traitement, configurez les options suivantes :

OptionDescription
Deduplication ModeChoisissez 'Global' pour identifier et signaler automatiquement les fichiers en double dans l'ensemble du dossier via le hachage SHA-256. Les doublons sont conserves mais marques, ce qui reduit le temps de revision.
NIST FilteringActivez cette option pour filtrer automatiquement les fichiers systeme et d'execution connus (provenant de la NIST National Software Reference Library) qui ne sont jamais pertinents pour la revision.
OCRActivez cette option pour executer la reconnaissance optique de caracteres sur les documents bases sur des images, en extrayant le texte consultable depuis les PDF numerises, les photographies et les fichiers image.
Email ThreadingActivez cette option pour regrouper les e-mails lies en fils de conversation, en identifiant les messages 'inclusifs' (contenant du contenu unique) par opposition aux doublons non inclusifs.
Inclusive OnlyLorsque le threading des e-mails est active, exclure en option les e-mails non inclusifs de l'espace de travail de revision afin de reduire le volume.

Vous pouvez egalement specifier des informations de custodian et des metadonnees de source de donnees pour le suivi de la chaine de custody. Les sources de donnees disponibles sont : Laptop, Desktop, Server, O365 Email, O365 OneDrive, SharePoint, Google Workspace, Mobile Device, External Hard Drive, USB Drive, Network Share, Cloud Storage, Backup Tape, Database et Other.

Types de fichiers pris en charge

Dezcry prend en charge plus de 100 types de fichiers par defaut. Lors de l'ingestion, tous les fichiers sont extraits, leur contenu textuel est analyse, les metadonnees sont capturees et ils sont indexes pour la recherche.

CategoryFormats
EmailPST, OST, EML, MSG, MBOX
DocumentsDOCX, DOC, PDF, RTF, TXT, ODT
SpreadsheetsXLSX, XLS, CSV, ODS
PresentationsPPTX, PPT, ODP
ArchivesZIP, RAR, 7Z, TAR, GZ
ImagesPNG, JPG, JPEG, TIFF, BMP, GIF (avec OCR)
AudioMP3, WAV, M4A, OGG, FLAC
VideoMP4, AVI, MOV, MKV, WEBM
Web / DataHTML, XML, JSON, CSV

Deduplication

Lorsque la deduplication globale est activee, Dezcry effectue une deduplication exacte de premier niveau — l'approche standard utilisee en eDiscovery. Il s'agit d'une distinction importante : Dezcry identifie et supprime les fichiers identiques octet par octet sur la base de leur hachage MD5, mais le fait au premier niveau de la hierarchie documentaire.

Signification de la deduplication 'de premier niveau'

En eDiscovery, la deduplication 'de premier niveau' signifie que la deduplication est appliquee aux documents autonomes et aux conteneurs parents (e-mails, archives) plutot qu'aux pieces jointes individuelles ou aux elements enfants de maniere isolee. Lorsqu'un fichier de premier niveau est identifie comme un doublon, le document entier et sa famille (y compris toutes les pieces jointes) sont supprimes ensemble, preservant ainsi l'integrite des familles de documents.

Cela differe de la deduplication 'au niveau des pieces jointes', qui supprimerait independamment les pieces jointes individuelles apparaissant dans plusieurs e-mails. La deduplication de premier niveau preserve le contexte complet de chaque e-mail et de ses pieces jointes en tant qu'unite, ce qui est essentiel pour une revision defensible — un reviseur voit toujours l'e-mail complet avec toutes ses pieces jointes intactes, sans jamais obtenir une famille partielle.

Elle differe egalement de la quasi-deduplication, qui identifie les fichiers similaires mais non identiques (par exemple, differentes versions d'un meme document). La deduplication de Dezcry's est strictement une correspondance exacte — seuls les fichiers identiques octet par octet sont signales.

La deduplication est etendue globalement a l'ensemble du dossier, ce qui signifie qu'un fichier televerse par un custodian sera deduplique par rapport aux fichiers de tous les autres custodians du meme dossier. La premiere instance ingeree est conservee en tant que document maitreet toutes les copies identiques subsequentes sont supprimees. Les resultats de la deduplication comprennent :

  • Document maitre — la premiere instance de chaque fichier unique, conservee dans l'ensemble de revision avec les metadonnees completes et les relations familiales
  • Groupe de doublons — toutes les copies du meme fichier, reliees au document maitre a des fins d'audit
  • Octets economises — economies de stockage totales realisees en supprimant les copies en double
  • Suivi des custodians — le systeme enregistre quels custodians detenaient des copies de chaque fichier deduplique, preservant les informations de chaine de custody meme si les copies en double sont supprimees de l'ensemble de revision actif

Le rapport de synthese du televersement detaille chaque groupe de doublons avec les noms de fichiers, les tailles et la reference au document maitre. Cela fournit un enregistrement defensible de ce qui a ete deduplique et pour quelle raison.

Threading des e-mails

Le threading des e-mails regroupe les e-mails lies en fils de conversation, en identifiant la chaine de reponse hierarchique. Le threading est applique au moment de l'ingestion, ce qui signifie que les e-mails non inclusifs sont identifies et peuvent etre exclus de l'espace de travail de revision avant tout traitement en aval. Il s'agit d'un choix de conception delibere — en filtrant les e-mails redondants en amont, les organisations realisent des economies substantielles sur les couts d'hebergement (moins de stockage, index de recherche plus petits) et sur les couts de traitement par IA (moins de documents a classer, biffer et resumer).

Chaque e-mail d'un fil est classe comme suit :

  • Inclusif — contient un contenu unique ou des pieces jointes absentes des messages ulterieurs du fil. Ce sont les messages sur lesquels les reviseurs doivent se concentrer, car ils representent la version la plus complete de chaque point de la conversation.
  • Non inclusif — le contenu complet de cet e-mail est deja contenu dans un message ulterieur et plus complet du fil. La revision de ces messages serait redondante, car le message inclusif capture deja tout.

Lorsque l'option Inclusive Only est activee lors du televersement, les e-mails non inclusifs sont entierement exclus de l'espace de travail de revision actif. Ils sont toujours conserves dans le systeme a des fins d'audit, mais ils ne sont pas comptabilises dans le stockage d'hebergement, ne sont pas indexes pour la recherche et ne sont pas traites par la classification, la biffer ou le resume par IA — ce qui reduit directement les couts.

Le threading utilise les en-tetes des e-mails (Message-ID, In-Reply-To, References) et l'index de conversation Microsoft Exchange pour construire des arborescences de fils precises. Le rapport de synthese du threading indique :

  • Nombre total d'e-mails traites et combien etaient threadables
  • Nombre de messages inclusifs et non inclusifs
  • E-mails non inclusifs exclus de l'espace de travail de revision
  • Groupes de fils identifies
  • Toute erreur de threading rencontree

Filtrage NIST

Le filtrage NIST supprime de l'ensemble de revision les fichiers systeme connus, les composants du systeme d'exploitation et les fichiers d'execution logicielle. Ces fichiers sont identifies en faisant correspondre leurs valeurs de hachage avec la NIST National Software Reference Library (NSRL) — une base de donnees complete de fichiers systeme connus et non pertinents.

Les fichiers filtres par NIST sont marques et exclus de l'espace de travail de revision actif, mais sont conserves dans le systeme a des fins d'audit. Le rapport de synthese du televersement indique le nombre et les details des fichiers filtres.

Exceptions de traitement

Lors de l'ingestion, certains documents peuvent rencontrer des exceptions de traitement. Dezcry les suit et les signale dans le rapport de synthese du televersement :

Exception TypeDescription
EncryptedFichiers proteges par mot de passe qui n'ont pas pu etre dechiffres. Ajoutez les mots de passe au Password Bank et relancez le traitement.
CorruptFichiers malformes, tronques ou autrement illisibles.
Unsupported FormatTypes de fichiers que Dezcry ne prend pas actuellement en charge pour l'extraction de texte.
Text Extraction FailedFichiers dont le contenu n'a pas pu etre extrait malgre un format pris en charge.

Chaque exception inclut l'ID du document, le nom de fichier, le type d'exception et un message descriptif pour aider a diagnostiquer et a resoudre le probleme.

Lots de televersement

Chaque televersement cree un lot de traitement avec un identifiant d'affichage unique (par exemple, UPL-001). Acces a la page Uploads pour consulter tous les lots du dossier, notamment :

  • Statut du lot (en cours de traitement, termine, echoue)
  • Nombre total de fichiers soumis et traites
  • Comptages par resultat (traites avec succes, chiffres, corrompus, doublons, filtres NIST)
  • Resultats du dechiffrement (reussi, echoue)
  • Elements enfants extraits (pieces jointes des fichiers conteneurs)
  • Distribution des types de fichiers
  • Duree du traitement
  • Hachage MD5 du lot de televersement pour la verification de la chaine de custody

Cliquez sur un lot pour consulter le rapport de traitement detaille, incluant les details des exceptions par document, les groupes de deduplication et les statistiques de threading.

Cliquez sur n'importe quel lot pour consulter le rapport de traitement detaille, incluant les details des exceptions par document, les groupes de deduplication et les statistiques de threading.

Examen des documents

Liste des documents

L'espace de travail principal de l'affaire affiche tous les documents dans un tableau consultable et triable. Chaque ligne indique le nom de fichier, le type, le statut, la taille, le depositaire ainsi que les tags ou decisions appliques. Fonctionnalites principales :

  • Recherche plein texte — recherche par mot-cle dans le contenu des documents, les noms de fichiers et les metadonnees des emails via Elasticsearch de niveau eDiscovery
  • Filtres de colonnes — filtrage par statut, type de fichier, depositaire, plages de dates, tags, codage de pertinence et champs de decision personnalises
  • Selection en masse — selection de plusieurs documents pour des operations par lot telles que le tagging, le codage de decision ou l'export
  • Tri — tri selon n'importe quelle colonne, notamment le nom de fichier, la date, la taille, la pertinence ou le type
  • Recherches sauvegardees — sauvegarde de toute combinaison de requete et de filtres pour une reutilisation ulterieure

Visionneuse de documents

Cliquez sur n'importe quel document pour ouvrir la visionneuse complete. Celle-ci offre une interface multi-panneaux riche pour l'examen des documents individuels :

  • Affichage du document — rendu natif du document avec controles de zoom (0,25x a 3x)
  • Trois onglets de visualisation : Original (format natif), Balisage (avec superposition de caviardage) et Texte (texte brut extrait avec mise en surbrillance des recherches)
  • Panneau de metadonnees — proprietes du document, en-tetes d'email, empreintes de fichiers et informations de traitement
  • Panneau de decisions — definir la pertinence, le marquage de document important, les commentaires et les champs de decision personnalises
  • Panneau de famille — afficher les relations parent/enfant (par exemple, un email et ses pieces jointes)
  • Panneau de chat — poser des questions sur le document en utilisant l'IA
  • Navigation — boutons precedent/suivant avec raccourcis clavier pour un examen sequentiel rapide
Performance

La visionneuse de documents utilise un cache de prefetching qui precharge les documents adjacents (precedent et suivant) en arriere-plan. Cela permet une navigation quasi instantanee lors de l'examen sequentiel des documents. Le cache conserve jusqu'a 50 documents avec un TTL de 2 minutes.

Visionneuses de fichiers natifs

Dezcry inclut des visionneuses dediees pour chaque type de fichier pris en charge, rendant les documents directement dans le navigateur sans necessiter de plugins ni de telechargements :

VisionneuseTypes de fichiersFonctionnalites
Visionneuse PDFFichiers PDFRendu page par page, zoom, defilement, selection de texte, mise en surbrillance des recherches
Visionneuse d'imagesPNG, JPG, TIFF, BMP, GIFPanoramique et zoom, ajustement a la largeur/hauteur, affichage pleine resolution
Visionneuse DOCXDocuments Word (DOCX)Rendu du texte formate avec styles, en-tetes, listes et tableaux
Visionneuse PPTXPowerPoint (PPTX)Rendu diapositive par diapositive avec mises en page et mise en forme
Visionneuse de tableursXLSX, XLS, CSVOnglets multi-feuilles, en-tetes de colonnes/lignes, mise en forme des cellules, volets figes
Visionneuse de texteTXT, LOG, HTML, XML, JSONTexte avec coloration syntaxique, numeros de ligne et recherche
Lecteur audioMP3, WAV, M4ALecteur audio avec forme d'onde, controles de lecture et affichage des horodatages
Lecteur videoMP4, AVI, MOVLecteur video avec controles de lecture et mode plein ecran
Visionneuse de balisageTout document avec caviardagesRendu des superpositions de caviardage avec categories d'entites codees par couleur

Panneau de metadonnees

Le panneau de metadonnees affiche toutes les proprietes extraites du document en cours. Pour les fichiers email, cela inclut :

  • Les adresses De, A, CC, BCC
  • L'objet du message
  • La date d'envoi et la date de reception
  • Le Message-ID et les references de threading de conversation
  • Le nombre et la liste des pieces jointes

Pour tous les documents, le panneau de metadonnees affiche :

  • La taille du fichier, le type MIME et le type de document
  • Les empreintes MD5 et SHA-256 (pour la verification de l'integrite)
  • Les dates de creation et de modification
  • L'auteur (lorsque disponible dans les proprietes du document)
  • Le chemin du dossier source du conteneur d'origine
  • Le statut OCR et le resume IA (lorsque disponibles)
  • Le statut de traitement et les eventuels messages d'erreur

Panneau de decisions

Le panneau de decisions est l'endroit ou les examinateurs consignent leurs evaluations. Chaque decision est horodatee et enregistree dans la piste d'audit. Champs disponibles :

  • Pertinence — marquer le document comme Pertinent, Non pertinent ou selon d'autres valeurs personnalisees
  • Document important — signaler les documents importants ou significatifs pour y porter attention
  • Commentaire de decision — annotation en texte libre expliquant le raisonnement de l'examinateur
  • Champs de decision personnalises — tout champ supplementaire configure au niveau de l'affaire (selection unique, selection multiple ou texte libre)
Verrouillage optimiste

Dezcry utilise le verrouillage optimiste sur les decisions de documents afin d'eviter les conflits d'ecrasement lorsque plusieurs examinateurs travaillent sur la meme affaire. Chaque document suit un numero de version qui est incremente a chaque mise a jour. Si deux examinateurs tentent d'enregistrer des modifications sur le meme document simultanement, le second enregistrement recevra une erreur de conflit et sera invite a actualiser la page avant de reappliquer ses modifications.

Documents de famille

Les documents extraits de fichiers conteneurs (emails avec pieces jointes, archives ZIP) sont automatiquement regroupes en familles. Une famille se compose d'un document parent (p. ex. un e-mail) et de ses documents enfants (p. ex. les pieces jointes).

Le panneau de famille dans la visionneuse de documents affiche tous les documents associes, permettant aux examinateurs de naviguer rapidement entre un e-mail parent et ses pieces jointes. Les relations familiales sont preservees tout au long des workflows — les resultats de recherche peuvent inclure l'expansion des familles, et les exports peuvent regrouper les membres d'une meme famille.

Etiquetage

Les documents peuvent etre etiquetes avec des codes de pertinence et des valeurs de champs de decision personnalises. Les etiquettes sont definies via le panneau de decisions dans la visionneuse de documents ou par des actions groupees sur la liste de documents. Toutes les actions d'etiquetage sont consignees dans la piste d'audit avec l'identite de l'examinateur et l'horodatage.

Metadonnees

Vue d'ensemble

Chaque document verse dans un dossier dispose d'un ensemble riche de champs de metadonnees extraits automatiquement lors du traitement. Dezcry capture plus de 60 champs de metadonnees par document — couvrant tout, des proprietes de fichier de base et des en-tetes d'e-mail aux resumes generes par l'IA et aux decisions des examinateurs. Ces champs sont disponibles pour le filtrage, le tri, l'affichage en colonne, la recherche et l'export sur toute la plateforme.

Les metadonnees sont extraites au moment du versement sans aucun effort manuel. Pour les fichiers d'e-mail, Dezcry analyse tous les en-tetes standard, y compris les references de threading. Pour les documents Office et les PDF, les proprietes integrees telles que l'auteur, le titre et la date de creation sont capturees. Pour les images, les donnees EXIF incluant la marque de l'appareil photo, les coordonnees GPS et les horodatages sont preservees. Toutes les dates sont normalisees en UTC pour une analyse coherente entre les fuseaux horaires.

Pourquoi les metadonnees sont essentielles en eDiscovery

Les metadonnees sont essentielles pour des workflows de revision defensibles. Des champs comme les valeurs de hachage (MD5, SHA-256) garantissent l'integrite de la chaine de possession. Les champs de date permettent un filtrage precis par plage de dates afin de reduire les ensembles de revision. Les metadonnees de threading d'e-mail permettent aux examinateurs de se concentrer uniquement sur les messages inclusifs. Et le suivi des depositaires sur les doublons garantit qu'aucune information n'est perdue meme lorsque les copies redondantes sont supprimees. Tous les champs de metadonnees listes ci-dessous sont disponibles dans les exports de fichiers de chargement (DAT, CSV, XLSX) pour une utilisation en aval dans Relativity, Nuix ou d'autres plateformes de revision.

Champs de document principaux

Ces champs sont presents sur chaque document independamment du type de fichier. Ils fournissent les identifiants fondamentaux, les proprietes de fichier et les informations de traitement necessaires a la gestion des documents et au suivi de la chaine de possession.

ChampTypeDescription
doc_idChaineIdentifiant unique du document au sein du dossier (p. ex. DOC-000001). Il s'agit de la reference principale utilisee sur toute la plateforme — dans les resultats de recherche, les exports, les journaux d'audit et les references croisees.
doc_seqEntierNumero sequentiel attribue lors du versement, utilise pour le tri et la numerotation de style Bates dans les exports. Les sequences sont uniques au sein de chaque dossier et attribuees dans l'ordre de telechargement.
filenameChaineNom de fichier original du document tel qu'il existait dans les donnees sources. Preserve exactement tel que trouve pour la defensibilite — aucun renommage ni assainissement n'est applique.
mimeChaineType MIME du fichier (p. ex. application/pdf, message/rfc822). Determine a la fois par l'extension du fichier et l'analyse des octets magiques pour une identification precise.
document_typeChaineCategorie de document enrichie — E-mail, PDF, Word, Excel, PowerPoint, Image, Texte, Archive, Audio, Video ou Autre. Utile pour filtrer la liste de documents par type de fichier.
size_bytesEntierTaille du fichier en octets. Affichee dans un format lisible (Ko, Mo) dans l'interface. Utile pour identifier les fichiers inhabituellement volumineux ou suspicieusement petits.
source_folderChaineChemin du dossier original dans le conteneur source — p. ex. la hierarchie de dossiers PST (Inbox/Projects/2024), le chemin du repertoire ZIP ou la structure d'archive imbriquee. Preserve le contexte organisationnel des donnees d'origine.
date_created_utcDateHeureDate de creation du fichier en UTC. Pour les documents Office, extraite des proprietes de document integrees. Pour les autres fichiers, derivee des horodatages du systeme de fichiers ou des metadonnees du conteneur.
date_modified_utcDateHeureDate de derniere modification du fichier en UTC. Essentielle pour le filtrage par plage de dates dans les workflows de revision et pour etablir les chronologies de documents.
md5ChaineHachage MD5 du contenu du fichier (32 caracteres hexadecimaux). Utilise pour la deduplication dans le dossier et pour la verification de l'integrite de la chaine de possession dans les exports.
sha256ChaineHachage SHA-256 du contenu du fichier (64 caracteres hexadecimaux). Fournit une empreinte d'integrite cryptographiquement solide pour une production defensible.
statusChaineStatut de traitement — queued (en attente de traitement), processing (en cours de versement), ready (traite avec succes et disponible pour revision) ou failed (une erreur s'est produite).
processing_errorChaineMessage d'erreur detaille en cas d'echec du traitement. Aide a diagnostiquer les problemes tels que les fichiers proteges par mot de passe, les archives corrompues ou les formats non pris en charge.
processing_datasetChaineIdentifiant du lot de telechargement (p. ex. UPL-001) reliant le document a son lot de versement. Utile pour suivre a quel ensemble de telechargement appartient un document et consulter les statistiques au niveau du lot.

Champs de famille & de hierarchie

Les documents extraits de fichiers conteneurs — tels que les e-mails avec pieces jointes, les archives ZIP ou les dossiers PST imbriques — sont automatiquement regroupes en familles. Les relations familiales sont essentielles pour une revision defensible : les examinateurs voient chaque e-mail accompagne de ses pieces jointes, et les exports peuvent regrouper les membres d'une famille dans le meme volume pour la production.

ChampTypeDescription
family_idChaineIdentifiant du groupe familial. Pour les documents parents (p. ex. un e-mail), ce champ est egal au doc_id du document lui-meme. Pour les documents enfants (p. ex. les pieces jointes), ce champ herite du family_id du parent — reliant toute la famille pour le regroupement, l'export et la revision.
parent_idUUIDIdentifiant du document parent (p. ex. l'e-mail qui contenait cette piece jointe). Null pour les documents autonomes de niveau superieur. Permet l'affichage de l'arborescence familiale dans la visionneuse de documents, ou les examinateurs peuvent naviguer entre un parent et tous ses enfants.
Integrite des familles dans les exports

Lors de l'export de documents, Dezcry preserve les relations familiales dans le fichier de chargement. Les documents parents et leurs enfants sont lies via les champs family_id et parent_id, permettant aux plateformes de revision en aval (Relativity, Nuix, etc.) de reconstruire la hierarchie familiale. L'assistant d'export prend egalement en charge le regroupement en volumes par famille pour conserver les documents associes ensemble.

Champs d'e-mail

L'e-mail est souvent le type de donnees le plus important en eDiscovery. Dezcry extrait un ensemble complet de metadonnees d'e-mail depuis les formats EML et MSG, y compris les messages extraits des conteneurs PST, OST et MBOX. Ces champs sont stockes en tant que colonnes de base de donnees de premier ordre pour un filtrage, un tri et une recherche specifiques aux champs efficaces (p. ex. from:john@acme.com).

ChampTypeDescription
email_fromChaineAdresse e-mail et nom d&apos;affichage de l&apos;expediteur (p. ex. "John Smith <john@acme.com>"). Consultable via le prefixe de champ from: dans la recherche par mots-cles.
email_toChaineAdresses e-mail des destinataires (separees par des points-virgules). Prend en charge plusieurs destinataires. Consultable via le prefixe de champ to:.
email_ccChaineAdresses e-mail des destinataires en copie carbone (separees par des points-virgules). Consultable via le prefixe de champ cc:.
email_bccChaineAdresses e-mail des destinataires en copie carbone invisible (separees par des points-virgules). Consultable via le prefixe de champ bcc:. Disponible uniquement lorsque les donnees sources incluent des en-tetes BCC (generalement uniquement dans la boite de courrier de l&apos;expediteur).
email_subjectChaineLigne d&apos;objet de l&apos;e-mail. Consultable via le prefixe de champ subject:. Couramment utilise pour la recherche par mots-cles et les workflows de classification.
email_message_idChaineEn-tete Message-ID RFC 2822 — un identifiant unique global attribue par le serveur de messagerie expediteur. Utilise en interne pour le threading d&apos;e-mail et la deduplication.
email_date_sent_utcDateHeureDate et heure d&apos;envoi de l&apos;e-mail, normalisees en UTC. Il s&apos;agit du champ de date principal utilise pour le filtrage par plage de dates des e-mails et l&apos;analyse chronologique.
email_date_received_utcDateHeureDate et heure de reception de l&apos;e-mail, normalisees en UTC. Peut differer de date_sent en raison de delais de livraison ou de differences de fuseau horaire entre les serveurs de l&apos;expediteur et du destinataire.
email_attachments_jsonJSONResume structure des pieces jointes contenant le nombre et la liste des noms de fichiers (p. ex. {count: 3, names: ["report.pdf", "data.xlsx", "photo.jpg"]}). Utile pour identifier rapidement les e-mails avec des pieces jointes specifiques sans les ouvrir.
email_in_reply_toChaineMessage-ID de l&apos;e-mail auquel celui-ci est une reponse directe. Utilise par le moteur de threading pour construire l&apos;arborescence de conversation.
email_referencesChaineChaine ordonnee de Message-ID representant l&apos;historique complet de la conversation. Chaque reponse ajoute le Message-ID de son parent, creant un fil d&apos;Ariane a travers la discussion.
email_conversation_indexChainePR_CONVERSATION_INDEX Microsoft Exchange — une valeur binaire encodee en hexadecimal presente dans les messages originaires d&apos;Outlook/Exchange. Fournit un positionnement precis dans le thread meme lorsque les en-tetes standard sont absents ou peu fiables.
email_thread_indexChaineChemin de position hierarchique dans le thread calcule par Dezcry (p. ex. "a1b2c3d4+0001+0002"). Encode la position exacte dans l&apos;arborescence pour un ordre de tri chronologique correct et l&apos;identification des branches dans les vues de conversation.
Capacites de recherche dans les e-mails

Tous les champs de metadonnees d'e-mail sont indexes dans le moteur de recherche. Vous pouvez utiliser des prefixes de recherche specifiques aux champs pour cibler des champs individuels — par exemple, from:john@acme.com AND subject:"quarterly report" ou to:legal@company.com AND date >= 2024-01-01. Consultez la section Syntaxe de recherche pour la liste complete des prefixes de champ et des operateurs pris en charge.

Champs de threading d'e-mail

Ces champs sont calcules par le moteur de threading d'e-mail de Dezcry lors du versement. Le threading regroupe les messages associes en arborescences de conversation et identifie quels messages sont inclusifs (contenant du contenu unique qu'un examinateur doit voir) par opposition aux messages non inclusifs (messages redondants dont le contenu est entierement capture par une reponse ulterieure). Cela peut reduire l'ensemble de revision de 40 a 60 % dans les dossiers riches en e-mails, diminuant directement le temps de revision et les couts de traitement par IA.

ChampTypeDescription
email_thread_group_idUUIDIdentifiant du groupe de discussion auquel cet e-mail appartient. Tous les e-mails d&apos;une meme conversation partagent cet identifiant, permettant le regroupement au niveau du thread et la navigation dans la visionneuse de documents.
email_thread_indentationEntierProfondeur dans l&apos;arborescence du thread (0 = message racine/original, 1 = reponse directe, 2 = reponse a une reponse, etc.). Utilise pour l&apos;indentation visuelle dans les vues de conversation.
is_inclusive_emailBooleenIndique si cet e-mail est inclusif — c&apos;est-a-dire s&apos;il contient du contenu de message unique ou des pieces jointes non presentes dans un message ulterieur dans le thread. Null si le threading n&apos;etait pas active pour ce document. Les e-mails inclusifs constituent l&apos;ensemble minimum qu&apos;un examinateur doit consulter.
inclusive_reasonChaineExplique pourquoi l&apos;e-mail est inclusif : unique_message_content (texte du corps absent des reponses ulterieures), unique_attachment (piece jointe absente des messages ulterieurs), unanalyzed_attachment (la piece jointe n&apos;a pas pu etre comparee), root_message (premier message du thread) ou threading_error (l&apos;inclusivite n&apos;a pas pu etre determinee).
Mode de revue inclusif uniquement

Lorsque l'option "Inclusif uniquement" est activee lors du telechargement, les courriels non inclusifs sont entierement exclus de l'espace de travail de revue actif. Ils sont neanmoins conserves dans le systeme et peuvent etre consultes via la vue de conversation pour le contexte, mais ils n'apparaissent pas dans la liste principale des documents, ne sont pas traites par la classification IA ni par la redaction, et ne sont pas comptabilises dans le stockage. Il s'agit de l'approche recommandee pour les dossiers comportant un volume important de courriels lorsque l'efficacite des couts est une priorite.

Champs OCR

Dezcry detecte automatiquement les documents qui ne contiennent aucun texte extractible -- tels que les PDF numerises, les photographies de documents et les fichiers image -- et les signale pour la reconnaissance optique de caracteres (OCR). Une fois l'OCR effectue, le texte extrait devient entierement consultable et disponible pour le traitement IA.

ChampTypeDescription
ocr_requiredBooleenIndique si le document necessite l&apos;OCR pour extraire du texte consultable. Defini automatiquement sur vrai lors de l&apos;ingestion pour les PDF numerises, les PDF ne contenant que des images et les fichiers image (JPEG, PNG, TIFF, BMP). Les documents disposant d&apos;un texte integre existant sont definis sur faux.
ocr_statusChaineStatut actuel du traitement OCR : not_applicable (le document possede un texte integre, l&apos;OCR n&apos;est pas necessaire), completed (OCR termine avec succes, texte extrait), failed (OCR tente mais une erreur s&apos;est produite), partial (certaines pages ont ete traitees avec succes) ou skipped (OCR non execute bien que requis).

Champs de deduplication

Lorsque la deduplication globale est activee lors du telechargement, Dezcry identifie les fichiers identiques octet par octet dans l'ensemble du dossier par correspondance de hachage. La premiere instance est conservee en tant que document maitre et les copies suivantes sont signalees comme doublons. La deduplication est appliquee au niveau superieur -- ce qui signifie que les familles entieres (courriel + pieces jointes) sont dedupliquees en tant qu'unite, preservant l'integrite des familles. Consultez la section Deduplication pour tous les details.

ChampTypeDescription
is_duplicateBooleenIndique si ce document est un doublon d&apos;un autre document dans le dossier. Les documents en double sont exclus de l&apos;ensemble de revue actif mais conserves a des fins d&apos;audit et d&apos;exportation.
duplicate_of_idUUIDIdentifiant du document maitre dont celui-ci est un doublon. Permet aux reviseurs et aux exportations de retrouver la copie conservee. Le document maitre est toujours la premiere instance ingeree.
duplicate_custodian_infoChaineEnregistre quels depositaires detenaient des copies de ce document. Essentiel pour la defensabilite -- meme si les copies en double sont retirees de l&apos;ensemble de revue, ce champ preserve un enregistrement complet des personnes qui possedaient le document dans toutes les sources de donnees.

Champs de filtrage NIST

Le filtrage NIST (egalement connu sous le nom de "de-NISTing") supprime les fichiers systeme connus, les composants du systeme d'exploitation et les fichiers d'execution d'applications de l'ensemble de revue en faisant correspondre les hachages de fichiers avec la Bibliotheque nationale de reference logicielle du NIST (NSRL). Il s'agit d'une pratique standard en eDiscovery qui elimine les fichiers qui ne sont jamais pertinents pour la revue -- tels que les DLL Windows, les modeles Office et les fichiers de cache du navigateur -- supprimant souvent 10 a 30 % d'un ensemble de donnees avant le debut de la revue.

ChampTypeDescription
is_nist_filteredBooleenIndique si ce fichier a ete identifie comme un fichier systeme ou d&apos;application connu par correspondance de hachage NIST NSRL. Les fichiers filtres sont exclus de l&apos;espace de travail de revue actif mais conserves dans le systeme a des fins d&apos;audit et de rapport.
nist_product_nameChaineNom du produit logiciel auquel appartient le fichier selon la base de donnees NSRL (p. ex. Microsoft Windows 11, Adobe Acrobat Reader, Google Chrome). Aide a identifier pourquoi un fichier a ete filtre et fournit un contexte dans les rapports d&apos;exceptions.

Champs de chiffrement et d'integrite

Dezcry effectue une analyse detaillee de chaque fichier lors de l'ingestion pour detecter le chiffrement, la corruption et les incompatibilites de type de fichier. Ces champs fournissent une image complete du statut d'integrite de chaque document -- essentiel pour les rapports d'exceptions en eDiscovery et pour garantir qu'aucun document n'est manque de facon silencieuse lors du traitement.

ChampTypeDescription
is_encryptedBooleenIndique si le document est chiffre ou protege par un mot de passe. Les fichiers chiffres ne peuvent pas etre traites avant d&apos;etre dechiffres -- ajoutez le mot de passe a la banque de mots de passe et retraitez, ou notez l&apos;exception dans les rapports.
encryption_typeChaineClassification detaillee du chiffrement : password_protected (mot de passe Office/PDF standard), drm_protected (gestion des droits numeriques), pgp_encrypted (chiffrement PGP/GPG), smime_encrypted (chiffrement de courriel S/MIME) ou bitlocker (artefact de chiffrement de disque complet). Aide les equipes informatiques a determiner la methode de dechiffrement appropriee.
is_corruptBooleenIndique si le document est corrompu ou malforme. Les fichiers corrompus sont signales comme exceptions de traitement et inclus dans les rapports d&apos;exceptions pour la transparence.
corruption_typeChaineClassification detaillee de la corruption : truncated (fichier tronque), malformed_header (en-tete de fichier invalide), invalid_structure (erreurs de structure interne) ou zero_byte (fichier vide). Fournit des details exploitables pour le depannage ou la re-collecte depuis la source.
file_signatureChaineSignature des octets magiques du fichier detectee en inspectant l&apos;en-tete binaire du fichier (p. ex. "PDF-1.4", "PK (ZIP)", "JPEG/JFIF"). Independante de l&apos;extension du fichier -- fournit la veritable identite du format.
file_signature_mismatchBooleenIndique si l&apos;extension du fichier ne correspond pas au contenu reel detecte par les octets magiques (p. ex. un fichier .docx qui est en realite un .exe renomme). Important pour identifier les fichiers potentiellement suspects ou mal etiquetes lors d&apos;une revue medico-legale.
is_decryptedBooleenIndique si le document a ete dechiffre avec succes lors du traitement a l&apos;aide d&apos;un mot de passe de la banque de mots de passe ou fourni au moment du telechargement.
decryption_methodChaineMethode de dechiffrement du document : global_password_bank (correspondance avec les mots de passe stockes du dossier) ou upload_password (mot de passe fourni lors du telechargement contenant ce fichier). Fournit une piste d&apos;audit pour les actions de dechiffrement.
Analyse de la signature de fichier

Dezcry inspecte les octets magiques binaires de chaque fichier pour determiner son veritable format, independamment de l'extension du fichier. Lorsqu'une incompatibilite est detectee (p. ex. un fichier .xlsx qui est en realite une archive ZIP, ou un .pdf qui est en realite une image JPEG), l'indicateur file_signature_mismatch est active. Cela est utile pour identifier les fichiers qui ont ete intentionnellement renommes pour echapper a la revue, une tactique courante dans les enquetes et litiges.

Champs d'exceptions de traitement

Dans tout dossier d'eDiscovery, un pourcentage de documents rencontrera des problemes de traitement. Dezcry categorise chaque exception avec un type et une action, fournissant les donnees structurees necessaires pour des rapports d'exceptions defensables. Ces champs sont inclus dans les exportations et les rapports de lots de traitement afin que les equipes juridiques disposent d'un enregistrement complet de ce qui a -- et n'a pas -- ete traite avec succes.

ChampTypeDescription
exception_typeChaineLa categorie d&apos;exception de traitement : encryption (fichier protege par mot de passe ou chiffre), corruption (fichier malforme ou endommage), unsupported_format (type de fichier non pris en charge pour l&apos;extraction de texte) ou text_extraction_failed (format pris en charge mais l&apos;extraction a rencontre une erreur). Utilise pour filtrer et rendre compte des resultats de traitement.
exception_actionChaineL&apos;action prise par Dezcry en reponse a l&apos;exception : processed_with_errors (traitement partiel complete avec certains problemes notes), skipped (le document n&apos;a pas pu etre traite du tout), partial_extraction (une partie du contenu a ete extraite mais le processus n&apos;a pas ete entierement complete) ou placeholder_created (une entree de substitution a ete creee a des fins de suivi et de rapport). Assure la transparence pour les equipes juridiques evaluant l&apos;exhaustivite.

Champs IA et de traitement

Dezcry utilise l'IA pour generer automatiquement des resumes de documents, appliquer des redactions et produire des apercus de documents. Ces champs suivent le statut et les resultats de chaque flux de travail alimente par l'IA, permettant aux reviseurs de voir rapidement quels documents ont ete resumes, rediges ou sont encore en attente de traitement.

ChampTypeDescription
llm_summaryChaineResume de 1 a 2 phrases genere par IA du contenu du document. Les resumes sont produits automatiquement apres l&apos;ingestion et affiches dans la liste des documents et le visualiseur. Utile pour trier rapidement les documents sans les ouvrir -- les reviseurs peuvent parcourir les resumes pour identifier plus rapidement les documents pertinents.
markup_statusChaineStatut du flux de travail de redaction et d&apos;annotation : not_started (aucune redaction appliquee), pending (redaction en cours), complete (toutes les redactions appliquees et le marquage genere) ou failed (une erreur s&apos;est produite lors de la generation du marquage). Les documents dont le markup_status est "complete" disposent d&apos;un apercu entierement redige.
markup_page_countEntierNombre total de pages dans le document de marquage. Rempli apres la completion de la generation du marquage. Utile pour estimer l&apos;effort de revue et pour le suivi des redactions au niveau de la page dans les rapports de production.
preview_statusChaineStatut de generation de l&apos;apercu du document : none (aucun apercu demande), queued (en attente de generation), generating (en cours de conversion), ready (apercu disponible pour consultation) ou error (echec de la generation). Les apercus convertissent les formats natifs en HTML/PDF consultables pour la revue de documents dans le navigateur.

Champs de decision du reviseur

Ces champs sont definis par les reviseurs lors de la revue des documents via le Panneau de decisions dans le visualiseur de documents, ou via des actions en lot sur la liste des documents. Chaque modification de ces champs est horodatee, attribuee au reviseur et enregistree dans la piste d'audit pour une defensabilite totale. Le verrouillage optimiste empeche les modifications conflictuelles lorsque plusieurs reviseurs travaillent sur le meme dossier simultanement.

ChampTypeDescription
relevanceChaineClassification de pertinence attribuee par le reviseur -- generalement Responsive, Non-Responsive ou Privileged, mais entierement personnalisable au niveau du dossier. Il s&apos;agit du champ de codage principal utilise pour separer les documents pertinents du reste de l&apos;ensemble de donnees.
hot_documentBooleenIndicateur signalant que le document est particulierement significatif -- une &quot;piece a conviction&quot; ou une preuve cle qui merite une attention accrue. Les documents importants sont visuellement mis en evidence dans la liste des documents et peuvent etre filtres pour un acces rapide.
decision_commentChaineAnnotation en texte libre dans laquelle les reviseurs expliquent leur raisonnement pour la decision de pertinence. Utile pour le controle de la qualite, la revue en second passage et la fourniture de contexte aux reviseurs seniors ou aux conseillers juridiques.
relevance_coded_atDateHeureHorodatage du dernier enregistrement de la decision de pertinence. Utilise pour le suivi de la progression de la revue, les mesures de productivite et les objectifs de la piste d&apos;audit. Mis a jour chaque fois que le reviseur modifie sa decision.
Champs de decision personnalises

En plus des champs integres ci-dessus, les dossiers peuvent etre configures avec des champs de decision personnalises -- listes deroulantes a selection unique, etiquettes a selection multiple ou champs en texte libre -- pour saisir le codage specifique au dossier tel que les codes de probleme, les categories de privilege ou les designations de confidentialite. Les champs personnalises sont entierement exportables et apparaissent dans le panneau de decisions aux cotes des champs standard. Consultez Champs personnalises pour les details de configuration.

Metadonnees etendues (metadata_json)

En plus des champs de premier rang ci-dessus, chaque document contient un objet de metadonnees etendu avec des proprietes specifiques au format organisees par espace de noms. Ces champs capturent toute la profondeur des informations incorporees dans chaque type de fichier -- des outils de creation de PDF aux donnees de geolocalisation EXIF d'image en passant par les resultats d'authentification de courriel. Les metadonnees etendues sont consultables dans le panneau de metadonnees et incluses dans les exportations.

Espace de nomsTypes de documentChamps
generalTous les documentsfilename, extension, mime, document_type, size_bytes, upload_batch_id. Present sur chaque document comme ensemble de proprietes de base.
emailEML, MSGfrom, to, cc, bcc, subject, message_id, in_reply_to, references, conversation_index, date_sent_utc, date_received_utc, attachments (nombre et noms). Inclut egalement les resultats d&apos;authentification de courriel : dkim_result, spf_result et dmarc_result -- utiles pour identifier les messages usurpes ou non authentifies.
pdfFichiers PDFtitle, author, subject, producer (l&apos;application ayant genere le PDF), creator (l&apos;application d&apos;origine), creation_date_utc, modification_date_utc, page_count, is_encrypted. Extraits a la fois du dictionnaire d&apos;informations PDF et des flux de metadonnees XMP lorsque disponibles.
ooxmlWord, Excel, PowerPoint (DOCX, XLSX, PPTX)Proprietes principales : created, modified, title, subject, creator, lastModifiedBy, revision, keywords, description, category. Proprietes de l&apos;application : application (p. ex. Microsoft Excel), company, template. Ce sont les proprietes visibles dans la boite de dialogue "Proprietes" d&apos;un fichier dans Microsoft Office.
imageJPEG, PNG, TIFF, BMP, GIFformat (p. ex. JPEG, PNG), mode (p. ex. RGB, RGBA), width, height. Donnees EXIF (lorsque disponibles) : DateTimeOriginal, DateTimeDigitized, Make (fabricant de l&apos;appareil photo), Model (modele de l&apos;appareil photo), Software, Orientation, XResolution, YResolution et GPSInfo (latitude, longitude, altitude). Les donnees de geolocalisation EXIF peuvent etre essentielles dans les enquetes impliquant des photographies.

Classification AI

Vue d'ensemble

La classification AI vous permet de categoriser automatiquement les documents a l'aide de champs de decision personnalisesdefinis par votre equipe. Contrairement a l'examen manuel, la classification AI traite des ensembles de documents entiers en quelques minutes, produisant des predictions accompagnees de scores de confiance calibres afin que les reviseurs puissent concentrer leur attention sur les elements genuinement ambigus, tandis que les predictions a haute confiance sont appliquees automatiquement.

La classification s'effectue sur des grands modeles de langage au sein du meme environnement Azure que le reste de la plateforme -- aucune donnee de document ne quitte votre deploiement. Le systeme inclut un debiais de confiance pour corriger la surconfiance connue des LLM, un passage de verification pour les predictions limite utilisant un modele distinct, et un decoupage intelligent des documents pour les documents longs. Chaque prediction comprend un score de confiance calibre et une justification, et toutes les decisions sont enregistrees dans la piste d'audit.

En quoi la classification differe-t-elle de la caviardage

La classification et le caviardage servent des objectifs differents. La classification attribue des etiquettes a des documents entiers -- en les categorisant par type, pertinence, sensibilite, ou toute taxonomie personnalisee definie par votre equipe. Le caviardage identifie et supprime des textes specifiques au sein des documents. La classification aide votre equipe a decider quoi faire d'un document ; le caviardage vous aide a le preparer pour la divulgation.

Champs personnalises

Avant d'executer une tache de classification, vous definissez les champs de decision que l'AI doit predire. Ceux-ci sont entierement personnalisables -- vous definissez les noms de champs, les types, les options et les instructions specifiques a votre examen. Acces a Classification dans un dossier pour configurer les champs.

Type de champDescriptionExemple
Selection uniqueL&apos;AI choisit exactement une valeur parmi une liste d&apos;options predefinies. Ideal pour les categories mutuellement exclusives.Pertinence : Responsive / Non-Responsive / Partiellement Responsive
Selection multipleL&apos;AI peut selectionner une ou plusieurs valeurs applicables dans une liste. Ideal pour les etiquettes non exclusives.Categories de donnees : Financier / Medical / Emploi / Personnel
BooleenUne simple decision oui/non.Contient des DCP : true / false
Texte libreL&apos;AI fournit une reponse courte en texte libre. Ideal pour les resumes ou descriptions.Sujets cles : Description en une phrase du contenu du document

Pour chaque champ, vous fournissez des instructions en langage naturel qui indiquent precisement a l'AI comment evaluer les documents. La qualite de ces instructions influe directement sur la precision de la classification. Dezcry fournit un indicateur de qualite en temps reel pendant la redaction :

Niveau de qualiteLongueurRecommandation
InsuffisantMoins de 10 caracteresTrop court pour etre utile -- l&apos;AI n&apos;a aucun contexte pour prendre des decisions. Ajoutez des criteres specifiques, des exemples et des conseils sur les cas limites.
Acceptable10 a 50 caracteresDirection de base, mais manque de nuance. Ajouter plus de details sur ce qui qualifie chaque option et sur la gestion des cas ambigus ameliorera la precision.
Bon50 a 200 caracteresL&apos;AI dispose de suffisamment de contexte pour effectuer des predictions fiables. Envisagez d&apos;ajouter des exemples de cas limites.
Excellent200+ caracteresInstructions detaillees avec des criteres clairs, des exemples et la gestion des cas limites. Cela produit les resultats les plus precis et les plus coherents.
Rediger des instructions efficaces

De bonnes instructions de classification doivent inclure :

  • Des criteres clairs -- ce qui fait qu'un document correspond a chaque option
  • Des exemples -- des exemples concrets de ce qui appartient a chaque categorie
  • Des cas limites -- comment traiter les documents ambigus ou frontaliers
  • Du contexte -- les informations generales pertinentes sur le dossier, le secteur ou le cadre reglementaire
  • Des exemples negatifs -- ce qui ne doit pas etre classe dans une categorie donnee

Par exemple, au lieu de "Est-ce pertinent ?", ecrivez : "Classez comme Responsive si le document contient des informations sur l'historique d'emploi de la personne concernee, son salaire, ses evaluations de performance ou ses communications RH. Classez comme Non-Responsive si le document est une notification generee par un systeme, un materiel marketing, ou concerne une personne differente. Classez comme Partiellement Responsive si le document contient un contenu partiellement pertinent melange a du materiel non pertinent."

Ensembles de classification

Un ensemble de classification est une configuration reutilisable qui definit les champs a predire, le comportement attendu de l'AI et les seuils de confiance a appliquer. Les ensembles de classification peuvent etre executes plusieurs fois -- par exemple, apres l'ajout de nouveaux documents au dossier. Pour creer et executer une classification :

  1. 1
    Selectionner la porteeChoisissez tous les documents ou une recherche sauvegardee pour definir les documents a classifier. La portee est figee au moment de l&apos;execution -- les nouveaux documents ajoutes par la suite ne seront pas inclus dans cette execution.
  2. 2
    Nommer l&apos;ensembleDonnez a l&apos;ensemble de classification un nom descriptif a des fins de suivi et d&apos;audit.
  3. 3
    Configurer les champsDefinissez un ou plusieurs champs de decision personnalises avec des types, des options et des instructions AI en langage naturel.
  4. 4
    Definir les seuilsConfigurez le seuil d&apos;acceptation automatique (par defaut : 0,85) et le seuil de revision (par defaut : 0,60) pour controler le routage des predictions.
  5. 5
    Invite systeme (optionnel)Fournissez une invite de niveau systeme optionnelle qui s&apos;applique a tous les champs -- utile pour definir le contexte global tel que le type de dossier, la juridiction ou le protocole d&apos;examen.
  6. 6
    Echantillonnage optionnelPour les grands ensembles de documents, configurez l&apos;echantillonnage de prevalence pour valider la qualite de la classification sur un sous-ensemble avant de lancer une execution complete.
  7. 7
    Verifier et lancerVerifiez tous les parametres dans une vue recapitulative et lancez la tache de classification.

Seuils de confiance et routage

Dezcry utilise un systeme de routage a trois niveaux base sur des scores de confiance calibres pour determiner le traitement de chaque prediction :

Plage de confianceRoutageDescription
Au-dessus de l&apos;acceptation automatique (par defaut : > 0,85)Applique automatiquementLa prediction est appliquee automatiquement sans necessiter de revision humaine. L&apos;AI est hautement confiante et la prediction est defensible.
Entre la revision et l&apos;acceptation automatique (par defaut : 0,50 a 0,85)Marque pour revisionLa prediction est sauvegardee mais marquee comme needs_review. Un reviseur humain doit l&apos;approuver, la corriger ou la rejeter avant qu&apos;elle soit appliquee.
En dessous du seuil de revision (par defaut : < 0,50)IndetermineL&apos;AI n&apos;a pas pu effectuer une prediction fiable. Le document est marque pour un codage manuel par un reviseur.

Les deux seuils sont configurables par ensemble de classification, permettant aux equipes d'ajuster l'equilibre entre automatisation et supervision humaine en fonction du profil de risque de l'examen. Un examen de privilege a enjeux eleves pourrait utiliser un seuil d'acceptation automatique plus bas (0,95) pour assurer davantage de revision humaine, tandis qu'une classification de type de document de routine pourrait utiliser un seuil plus eleve (0,80) pour maximiser l'automatisation.

Calibration de la confiance (debiais)

Les LLM sont connus pour etre systematiquement surconfiants -- ils ont tendance a rapporter des scores de confiance de 0,90 ou 0,95 meme lorsque leur precision reelle est plus proche de 0,80 a 0,85. Cela est particulierement problematique en eDiscovery ou les seuils de confiance guident les decisions de revision.

Dezcry applique un debiais empirique de la confiance -- une couche de calibration qui ajuste les scores de confiance bruts des LLM pour mieux reflechir la precision reelle. La calibration est :

  • Monotone -- une confiance brute plus elevee produit toujours une confiance calibree plus elevee (preserve le classement)
  • Deterministe -- la meme entree produit toujours la meme sortie (defensible dans des contextes reglementaires)
  • Conservatrice -- ramene systematiquement les scores surconfiants vers des courbes de precision empiriques

La calibration est basee sur des recherches publiees sur la calibration de la confiance des LLM et adaptee aux mesures de precision specifiques a l'eDiscovery. Elle comprime la queue surconfiante (0,85 a 0,99) plus agressivement que la plage de faible confiance bien calibree (0,05 a 0,50).

Passage de verification

Pour les predictions qui se situent dans une plage de confiance limite (0,35 a 0,70 par defaut), Dezcry declenche automatiquement un passage de verification -- une seconde tentative de classification utilisant un deploiement de modele different. Cela fonctionne comme une couche de controle qualite :

  • Le passage de verification utilise un persona d'invite different ("reviseur QC") pour contester la classification initiale
  • Il utilise un deploiement de modele distinct pour la diversite des modeles, reduisant les erreurs correlees
  • Si la verification confirme le premier passage, les scores de confiance sont moyennes (augmentant generalement la confiance finale)
  • Si la verification diverge, le score de confiance le plus bas est utilise, la classification de la verification est adoptee, et le resultat est force-marque pour revision humaine

Decoupage des documents longs

Les documents qui depassent le budget de contexte du modele (par defaut : environ 112 000 caracteres) sont automatiquement divises en segments deterministes pour le traitement. Le decoupage est concu pour maintenir la precision de la classification :

  • Conscient des limites de phrases -- les segments sont divises aux limites de phrases, jamais en milieu de phrase, preservant la coherence semantique
  • Avec chevauchement -- les segments adjacents partagent environ 200 caracteres de chevauchement, assurant la continuite du contexte entre les limites de segments
  • Deterministe -- le meme document produit toujours les memes segments, garantissant des resultats reproductibles
  • Decoupage de repli -- si une seule phrase depasse la limite du segment, un decoupage aux limites de mots avec chevauchement est utilise en remplacement

Lorsqu'un document est decoupe, chaque segment est classe independamment, et les resultats sont agreges a l'aide d'un systeme de vote pondere :

  • La prediction de chaque segment est ponderee par son score de confiance
  • Les segments qui renvoient null (aucun contenu classifiable) sont exclus du vote, et ne sont pas comptes comme preuves
  • La prediction gagnante est determinee par le score pondere par la confiance totale, avec un departage par la confiance maximale d'un seul segment
  • Un bonus d'unanimite augmente la confiance lorsque tous les segments s'accordent ; le desaccord la reduit
  • Une penalite de dissidence est appliquee lorsqu'un segment dissident presente une haute confiance (≥ 0,70), avec une note recommandant une revision manuelle
Desaccord entre segments

Lorsque differents segments d'un document produisent des classifications differentes, cela est marque comme desaccord entre segments et le document est automatiquement marque pour revision humaine. Il s'agit d'un signal de qualite important -- cela indique souvent qu'un document contient un contenu mixte (par exemple, un document partiellement pertinent ou certaines sections sont pertinentes et d'autres non). La justification agregee inclut une note sur les segments dissidents et leurs niveaux de confiance.

Les ensembles de classification suivent les executions avec un rapport de progression detaille : nombre total de documents, documents traites, erreurs rencontrees et utilisation des tokens pour l'attribution des couts. Les executions terminees creent automatiquement une recherche sauvegardee contenant les documents classes pour le traitement en aval.

Les executions de classification prennent en charge le traitement parallele -- plusieurs documents sont classes simultanement (par defaut : 6 appels LLM simultanes) pour maximiser le debit tout en respectant les limites de debit de l'AI. Les executions peuvent etre annulees a tout moment, et l'annulation prend effet proprement apres la fin du traitement du document en cours.

La vue de progression de la classification affiche le traitement en temps reel avec une console en direct, des resultats document par document incluant les scores de confiance, et le temps restant estime. Vous pouvez continuer a travailler pendant que la classification s'execute en arriere-plan.

Revision des predictions

Une fois l'execution d'une classification terminee, les reviseurs peuvent examiner les resultats. Chaque document recoit un resultat pour chaque champ configure, contenant :

ChampDescription
Valeur prediteLa classification choisie par l&apos;AI pour ce champ (par exemple "Responsive", "Financier"). Null si l&apos;AI n&apos;a pas pu determiner une classification.
Score de confianceUn score calibre de 0,0 a 1,0 refletant la certitude de l&apos;AI. Debiaise pour corriger la surconfiance des LLM.
JustificationUne courte explication en langage naturel de la raison pour laquelle l&apos;AI a effectue cette prediction, faisant reference a un contenu specifique du document.
Necessite une revisionIndicateur booleen -- true si la confiance est inferieure au seuil d&apos;acceptation automatique, si les segments etaient en desaccord, ou si le passage de verification a remplace la classification initiale.
Nombre de segmentsLe nombre de segments en lesquels le document a ete divise (1 pour les documents courts tenant dans une seule fenetre de contexte).
Desaccord entre segmentsSi differents segments du document ont produit des predictions differentes -- un signal que le document peut contenir un contenu mixte.
Statut de verificationSi le passage de verification a ete declenche et s&apos;il etait en accord ou en desaccord avec la classification initiale.

Les reviseurs peuvent effectuer les actions suivantes sur toute prediction :

  • Approuver -- accepter la prediction de l'AI comme decision finale pour ce document et ce champ
  • Corriger -- remplacer la prediction de l'AI par une valeur differente choisie par le reviseur. La correction est enregistree aux cotes de la prediction AI originale a des fins d'audit.
  • Rejeter -- ignorer entierement la prediction, laissant le champ non code pour ce document

Toutes les actions de revision sont enregistrees dans la piste d'audit avec l'identite du reviseur, l'horodatage, la prediction AI originale et la decision du reviseur. Cela fournit un enregistrement defensible de la maniere dont chaque decision de classification a ete prise -- que ce soit par l'AI avec approbation humaine, par correction humaine d'une suggestion AI, ou par codage purement manuel.

Echantillonnage de prevalence

Pour les grands ensembles de documents, Dezcry prend en charge l'echantillonnage de prevalence -- la classification d'un sous-ensemble statistiquement representatif de documents avant de s'engager dans une execution complete. Cela permet aux equipes de :

  • Valider que les instructions de classification produisent des resultats precis avant de traiter l'ensemble complet
  • Estimer la prevalence de chaque categorie dans la collection (par exemple : "environ 30 % des documents sont pertinents")
  • Calculer les metriques de precision et de rappel en comparant les predictions AI au codage manuel sur l'echantillon
  • Affiner les instructions en fonction des resultats de l'echantillon avant de lancer la classification complete

Les resultats d'echantillonnage sont stockes sous forme d'enregistrements ClassificationSample, preservant a la fois la prediction AI et la verite terrain codee manuellement pour la mesure de la qualite et la defensibilite.

Caviardage IA

Apercu general

Le caviardage IA est la fonctionnalite phare de Dezcry — un pipeline de detection a 5 couches qui identifie les donnees personnelles, le contenu sensible et les elements protegees par le secret professionnel en vue de leur caviardage. Le systeme est concu comme un outil d'aide a la revision, et non comme un outil autonome : chaque suggestion de l'IA est consultable, modifiable et consignee avant d'etre appliquee.

Le caviardage s'appuie sur des grands modeles de langage au sein du meme environnement Azure. Aucune donnee de document n'est transmise a un service tiers. Le pipeline combine la correspondance de motifs deterministe avec l'analyse LLM et la resolution d'entites inter-documents pour une couverture complete.

Types de caviardage

Dezcry prend en charge trois protocoles de caviardage, chacun adapte a un cas d'usage different :

TypeObjectifConfiguration
DSARSupprimer les informations personnelles de la personne concernee dans les documents divulgues. Utilise une approche par liste blanche — vous indiquez le nom, les adresses e-mail et les numeros de telephone de la personne concernee, et l&apos;IA identifie toutes les occurrences.Prenom/nom de la personne concernee, adresses e-mail connues, numeros de telephone connus
PrivilegeIdentifier et caviarder les communications protegees par le secret professionnel (privilege avocat-client, doctrine du travail preparatoire). Utilise le filtrage par domaine et par mots-cles pour detecter le materiau privilegie.Personnes privilegiees, domaines de cabinets d&apos;avocats, mots-cles de privilege, instructions personnalisees
Ad HocCaviardage personnalise avec des instructions en texte libre. A utiliser pour toute tache de caviardage ne correspondant pas aux modeles DSAR ou privilege.Instructions en texte libre decrivant ce qui doit etre cavarde

Modeles de caviardage

Lors de la creation d'un ensemble de caviardage, vous selectionnez les categories d'entites que l'IA doit detecter. Chaque categorie dispose d'une couleur distincte pour l'identification visuelle dans l'interface de revision :

ModeleDescriptionCouleur
NomsNoms de personnes, prenoms/noms de famille, initiales, pseudonymesRouge
E-mailsAdresses e-mailOrange
Numeros de telephoneNumeros de telephone, numeros de fax, numeros de portableAmbre
IdentifiantsNSS, numeros de passeport, numeros de permis de conduire, identifiants nationauxVert
EmploiIntitules de poste, identifiants employe, informations salariales, historique professionnelBleu
Identifiants d&apos;entrepriseNumeros d&apos;immatriculation, identifiants fiscaux, ABN/ACNViolet
LocalisationsAdresses postales, codes postaux, coordonnees GPSMagenta
Opinions politiquesAffiliations politiques, adhesions a des partis, registres de voteViolet clair
Informations de santePathologies, traitements, diagnostics, medicamentsRouge
Orientation sexuelleIdentite de genre, informations sur l&apos;orientation sexuelleRose
Informations financieresNumeros de compte bancaire, numeros de carte de credit, donnees financieresVert
Identifiants d&apos;authentificationMots de passe, codes PIN, cles API, jetons de securiteCyan
Liens familiauxRelations, personnes a charge, details des membres de la familleRouge clair
Identifiants d&apos;appareilsAdresses IP, adresses MAC, identifiants d&apos;appareilsBleu clair

Les categories sensibles — informations de sante, orientation sexuelle,opinions politiques et identifiants d'authentification — utilisent un seuil de confiance d'application automatique plus bas par defaut (0,70) afin d'assurer un traitement plus prudent.

Pipeline a 5 couches

Dezcry traite chaque document via un pipeline de caviardage a 5 couches, combinant plusieurs methodes de detection pour une couverture complete :

CoucheNomMethodeDescription
L1Analyse des motifsMoteur NER (deterministe)Moteur de correspondance de motifs qui detecte les donnees personnelles structurees a l&apos;aide de regles regex et de la reconnaissance d&apos;entites nommees. Fournit une base rapide et deterministe — detecte les adresses e-mail, les numeros de telephone, les numeros de carte de credit et les formats d&apos;identifiants standard.
L2Analyse IAGrand modele de langageLa passe de detection IA principale. Le LLM analyse chaque document en prenant en compte le contexte des resultats L1 et L4, identifiant les donnees personnelles contextuelles que la seule correspondance de motifs ne permettrait pas de detecter — telles que les noms mentionnes en langage naturel, les relations implicites et le contenu sensible.
L3Double verification IAVerification LLM independanteUne couche de verification independante utilisant un deploiement de modele distinct. Agit comme un "reviseur senior QA en eDiscovery" — examine de maniere contradictoire les resultats L2 pour confirmer, rejeter ou ameliorer les entrees de caviardage. Detecte les faux positifs et les elements manques.
L4Reference croiseeResolution d&apos;entites (algorithmique)Regroupement flou des variantes d&apos;entites dans tous les documents de la portee. Regroupe les differentes orthographes et formats d&apos;une meme entite (par exemple "J. Dupont", "Jean Dupont", "jean.dupont@acme.com") en clusters avec une forme canonique. Garantit un caviardage coherent sur l&apos;ensemble des documents.
L5Routage intelligentRoutage par niveau de confiance (algorithmique)Achemine chaque entree de caviardage en fonction de son score de confiance : les elements a haute confiance sont appliques automatiquement, les elements a confiance moyenne sont envoyes dans la file de revision humaine, et les elements a faible confiance sont signales pour inspection manuelle.
Execution du pipeline

Les couches s'executent dans l'ordre suivant : L4 (resolution d'entites) → L1 (analyse des motifs) → L2 (analyse IA) → L3 (verification) → L5 (routage). L4 s'execute en premier pour construire l'index des entites, qui fournit le contexte aux couches IA suivantes. La progression est suivie par phase avec des mises a jour de statut en temps reel dans l'interface.

Revision des caviardages

Une fois le traitement de l'ensemble de caviardage termine, acces a la page Revision pour examiner et approuver les suggestions de l'IA. La file de revision presente chaque entite detectee avec :

  • Texte original — le texte exact que l'IA a identifie pour le caviardage
  • Categorie du modele — le type d'entite (noms, e-mails, etc.) avec un badge code couleur
  • Couche source — quelle couche du pipeline l'a detecte (L1, L2, L3, L4)
  • Score de confiance — le degre de certitude de l'IA quant au fait qu'il s'agit bien d'une entite reelle
  • Statut de verification — confirme, rejete, ameliore ou nouveau (issu de L3)
  • Emplacement dans la page — le numero de page et les coordonnees en pixels dans le document

Les reviseurs peuvent filtrer la file par couche, categorie de modele et seuil de confiance. Pour chaque entree, les reviseurs peuvent :

  • Approuver — accepter le caviardage et l'appliquer au document
  • Rejeter — ignorer la suggestion comme etant un faux positif
  • Signaler pour revision — escalader vers un reviseur senior pour un second avis

La file de revision est paginee a 100 entrees par page. Toutes les decisions de revision sont consignees dans la piste d'audit avec l'identite du reviseur, l'horodatage et l'action effectuee.

Caviardages manuels

En plus du caviardage assiste par IA, les reviseurs peuvent dessiner manuellement des zones de caviardage sur n'importe quel document a l'aide de la visionneuse de balisage. Les caviardages manuels sont appliques directement aux images de balisage du document et sont suivis aux cotes des caviardages IA dans la piste d'audit.

Pour les documents de type tableur, Dezcry fournit une visionneuse de balisage de tableur specialisee qui permet le caviardage au niveau des cellules — les reviseurs peuvent selectionner des cellules individuelles ou des plages a caviarder.

Resumes IA & Chat

Resumes de documents

Dezcry genere automatiquement des resumes alimentes par LLM pour chaque document d'un dossier. Les resumes sont des apercu en 1 a 2 phrases qui donnent aux reviseurs un contexte rapide pour evaluer la pertinence, decider de l'inclusion ou de l'exclusion, et progresser plus rapidement dans les ensembles de revision volumineux.

Les resumes sont generes par un modele de langage dedie fonctionnant sur une infrastructure GPU au sein du meme environnement Azure. Aucune donnee de document n'est transmise a des services tiers. Les resumes sont generes en arriere-plan et sont disponibles aux cotes du document dans le panneau de metadonnees.

  • Les resumes sont generes automatiquement au telechargement et lors du rattrapage en arriere-plan
  • La langue des resumes est configurable par dossier (anglais, allemand, francais, espagnol, etc.)
  • Les resumes sont indexables et apparaissent dans le panneau de metadonnees du document
  • Les administrateurs peuvent declencher la regeneration des resumes pour n'importe quel document ou lot

Chat sur les documents

Le panneau Chat sur les documents fournit une IA conversationnelle pour poser des questions sur les documents. Disponible depuis la visionneuse de documents, le chat utilise la Generation Augmentee par Recuperation (RAG) pour trouver le contenu pertinent et generer des reponses precises avec des citations de sources.

Comment cela fonctionne :

  1. 1
    Poser une questionSaisissez une question en langage naturel dans le panneau de chat (par exemple : "Quelles sont les dates cles mentionnees dans ce document ?")
  2. 2
    Recherche hybrideDezcry recherche le contenu pertinent a la fois par recherche par mots-cles (Elasticsearch) et par recherche semantique (vecteurs d&apos;embeddings), en combinant les resultats via la Fusion de Rang Reciproque.
  3. 3
    L&apos;IA genere une reponseLe LLM lit les segments de documents pertinents et genere une reponse avec des citations en ligne faisant reference a des documents specifiques.
  4. 4
    Verification des sourcesChaque reponse inclut des references de documents sources cliquables (par exemple [DOC-00028]) permettant aux reviseurs de verifier la reponse de l&apos;IA.
Limitation du debit

Le chat est limite a 20 requetes par minute par utilisateur et 60 requetes par minute par dossier afin de garantir une allocation equitable des ressources entre les equipes.

OCR IA

Apercu general

L'OCR IA (Reconnaissance Optique de Caracteres) extrait le texte indexable des documents bases sur des images — PDF numerises, photographies, captures d'ecran et autres fichiers image ne contenant pas de texte incorpore. Dezcry utilise l'API Azure Computer Vision Read pour une extraction de texte a haute precision.

L'OCR peut etre active automatiquement lors du telechargement (comme option de traitement) ou execute manuellement sur des documents ou des lots specifiques apres ingestion.

Execution de l'OCR

Acces a la page OCR IA dans un dossier pour gerer les taches OCR :

  1. 1
    Creer une tacheSelectionnez la portee — tous les documents ou une recherche sauvegardee — et lancez la tache OCR.
  2. 2
    TraitementDezcry envoie chaque document image a l&apos;API Azure Computer Vision pour l&apos;extraction de texte. La progression est suivie en temps reel avec des intervalles d&apos;interrogation de 4 secondes.
  3. 3
    ResultatsLe texte extrait est stocke dans la fiche du document et devient immediatement indexable. Les resultats par document comprennent le nombre de pages extraites, le nombre de caracteres extraits, les scores de confiance et la duree de traitement.

Les resultats des taches OCR font le suivi de chaque document individuellement, en indiquant :

  • Pages et caracteres extraits par document
  • Statut par document (termine, echoue, ignore)
  • Messages d'erreur pour les documents en echec
  • Duree de traitement par document

Les taches peuvent etre annulees pendant leur execution ou lorsqu'elles sont en file d'attente. Le tableau de bord OCR IA affiche les metriques agregees : nombre total de taches, taches terminees, taches actives et nombre total de documents traites.

Banque de mots de passe

Presentation

La Banque de mots de passe stocke les mots de passe et les identifiants des documents chiffres dans un dossier. Lorsque Dezcry rencontre des fichiers proteges par mot de passe lors de l'ingestion (fichiers PDF chiffres, archives ZIP protegees par mot de passe, documents Office proteges, fichiers PST chiffres), il tente de les dechiffrer a l'aide des mots de passe de la Banque de mots de passe.

Gestion des mots de passe

Acccedez a la page Banque de mots de passe dans un dossier pour gerer les identifiants :

  • Ajouter des mots de passe -- saisissez des mots de passe avec des etiquettes et des balises facultatives pour l'organisation
  • Etiquettes -- indications lisibles par l'utilisateur pour identifier a quoi correspond le mot de passe (l'etiquette est visible, le mot de passe lui-meme est masque)
  • Balises -- categorisez les mots de passe (par ex. "client", "depositaire-dupont", "lot-3")
  • Suivi d'utilisation -- chaque mot de passe enregistre la date de derniere utilisation et le nombre de fois qu'il a ete applique
  • Modifier et supprimer -- mettez a jour ou supprimez des mots de passe avec des boites de dialogue de confirmation

Les mots de passe sont reutilisables pour tous les telechargements dans le dossier. Lors du telechargement de nouveaux documents, tous les mots de passe de la banque sont testes sur les fichiers chiffres. Le recapitulatif du telechargement indique le nombre de fichiers dechiffres avec succes et le nombre d'echecs de dechiffrement.

Exportation

Presentation

Le systeme d'Exportation de Dezcry produit des packages de communication prets a la divulgation avec la numerotation Bates, des fichiers de chargement de metadonnees, des caviardages integres et l'historique complet des decisions. Les exportations sont configurees via un assistant multi-etapes et peuvent etre relancees avec des parametres mis a jour.

Deux types d'exportation sont pris en charge :

  • Production -- packages de divulgation formels avec numerotation Bates, en-tetes/pieds de page personnalises et organisation structuree en volumes. Utilises pour les soumissions reglementaires et les reponses formelles aux DSAR.
  • Revue -- packages simplifies pour la revue interne ou le transfert vers un conseil externe, sans les exigences de numerotation de niveau production.

Assistant d'exportation

L'assistant d'exportation vous guide a travers un processus de configuration en 6 etapes :

  1. 1
    PorteeSelectionnez les documents a exporter -- tous les documents du dossier ou une recherche sauvegardee.
  2. 2
    Nom et typeNommez le jeu d&apos;exportation et choisissez le type Production ou Revue.
  3. 3
    Composants de sortieSelectionnez les types de sortie a inclure : fichier de chargement de metadonnees, fichiers natifs, images, fichiers texte et/ou PDF.
  4. 4
    Numerotation et personnalisationConfigurez la numerotation Bates (prefixe, suffixe, numero de depart, remplissage) et la personnalisation facultative des en-tetes/pieds de page.
  5. 5
    Fichier de chargement et volumesConfigurez le format du fichier de chargement des metadonnees, l&apos;encodage, les formats de date et les parametres d&apos;organisation en volumes.
  6. 6
    Verification et lancementExaminez tous les parametres dans une vue recapitulative et lancez l&apos;exportation.

Selection de la portee

La portee de l'exportation definit les documents inclus dans le package de sortie. Vous pouvez choisir :

  • Tous les documents -- exporte chaque document du dossier
  • Recherche sauvegardee -- exporte uniquement les documents correspondant a une requete de recherche et des filtres precedemment sauvegardes

L'assistant affiche un nombre de documents pour la portee selectionnee afin que vous puissiez verifier le volume avant de continuer. La portee est figee au moment de l'execution -- les nouveaux documents ajoutes au dossier apres le demarrage de l'exportation ne seront pas inclus.

Composants de sortie

Selectionnez les types de sortie a inclure dans le package d'exportation :

ComposantDescription
Fichier de chargement de metadonneesUn fichier de donnees structure (DAT, CSV ou HTML) contenant toutes les metadonnees des documents, les decisions et les numeros Bates. Compatible avec Relativity, Concordance et d&apos;autres plateformes de revue.
Fichiers natifsFichiers sources originaux dans leur format natif (DOCX, PDF, XLSX, etc.)
ImagesImages rendues des documents (TIFF monopages ou multipages) avec des fichiers de chargement Opticon ou iProrev facultatifs pour le reference croisee des images.
Fichiers texteContenu textuel brut extrait de chaque document, utile pour l&apos;analyse textuelle en aval ou les references croisees.
PDFVersions PDF rendues de chaque document, optionnellement avec des caviardages integres et la personnalisation des numeros Bates.

Numerotation & Personnalisation

Les exportations de production prennent en charge la numerotation de documents de type Bates :

ParametreDescriptionExemple
PrefixeTexte ajoute avant chaque numero BatesACME-
SuffixeTexte ajoute apres chaque numero Bates-PROD
Numero de departLe premier numero de la sequence1
Remplissage des chiffresLargeur de zero-remplissage pour la partie numerique7 -> 0000001
Mode de numerotationAu niveau du document (un numero par document) ou au niveau de la page (un numero par page)Au niveau du document
Separateur de pageCaractere entre le numero de document et le numero de page en mode page_ -> ACME-0000001_001
Regroupement des pieces jointesConserver les documents parents et les pieces jointes numerotes sequentiellementActif
Ordre de triComment les documents sont ordonnes pour la numerotation (sequentiel, groupe familial ou par champ)doc_seq

La personnalisation facultative ajoute des en-tetes et des pieds de page a la sortie PDF :

  • En-tete et pied de page avec sections gauche, centre et droite
  • Jetons de modele : {BatesNumber}, {PageX}, {PageY}
  • Pied de page par defaut : "CONFIDENTIEL"

Fichiers de chargement & Volumes

Les parametres du fichier de chargement controlent le format de sortie des metadonnees :

ParametreDefautDescription
FormatDATFormat du fichier de chargement -- DAT (Concordance), CSV, HTML ou TXT personnalise
EncodageUTF-8Encodage des caracteres pour le fichier de chargement
Format de dateMM/dd/yyyyFormat des champs de date dans le fichier de chargement
Format d&apos;heureHH:mm:ssFormat des champs d&apos;heure

Les parametres de volume controlent l'organisation physique du package d'exportation :

ParametreDefautDescription
Prefixe de volumeVOLPrefixe pour les noms de dossiers de volume (VOL001, VOL002, etc.)
Numero de depart1Premier numero de volume
Remplissage des chiffres3Zero-remplissage pour les numeros de volume
Taille maximale du volume4500 MBTaille maximale par dossier de volume avant fractionnement
Nombre maximum de fichiers par dossier5000Nombre maximum de fichiers dans un sous-dossier unique
Nommage des fichiersNumero de controleMethode de nommage des fichiers -- par numero Bates/de controle ou nom de fichier d&apos;origine

Telechargement des exportations

Une fois l'execution d'une exportation terminee, le package de sortie est disponible au telechargement. La page d'exportation affiche :

  • Statut d'execution -- en cours, termine, echoue ou annule
  • Progression -- documents traites par rapport au total
  • Taille de sortie -- taille totale du package genere
  • Duree -- temps necessaire pour generer l'exportation
  • Nombre d'erreurs et d'avertissements -- problemes rencontres par document
  • Instantane des parametres -- la configuration exacte utilisee pour cette execution

L'integration de caviardage vous permet d'integrer les caviardages dans la sortie de l'exportation. Selectionnez un jeu de caviardage termine et choisissez le mode d'espace reserve :

  • Aucun -- pas d'espaces reserves pour les caviardages (les zones caviardees sont simplement noircies)
  • Crochets -- le texte caviarde est remplace par des etiquettes de categorie entre crochets
  • Bloc de caviardage -- boites noires solides sur le contenu caviarde

Toutes les actions d'exportation -- creation, demarrage de l'execution, telechargement -- sont consignees dans le journal d'audit.

Audit & Rapports

Journal d'audit

Chaque action significative dans Dezcry est enregistree dans un journal d'audit immuable, fournissant une trace opposable aux autorites reglementaires, aux revisions juridiques et a la gouvernance interne. Le journal d'audit consigne :

CategorieActions suivies
DocumentsConsultes, telecharges, telecharges en amont, supprimes, resumes regeneres
DecisionsMises a jour du codage de pertinence, modifications en masse des decisions, modifications des balises
Caviardages (manuels)Zones de caviardage dessinees, mises a jour ou supprimees sur les documents
Revue de caviardageEntrees de caviardage IA approuvees, rejetees ou escaladees
Taches de caviardageJeux crees/supprimes, executions demarrees/terminees/annulees/echouees
ClassificationJeux crees/supprimes, executions demarrees/terminees/annulees/echouees
ExportationJeux crees/mis a jour/supprimes/clones, executions demarrees/annulees, telechargements
BalisageImages de previsualisation et de balisage generees ou echouees
TelechargementsTelechargements PDF, telechargements PDF en masse, telechargements de feuilles de calcul caviardees
RechercheRecherches sauvegardees creees, mises a jour ou supprimees
DiscussionMessages envoyes, conversations creees/mises a jour/supprimees
IndexationDocuments indexes, dossier re-indexe, index efface
AuthentificationConnexion reussie/echouee, modifications de mot de passe, verrouillages de compte
AdministrationUtilisateurs crees/mis a jour, roles modifies, acces au dossier accorde/revoque
FacturationUtilisation recalculee, factures generees

Chaque entree d'audit comprend : le type d'action, la cible (quel document, jeu ou ressource a ete affecte), l'identite de l'utilisateur (qui l'a effectue), l'horodatage et les details (contexte enrichi comprenant les noms de fichiers, les comptages, les anciennes/nouvelles valeurs). Le journal d'audit est filtrable par type d'action, type de cible, utilisateur et plage de dates, avec une pagination de 50 entrees par page.

L'audit au niveau du dossier est accessible depuis la page Audit dans chaque dossier. L'audit a l'echelle du systeme est disponible pour les administrateurs depuis la section Administration.

Tableau de bord des rapports

La page Rapports fournit des tableaux de bord analytiques avec des visualisations reparties sur huit onglets :

OngletMetriques
Vue d&apos;ensembleIndicateurs cles de performance de synthese -- nombre de documents, taux d&apos;achevement, resume d&apos;activite
TraitementHistorique des lots d&apos;ingestion, croissance du volume dans le temps, debit de traitement
CaviardageExecutions de caviardage, entites detectees par modele, statistiques par couche, taux de couverture
ClassificationExecutions de classification, resultats par champ, distributions des scores de confiance
Performance de l&apos;IAUtilisation des jetons, attribution des couts, precision et metriques de qualite des modeles
RevueProfondeur de la file de revue, elements en attente de revue, delais de traitement des reviseurs
ActiviteTendances des actions des utilisateurs, resumes du journal d&apos;audit, nombre de reviseurs actifs
ExportationsHistorique des exportations, statistiques de production, tailles des livrables

Les tableaux de bord comprennent des cartes KPI, des graphiques a barres, des graphiques en courbes, des graphiques circulaires et des graphiques en aires. Les rapports peuvent etre exportes en PDF avec des graphiques integres, des en-tetes d'information sur le dossier et des horodatages de generation.

Facturation & Utilisation

La page Facturation affiche l'utilisation du stockage et les couts pour chaque dossier. Le stockage est decompose en sept categories :

CategorieDescription
DocumentsFichiers originaux telecharges dans leur format natif
Texte extraitTexte brut extrait lors du traitement et de l&apos;OCR
Images de balisageImages de pages rendues pour le flux de caviardage
PDF caviardcsVersions PDF avec caviardages integres et personnalisation
IndicesIndices de recherche Elasticsearch pour le dossier
EmbeddingsEmbeddings vectoriels utilises pour la discussion IA et la recherche semantique
AutreArtefacts de traitement divers

Le tableau de bord de facturation affiche l'utilisation actuelle (total en Go et cout mensuel projete), la repartition du stockage par categorie, l'historique d'utilisation dans le temps et les details des factures. La tarification est au Go avec des variations regionales et des remises par paliers de volume.

Administration

User Management

La page Admin (accessible aux roles admin et super_admin) fournit une interface centralisee pour gerer tous les utilisateurs de l'organisation. La liste des utilisateurs affiche :

  • Adresse e-mail et nom complet
  • Role attribue
  • Statut du compte (actif, inactif, en attente, invite, bloque, desactive)
  • Statut d'activation de la double authentification (2FA/MFA)
  • Date de derniere connexion
  • Nombre d'affectations a des dossiers

Les administrateurs peuvent effectuer des recherches par adresse e-mail ou par nom, et filtrer par statut ou par role. Les actions disponibles comprennent la creation d'utilisateurs, la modification des informations, le changement de role, l'envoi d'invitations, la reinitialisation des mots de passe, ainsi que l'activation ou la desactivation des comptes.

Roles & Permissions

Dezcry utilise un systeme de controle d'acces base sur les roles (RBAC) hierarchiquecomprenant quatre roles. Les roles sont hierarchiques -- chaque role herite de toutes les autorisations des roles inferieurs. L'acces est applique a deux niveaux :niveau role (les actions qu'un utilisateur peut effectuer sur la plateforme) et niveau dossier (les dossiers specifiques auxquels un utilisateur peut acceder).

Hierarchie des roles

RoleDescriptionMatter Access
Super AdminControle total de la plateforme. Peut gerer tous les utilisateurs (y compris les autres administrateurs), supprimer des dossiers, configurer les parametres a l&apos;echelle du systeme et acceder a toutes les fonctionnalites. Destine aux proprietaires de la plateforme et aux administrateurs informatiques.Acces implicite a tous les dossiers du tenant -- aucune affectation explicite requise.
AdminGestion au niveau de l&apos;organisation. Peut creer des dossiers, inviter et gerer des utilisateurs, affecter des utilisateurs a des dossiers, consulter les journaux d&apos;audit, gerer la banque de mots de passe et configurer la facturation. Ne peut pas supprimer des dossiers ni gerer d&apos;autres administrateurs.Acces implicite a tous les dossiers du tenant -- aucune affectation explicite requise.
ReviewerLe role de travail principal pour les membres des equipes juridique, confidentialite et conformite. Peut televerser des documents, examiner et coder des documents, lancer des taches de classification et de caviardage IA, creer et gerer des exports, gerer les recherches enregistrees et executer des rapports de termes de recherche.Doit etre explicitement affecte a chaque dossier. Peut uniquement voir et travailler dans les dossiers auxquels l&apos;acces lui a ete accorde.
Read OnlyAcces en lecture seule pour les parties prenantes, les conseillers externes ou les auditeurs qui ont besoin de visibilite sans pouvoir effectuer de modifications. Peut parcourir les documents, consulter les metadonnees, lire les rapports, utiliser le chat et telecharger les exports -- mais ne peut pas televerser, modifier ni lancer de taches.Doit etre explicitement affecte a chaque dossier. Peut uniquement voir les dossiers auxquels l&apos;acces lui a ete accorde.

Matrice detaillee des autorisations

Le tableau suivant indique le role minimum requis pour chaque action sur la plateforme. Les roles superieurs heritent automatiquement de toutes les autorisations des roles inferieurs.

Feature AreaActionMinimum Role
MattersConsulter les dossiersRead Only
MattersCreer de nouveaux dossiersAdmin
MattersModifier les parametres d&apos;un dossierAdmin
MattersSupprimer des dossiersSuper Admin
DocumentsConsulter et rechercher des documentsRead Only
DocumentsTeleverser des documentsReviewer
DocumentsMettre a jour les decisions, etiquettes et codageReviewer
DocumentsSupprimer des documentsAdmin
AI ClassificationConsulter les resultats de classificationRead Only
AI ClassificationCreer des ensembles et lancer des taches de classificationReviewer
AI RedactionConsulter les resultats de caviardageRead Only
AI RedactionCreer des ensembles, lancer des taches et examiner les entreesReviewer
ExportConsulter les ensembles d&apos;export et telecharger les paquetsRead Only
ExportCreer des ensembles d&apos;export et lancer des exportsReviewer
SearchConsulter les recherches enregistreesRead Only
SearchCreer et gerer les recherches enregistreesReviewer
Search Term ReportsConsulter les rapports de termes de rechercheRead Only
Search Term ReportsCreer et executer des rapportsReviewer
Chat / AI Q&amp;APoser des questions et consulter l&apos;historique du chatRead Only
ReportingConsulter les tableaux de bord analytiquesRead Only
BillingConsulter la facturation et l&apos;utilisationRead Only
BillingGerer les parametres de facturationAdmin
Password BankConsulter les mots de passe enregistresAdmin
Password BankAjouter, modifier et supprimer des mots de passeAdmin
Audit LogConsulter les journaux d&apos;audit des dossiers et du systemeAdmin
User ManagementConsulter et gerer les utilisateursAdmin
User ManagementInviter des utilisateurs et attribuer des rolesAdmin
System AdminGerer les autres administrateurs, supprimer des dossiers, configuration systemeSuper Admin

Controle d'acces au niveau des dossiers

L'acces aux dossiers individuels est controle independamment des autorisations liees aux roles :

  • Super Admin et Admin disposent d'un acces implicite a tous les dossiers du tenant. Ils n'ont pas besoin d'etre explicitement affectes -- ils peuvent voir et gerer tous les dossiers automatiquement.
  • Reviewer et Read Only requierent une affectation explicite a chaque dossier. Un administrateur doit accorder l'acces en affectant l'utilisateur au dossier. Tant que cette affectation n'est pas effectuee, le dossier est completement invisible pour l'utilisateur -- il n'apparait pas dans sa liste de dossiers et ne peut pas etre consulte via une URL directe.

Ce modele a deux niveaux permet aux organisations d'appliquer la separation des responsabilites et le principe du besoin d'en connaitre. Par exemple, un reviewer traitant des DSAR RH peut etre limite aux seuls dossiers lies aux RH, tandis qu'un autre reviewer traite les DSAR clients -- meme s'ils ont le meme role, ils voient des ensembles de dossiers entierement differents.

Isolation des tenants

Tous les controles d'acces operent dans les limites d'un tenant. Chaque requete de base de donnees est limitee au tenant de l'utilisateur authentifie, et chaque operation au niveau d'un dossier verifie que ce dossier appartient au meme tenant. L'acces entre tenants est architecturalement impossible -- il n'existe aucun mecanisme au niveau de la couche applicative pour acceder aux donnees d'une autre organisation, meme avec un role Super Admin.

Acces au niveau des documents

L'acces aux documents individuels suit le modele d'acces aux dossiers. Si un utilisateur a acces a un dossier, il peut consulter tous les documents de ce dossier (sous reserve des autorisations de son role pour la lecture ou la modification). Il n'existe pas de restriction d'acces par document -- l'acces est controle au niveau du dossier, ce qui est l'approche standard dans les flux de travail eDiscovery et d'examen des DSAR, ou les reviewers doivent voir le contexte complet d'un dossier pour prendre des decisions defensibles.

Security Enforcement

Les autorisations sont appliquees cote serveur pour chaque requete API, et pas seulement dans l'interface utilisateur. Meme si un utilisateur manipule le frontend ou construit des requetes API directement, le backend valide son role et son acces au dossier avant de traiter toute operation. Les requetes refusees recoivent une reponse 403 Forbidden structuree avec une explication claire de la raison pour laquelle l'acces a ete refuse.

Inviting Users

Les administrateurs invitent de nouveaux utilisateurs en fournissant leur adresse e-mail, leur nom et le role attribue. L'invite recoit un e-mail contenant un lien d'invitation a usage unique qui le guide tout au long des etapes suivantes :

  1. 1
    Set passwordCreer un mot de passe robuste (minimum 12 caracteres, doit inclure une majuscule, une minuscule et un chiffre).
  2. 2
    Configure 2FAScanner un code QR avec une application d&apos;authentification (Google Authenticator, Authy, etc.) et saisir le code de verification.
  3. 3
    Complete setupLe compte est active et l&apos;utilisateur peut se connecter.

Les liens d'invitation sont a usage unique et ont une date d'expiration. L'invitation enregistre qui l'a creee, quand elle a ete utilisee, ainsi que l'adresse IP de l'utilisateur qui l'a acceptee.

Admin Dashboard

Le Admin Dashboard fournit des analyses a l'echelle du tenant et une surveillance operationnelle :

  • Apercu des utilisateurs -- total, actifs, bloques, invites ; taux d'adoption de la 2FA ; repartition des roles ; utilisateurs actuellement en ligne
  • Apercu des dossiers -- total des dossiers ; repartition par statut (ouvert/ferme/archive) ; repartition par type ; nombre de documents et stockage par dossier
  • Apercu des documents -- nombre total de documents ; stockage total ; repartition par statut ; nombres de fichiers chiffres, corrompus et en double
  • Statut de traitement -- lots de telechargement recents ; taches de classification, de caviardage et d'export en cours
  • Repartition du stockage -- utilisation detaillee du stockage par categorie pour tous les dossiers
  • Activite d'audit recente -- dernieres entrees d'audit a l'echelle du systeme

System Audit

La page System Audit dans la section Admin fournit une vue a l'echelle du tenant de toutes les entrees du journal d'audit pour tous les dossiers. Cela permet aux administrateurs de surveiller l'activite sur l'ensemble de la plateforme, d'enqueter sur les evenements de securite et de produire des rapports de conformite. Les memes fonctionnalites de filtrage et de recherche disponibles au niveau du journal d'audit d'un dossier sont egalement disponibles au niveau du systeme.

Security & Compliance

Data Security

Dezcry est entierement heberge sur Microsoft Azure, en utilisant Azure Container Apps, Azure PostgreSQL et Azure Storage. Toute l'infrastructure s'execute au sein d'un groupe de ressources unique avec une isolation au niveau reseau. Le service worker GPU qui gere l'inference IA fonctionne avec une entree interne uniquement et n'est pas accessible depuis l'internet public.

La plateforme opere selon une architecture multi-tenant logiquement isolee. Les donnees de chaque organisation -- documents, metadonnees, decisions des reviewers et journaux d'audit -- sont segreguees au niveau de l'application et de la base de donnees. Les fichiers televerses sont stockes dans des chemins de stockage limites a l'organisation. L'acces aux donnees entre tenants n'est pas possible via la couche applicative.

Encryption

Toutes les donnees sont chiffrees en transit via TLS 1.2+ pour toutes les connexions entre les services, le stockage et la base de donnees. Les donnees sont chiffreesau repos a l'aide de cles de chiffrement gerees par Azure via Azure Storage Service Encryption et le chiffrement Azure Database. Les fichiers televerses, les sorties traitees et les enregistrements de la base de donnees sont tous couverts.

Data Residency

Dezcry prend en charge la residence des donnees regionale -- chaque dossier peut etre heberge dans une region Azure specifique pour repondre aux exigences locales en matiere de protection des donnees :

  • Australia East -- region par defaut
  • Switzerland North -- pour les exigences suisses en matiere de protection des donnees
  • Germany -- pour la residence des donnees allemande/europeenne
  • United Kingdom -- pour les exigences britanniques en matiere de protection des donnees

Les modeles IA sont deployes de maniere regionale -- les donnees australiennes utilisent les points de terminaison IA australiens, les donnees suisses utilisent les points de terminaison suisses, et ainsi de suite. Les clients entreprise peuvent discuter d'un deploiement dans des regions supplementaires ou dans des environnements dedies/sur site.

AI Data Handling

Dezcry exploite ses propres modeles IA pour le caviardage, la classification et la summarisation. Aucune donnee de document n'est envoyee a des services IA tiers. Toute l'inference IA s'effectue au sein du meme environnement Azure que le reste de la plateforme :

  • Classification et caviardage utilisent des grands modeles de langage deployes au sein de l'environnement Azure
  • Chat et resumes utilisent un modele de langage dedie fonctionnant sur l'infrastructure GPU
  • Embeddings sont generes sur CPU au sein du meme environnement de conteneurs

Le caviardage assiste par IA est concu comme un outil d'aide au reviseur, et non comme un systeme autonome. L'IA identifie le contenu probablement sensible pour la revue humaine. Les reviseurs approuvent, rejettent ou modifient chaque suggestion avant son application. Toutes les suggestions generees par l'IA et les decisions des reviseurs sont enregistrees dans la piste d'audit.

Les donnees des clients ne sont jamais utilisees pour entrainer ou affiner des modeles partages entre les locataires.