Plateforme Dezcry
Documentation
Tout ce que vous devez savoir sur l'utilisation de Dezcry — de l'ingestion des documents jusqu'a l'export pret pour la divulgation.
Premiers pas
Apercu de la plateforme
Dezcry est une plateforme eDiscovery en libre-service, dotee d'intelligence artificielle, destinee aux equipes chargees de la confidentialite, des affaires juridiques et de la conformite. Elle offre un flux de travail complet pour ingerer des documents, examiner les elements pertinents, appliquer des caviardages assistes par IA, classifier des documents, effectuer des recherches et exporter des ensembles prets a la divulgation — le tout avec une piste d'audit complete et des controles d'acces bases sur les roles.
Contrairement aux suites eDiscovery lourdes, Dezcry est concue pour les equipes internes qui ont besoin d'un processus rationnel et defensable, sans administrateurs eDiscovery specialises ni assistance externalisee pour la revue. Tous les modeles d'IA s'executent sur une infrastructure interne au sein du meme environnement Azure — aucune donnee de document n'est envoyee a des services d'IA tiers.
- Ingestion de plus de 100 types de fichiers, dont PST, EML, ZIP, Office, PDF, images, audio et video
- Deduplication automatique, regroupement des fils de messagerie et filtrage NIST
- Caviardage assiste par IA avec un pipeline de detection a 5 couches
- Classification assistee par IA avec des champs personnalises et un score de confiance
- Recherche par mots cles de niveau eDiscovery (propulsee par Elasticsearch, equivalent dtSearch)
- Resumes de documents et questions-reponses conversationnelles bases sur un LLM
- OCR par IA pour les documents a forte teneur en images
- Export pret pour la production avec numerotation Bates, fichiers de chargement et caviardages integres
- Piste d'audit complete consignant chaque action pour la defensabilite reglementaire
- Controle d'acces base sur les roles avec des permissions au niveau du dossier
Concepts cles
| Concept | Description |
|---|---|
| Dossier | Un conteneur pour un seul DSAR ou une seule enquete. Tous les documents, caviardages, classifications, exports et journaux d'audit sont limites a un dossier. Les dossiers ont un code unique, un nom de client, un type et un statut. |
| Document | Un seul fichier au sein d'un dossier — un e-mail, une piece jointe, un PDF, une feuille de calcul, une image, un fichier audio ou video. Chaque document dispose d'un texte extrait, de metadonnees, d'un apercu et peut porter les decisions des reviseurs. |
| Famille | Un groupe de documents lies — generalement un e-mail et ses pieces jointes. L'e-mail parent et les pieces jointes enfants partagent un identifiant de famille pour une revue groupee. |
| Depositaire | La personne ou la source de donnees a partir de laquelle les documents ont ete collectes. Suivi par lot de telechargement a des fins de chaine de traçabilite. |
| Recherche enregistree | Une requete reutilisable avec des filtres pouvant servir de perimetre pour le caviardage, la classification, l'export ou les rapports de termes de recherche. |
| Ensemble de caviardage | Un traitement de caviardage par IA par lots qui fait passer un perimetre de documents par le pipeline a 5 couches, produisant des entrees de caviardage pour la revue. |
| Ensemble de classification | Un traitement de classification par IA par lots qui applique des champs de decision personnalises aux documents avec un score de confiance. |
| Ensemble d'export | Un modele d'export configure avec des parametres de numerotation, d'image de marque et de sortie, produisant des packages prets a la divulgation. |
| Journal d'audit | Un enregistrement immuable de chaque action significative effectuee dans la plateforme, fournissant une piste defensable pour les autorites de reglementation. |
Connexion
Acces a la page de connexion de votre instance Dezcry et saisissez votre adresse e-mail et votre mot de passe. Si votre organisation a active l'authentification a deux facteurs (2FA), vous serez invite a saisir un mot de passe a usage unique base sur le temps (TOTP) depuis votre application d'authentification apres avoir saisi vos identifiants.
Si vous avez ete invite a rejoindre Dezcry, vous recevrez un e-mail contenant un lien d'invitation unique. Cliquez sur le lien pour configurer votre mot de passe et activer la 2FA. Les liens d'invitation sont a usage unique et expirent apres une periode definie.
Les sessions expirent automatiquement apres 30 minutes d'inactivite. Votre jeton de session est renouvele automatiquement toutes les 20 minutes lorsque vous etes actif. Si votre session expire, une superposition plein ecran vous invitera a vous reconnecter — tout travail en cours non sauvegarde est conserve dans votre navigateur.
Dossiers
Creer un dossier
Un dossier est le conteneur de premier niveau dans Dezcry. Chaque DSAR, enquete ou projet de revue est organise en tant que dossier distinct avec ses propres documents, flux de travail, utilisateurs et piste d'audit.
Pour creer un dossier, acces a la page Dossiers et cliquez sur Creer un dossier (role administrateur requis). Il vous sera demande de fournir :
| Champ | Description |
|---|---|
| Nom | Un nom descriptif pour le dossier (par ex. "Smith DSAR - T1 2025"). |
| Code du dossier | Un code alphanumerique unique de 6 caracteres, genere automatiquement mais modifiable. |
| Nom du client | L'organisation ou le client auquel le dossier se rapporte. |
| Type de dossier | L'un des suivants : DSAR, Enquete, Contentieux, Cyber ou Autre. |
| Description | Description facultative detaillee du perimetre et des objectifs du dossier. |
| Langue des resumes | La langue des resumes generes par IA (par ex. anglais, allemand, francais). |
| Lieu d'hebergement | La region Azure pour la residence des donnees (par ex. Australie, Suisse, Allemagne, Royaume-Uni). |
Tableau de bord du dossier
Cliquer sur un dossier vous amene au tableau de bord du dossier — l'espace de travail central pour ce dossier. Le tableau de bord affiche un tableau consultable et filtrable de tous les documents du dossier, ainsi que l'acces a toutes les fonctionnalites du dossier via la navigation dans la barre laterale :
- Documents — parcourir, rechercher, filtrer et examiner tous les documents
- Telechargement — ingerer de nouveaux documents dans le dossier
- Caviardage — creer et gerer les ensembles de caviardage par IA
- Classification — configurer et executer les traitements de classification par IA
- Export — construire et executer des packages d'export prets a la divulgation
- Termes de recherche — creer des ensembles de termes de recherche par mots cles et des rapports
- AI OCR — executer la reconnaissance optique de caracteres sur les documents images
- Coffre-fort de mots de passe — gerer les mots de passe des fichiers chiffres
- Audit — consulter la piste d'audit complete de ce dossier
- Rapports — consulter les tableaux de bord analytiques et les indicateurs
- Facturation — consulter l'utilisation du stockage et les couts de ce dossier
Le tableau des documents prend en charge les actions groupees — selectionnez plusieurs documents pour appliquer des operations par lots telles que l'etiquetage, la classification ou les changements de statut. Un panneau des taches en arriere-plan affiche l'etat de toutes les taches en cours (caviardage, classification, export) dans le dossier.
Parametres du dossier
Les parametres du dossier controlent le comportement des fonctionnalites IA et des flux de travail des reviseurs au sein du dossier. Les administrateurs peuvent configurer :
- Summary language — la langue utilisee pour les resumes de documents generes par l'IA.
- Matter status — ouvert, clos ou archive. Les dossiers clos sont en lecture seule ; les dossiers archives sont masques dans la vue par defaut.
Ingestion de documents
Televersement de documents
Acces a la page Upload au sein d'un dossier pour ingerer des documents. Dezcry prend en charge le televersement par glisser-deposer ou par selection de fichiers classique. Vous pouvez televerser des fichiers individuels ou des fichiers conteneurs (PST, ZIP, 7Z, RAR, TAR, GZ) qui seront extraits automatiquement.
Avant le debut du traitement, configurez les options suivantes :
| Option | Description |
|---|---|
| Deduplication Mode | Choisissez 'Global' pour identifier et signaler automatiquement les fichiers en double dans l'ensemble du dossier via le hachage SHA-256. Les doublons sont conserves mais marques, ce qui reduit le temps de revision. |
| NIST Filtering | Activez cette option pour filtrer automatiquement les fichiers systeme et d'execution connus (provenant de la NIST National Software Reference Library) qui ne sont jamais pertinents pour la revision. |
| OCR | Activez cette option pour executer la reconnaissance optique de caracteres sur les documents bases sur des images, en extrayant le texte consultable depuis les PDF numerises, les photographies et les fichiers image. |
| Email Threading | Activez cette option pour regrouper les e-mails lies en fils de conversation, en identifiant les messages 'inclusifs' (contenant du contenu unique) par opposition aux doublons non inclusifs. |
| Inclusive Only | Lorsque le threading des e-mails est active, exclure en option les e-mails non inclusifs de l'espace de travail de revision afin de reduire le volume. |
Vous pouvez egalement specifier des informations de custodian et des metadonnees de source de donnees pour le suivi de la chaine de custody. Les sources de donnees disponibles sont : Laptop, Desktop, Server, O365 Email, O365 OneDrive, SharePoint, Google Workspace, Mobile Device, External Hard Drive, USB Drive, Network Share, Cloud Storage, Backup Tape, Database et Other.
Types de fichiers pris en charge
Dezcry prend en charge plus de 100 types de fichiers par defaut. Lors de l'ingestion, tous les fichiers sont extraits, leur contenu textuel est analyse, les metadonnees sont capturees et ils sont indexes pour la recherche.
| Category | Formats |
|---|---|
| PST, OST, EML, MSG, MBOX | |
| Documents | DOCX, DOC, PDF, RTF, TXT, ODT |
| Spreadsheets | XLSX, XLS, CSV, ODS |
| Presentations | PPTX, PPT, ODP |
| Archives | ZIP, RAR, 7Z, TAR, GZ |
| Images | PNG, JPG, JPEG, TIFF, BMP, GIF (avec OCR) |
| Audio | MP3, WAV, M4A, OGG, FLAC |
| Video | MP4, AVI, MOV, MKV, WEBM |
| Web / Data | HTML, XML, JSON, CSV |
Deduplication
Lorsque la deduplication globale est activee, Dezcry effectue une deduplication exacte de premier niveau — l'approche standard utilisee en eDiscovery. Il s'agit d'une distinction importante : Dezcry identifie et supprime les fichiers identiques octet par octet sur la base de leur hachage MD5, mais le fait au premier niveau de la hierarchie documentaire.
En eDiscovery, la deduplication 'de premier niveau' signifie que la deduplication est appliquee aux documents autonomes et aux conteneurs parents (e-mails, archives) plutot qu'aux pieces jointes individuelles ou aux elements enfants de maniere isolee. Lorsqu'un fichier de premier niveau est identifie comme un doublon, le document entier et sa famille (y compris toutes les pieces jointes) sont supprimes ensemble, preservant ainsi l'integrite des familles de documents.
Cela differe de la deduplication 'au niveau des pieces jointes', qui supprimerait independamment les pieces jointes individuelles apparaissant dans plusieurs e-mails. La deduplication de premier niveau preserve le contexte complet de chaque e-mail et de ses pieces jointes en tant qu'unite, ce qui est essentiel pour une revision defensible — un reviseur voit toujours l'e-mail complet avec toutes ses pieces jointes intactes, sans jamais obtenir une famille partielle.
Elle differe egalement de la quasi-deduplication, qui identifie les fichiers similaires mais non identiques (par exemple, differentes versions d'un meme document). La deduplication de Dezcry's est strictement une correspondance exacte — seuls les fichiers identiques octet par octet sont signales.
La deduplication est etendue globalement a l'ensemble du dossier, ce qui signifie qu'un fichier televerse par un custodian sera deduplique par rapport aux fichiers de tous les autres custodians du meme dossier. La premiere instance ingeree est conservee en tant que document maitreet toutes les copies identiques subsequentes sont supprimees. Les resultats de la deduplication comprennent :
- Document maitre — la premiere instance de chaque fichier unique, conservee dans l'ensemble de revision avec les metadonnees completes et les relations familiales
- Groupe de doublons — toutes les copies du meme fichier, reliees au document maitre a des fins d'audit
- Octets economises — economies de stockage totales realisees en supprimant les copies en double
- Suivi des custodians — le systeme enregistre quels custodians detenaient des copies de chaque fichier deduplique, preservant les informations de chaine de custody meme si les copies en double sont supprimees de l'ensemble de revision actif
Le rapport de synthese du televersement detaille chaque groupe de doublons avec les noms de fichiers, les tailles et la reference au document maitre. Cela fournit un enregistrement defensible de ce qui a ete deduplique et pour quelle raison.
Threading des e-mails
Le threading des e-mails regroupe les e-mails lies en fils de conversation, en identifiant la chaine de reponse hierarchique. Le threading est applique au moment de l'ingestion, ce qui signifie que les e-mails non inclusifs sont identifies et peuvent etre exclus de l'espace de travail de revision avant tout traitement en aval. Il s'agit d'un choix de conception delibere — en filtrant les e-mails redondants en amont, les organisations realisent des economies substantielles sur les couts d'hebergement (moins de stockage, index de recherche plus petits) et sur les couts de traitement par IA (moins de documents a classer, biffer et resumer).
Chaque e-mail d'un fil est classe comme suit :
- Inclusif — contient un contenu unique ou des pieces jointes absentes des messages ulterieurs du fil. Ce sont les messages sur lesquels les reviseurs doivent se concentrer, car ils representent la version la plus complete de chaque point de la conversation.
- Non inclusif — le contenu complet de cet e-mail est deja contenu dans un message ulterieur et plus complet du fil. La revision de ces messages serait redondante, car le message inclusif capture deja tout.
Lorsque l'option Inclusive Only est activee lors du televersement, les e-mails non inclusifs sont entierement exclus de l'espace de travail de revision actif. Ils sont toujours conserves dans le systeme a des fins d'audit, mais ils ne sont pas comptabilises dans le stockage d'hebergement, ne sont pas indexes pour la recherche et ne sont pas traites par la classification, la biffer ou le resume par IA — ce qui reduit directement les couts.
Le threading utilise les en-tetes des e-mails (Message-ID, In-Reply-To, References) et l'index de conversation Microsoft Exchange pour construire des arborescences de fils precises. Le rapport de synthese du threading indique :
- Nombre total d'e-mails traites et combien etaient threadables
- Nombre de messages inclusifs et non inclusifs
- E-mails non inclusifs exclus de l'espace de travail de revision
- Groupes de fils identifies
- Toute erreur de threading rencontree
Filtrage NIST
Le filtrage NIST supprime de l'ensemble de revision les fichiers systeme connus, les composants du systeme d'exploitation et les fichiers d'execution logicielle. Ces fichiers sont identifies en faisant correspondre leurs valeurs de hachage avec la NIST National Software Reference Library (NSRL) — une base de donnees complete de fichiers systeme connus et non pertinents.
Les fichiers filtres par NIST sont marques et exclus de l'espace de travail de revision actif, mais sont conserves dans le systeme a des fins d'audit. Le rapport de synthese du televersement indique le nombre et les details des fichiers filtres.
Exceptions de traitement
Lors de l'ingestion, certains documents peuvent rencontrer des exceptions de traitement. Dezcry les suit et les signale dans le rapport de synthese du televersement :
| Exception Type | Description |
|---|---|
| Encrypted | Fichiers proteges par mot de passe qui n'ont pas pu etre dechiffres. Ajoutez les mots de passe au Password Bank et relancez le traitement. |
| Corrupt | Fichiers malformes, tronques ou autrement illisibles. |
| Unsupported Format | Types de fichiers que Dezcry ne prend pas actuellement en charge pour l'extraction de texte. |
| Text Extraction Failed | Fichiers dont le contenu n'a pas pu etre extrait malgre un format pris en charge. |
Chaque exception inclut l'ID du document, le nom de fichier, le type d'exception et un message descriptif pour aider a diagnostiquer et a resoudre le probleme.
Lots de televersement
Chaque televersement cree un lot de traitement avec un identifiant d'affichage unique (par exemple, UPL-001). Acces a la page Uploads pour consulter tous les lots du dossier, notamment :
- Statut du lot (en cours de traitement, termine, echoue)
- Nombre total de fichiers soumis et traites
- Comptages par resultat (traites avec succes, chiffres, corrompus, doublons, filtres NIST)
- Resultats du dechiffrement (reussi, echoue)
- Elements enfants extraits (pieces jointes des fichiers conteneurs)
- Distribution des types de fichiers
- Duree du traitement
- Hachage MD5 du lot de televersement pour la verification de la chaine de custody
Cliquez sur un lot pour consulter le rapport de traitement detaille, incluant les details des exceptions par document, les groupes de deduplication et les statistiques de threading.
Cliquez sur n'importe quel lot pour consulter le rapport de traitement detaille, incluant les details des exceptions par document, les groupes de deduplication et les statistiques de threading.
Examen des documents
Liste des documents
L'espace de travail principal de l'affaire affiche tous les documents dans un tableau consultable et triable. Chaque ligne indique le nom de fichier, le type, le statut, la taille, le depositaire ainsi que les tags ou decisions appliques. Fonctionnalites principales :
- Recherche plein texte — recherche par mot-cle dans le contenu des documents, les noms de fichiers et les metadonnees des emails via Elasticsearch de niveau eDiscovery
- Filtres de colonnes — filtrage par statut, type de fichier, depositaire, plages de dates, tags, codage de pertinence et champs de decision personnalises
- Selection en masse — selection de plusieurs documents pour des operations par lot telles que le tagging, le codage de decision ou l'export
- Tri — tri selon n'importe quelle colonne, notamment le nom de fichier, la date, la taille, la pertinence ou le type
- Recherches sauvegardees — sauvegarde de toute combinaison de requete et de filtres pour une reutilisation ulterieure
Visionneuse de documents
Cliquez sur n'importe quel document pour ouvrir la visionneuse complete. Celle-ci offre une interface multi-panneaux riche pour l'examen des documents individuels :
- Affichage du document — rendu natif du document avec controles de zoom (0,25x a 3x)
- Trois onglets de visualisation : Original (format natif), Balisage (avec superposition de caviardage) et Texte (texte brut extrait avec mise en surbrillance des recherches)
- Panneau de metadonnees — proprietes du document, en-tetes d'email, empreintes de fichiers et informations de traitement
- Panneau de decisions — definir la pertinence, le marquage de document important, les commentaires et les champs de decision personnalises
- Panneau de famille — afficher les relations parent/enfant (par exemple, un email et ses pieces jointes)
- Panneau de chat — poser des questions sur le document en utilisant l'IA
- Navigation — boutons precedent/suivant avec raccourcis clavier pour un examen sequentiel rapide
La visionneuse de documents utilise un cache de prefetching qui precharge les documents adjacents (precedent et suivant) en arriere-plan. Cela permet une navigation quasi instantanee lors de l'examen sequentiel des documents. Le cache conserve jusqu'a 50 documents avec un TTL de 2 minutes.
Visionneuses de fichiers natifs
Dezcry inclut des visionneuses dediees pour chaque type de fichier pris en charge, rendant les documents directement dans le navigateur sans necessiter de plugins ni de telechargements :
| Visionneuse | Types de fichiers | Fonctionnalites |
|---|---|---|
| Visionneuse PDF | Fichiers PDF | Rendu page par page, zoom, defilement, selection de texte, mise en surbrillance des recherches |
| Visionneuse d'images | PNG, JPG, TIFF, BMP, GIF | Panoramique et zoom, ajustement a la largeur/hauteur, affichage pleine resolution |
| Visionneuse DOCX | Documents Word (DOCX) | Rendu du texte formate avec styles, en-tetes, listes et tableaux |
| Visionneuse PPTX | PowerPoint (PPTX) | Rendu diapositive par diapositive avec mises en page et mise en forme |
| Visionneuse de tableurs | XLSX, XLS, CSV | Onglets multi-feuilles, en-tetes de colonnes/lignes, mise en forme des cellules, volets figes |
| Visionneuse de texte | TXT, LOG, HTML, XML, JSON | Texte avec coloration syntaxique, numeros de ligne et recherche |
| Lecteur audio | MP3, WAV, M4A | Lecteur audio avec forme d'onde, controles de lecture et affichage des horodatages |
| Lecteur video | MP4, AVI, MOV | Lecteur video avec controles de lecture et mode plein ecran |
| Visionneuse de balisage | Tout document avec caviardages | Rendu des superpositions de caviardage avec categories d'entites codees par couleur |
Panneau de metadonnees
Le panneau de metadonnees affiche toutes les proprietes extraites du document en cours. Pour les fichiers email, cela inclut :
- Les adresses De, A, CC, BCC
- L'objet du message
- La date d'envoi et la date de reception
- Le Message-ID et les references de threading de conversation
- Le nombre et la liste des pieces jointes
Pour tous les documents, le panneau de metadonnees affiche :
- La taille du fichier, le type MIME et le type de document
- Les empreintes MD5 et SHA-256 (pour la verification de l'integrite)
- Les dates de creation et de modification
- L'auteur (lorsque disponible dans les proprietes du document)
- Le chemin du dossier source du conteneur d'origine
- Le statut OCR et le resume IA (lorsque disponibles)
- Le statut de traitement et les eventuels messages d'erreur
Panneau de decisions
Le panneau de decisions est l'endroit ou les examinateurs consignent leurs evaluations. Chaque decision est horodatee et enregistree dans la piste d'audit. Champs disponibles :
- Pertinence — marquer le document comme Pertinent, Non pertinent ou selon d'autres valeurs personnalisees
- Document important — signaler les documents importants ou significatifs pour y porter attention
- Commentaire de decision — annotation en texte libre expliquant le raisonnement de l'examinateur
- Champs de decision personnalises — tout champ supplementaire configure au niveau de l'affaire (selection unique, selection multiple ou texte libre)
Dezcry utilise le verrouillage optimiste sur les decisions de documents afin d'eviter les conflits d'ecrasement lorsque plusieurs examinateurs travaillent sur la meme affaire. Chaque document suit un numero de version qui est incremente a chaque mise a jour. Si deux examinateurs tentent d'enregistrer des modifications sur le meme document simultanement, le second enregistrement recevra une erreur de conflit et sera invite a actualiser la page avant de reappliquer ses modifications.
Documents de famille
Les documents extraits de fichiers conteneurs (emails avec pieces jointes, archives ZIP) sont automatiquement regroupes en familles. Une famille se compose d'un document parent (p. ex. un e-mail) et de ses documents enfants (p. ex. les pieces jointes).
Le panneau de famille dans la visionneuse de documents affiche tous les documents associes, permettant aux examinateurs de naviguer rapidement entre un e-mail parent et ses pieces jointes. Les relations familiales sont preservees tout au long des workflows — les resultats de recherche peuvent inclure l'expansion des familles, et les exports peuvent regrouper les membres d'une meme famille.
Etiquetage
Les documents peuvent etre etiquetes avec des codes de pertinence et des valeurs de champs de decision personnalises. Les etiquettes sont definies via le panneau de decisions dans la visionneuse de documents ou par des actions groupees sur la liste de documents. Toutes les actions d'etiquetage sont consignees dans la piste d'audit avec l'identite de l'examinateur et l'horodatage.
Metadonnees
Vue d'ensemble
Chaque document verse dans un dossier dispose d'un ensemble riche de champs de metadonnees extraits automatiquement lors du traitement. Dezcry capture plus de 60 champs de metadonnees par document — couvrant tout, des proprietes de fichier de base et des en-tetes d'e-mail aux resumes generes par l'IA et aux decisions des examinateurs. Ces champs sont disponibles pour le filtrage, le tri, l'affichage en colonne, la recherche et l'export sur toute la plateforme.
Les metadonnees sont extraites au moment du versement sans aucun effort manuel. Pour les fichiers d'e-mail, Dezcry analyse tous les en-tetes standard, y compris les references de threading. Pour les documents Office et les PDF, les proprietes integrees telles que l'auteur, le titre et la date de creation sont capturees. Pour les images, les donnees EXIF incluant la marque de l'appareil photo, les coordonnees GPS et les horodatages sont preservees. Toutes les dates sont normalisees en UTC pour une analyse coherente entre les fuseaux horaires.
Les metadonnees sont essentielles pour des workflows de revision defensibles. Des champs comme les valeurs de hachage (MD5, SHA-256) garantissent l'integrite de la chaine de possession. Les champs de date permettent un filtrage precis par plage de dates afin de reduire les ensembles de revision. Les metadonnees de threading d'e-mail permettent aux examinateurs de se concentrer uniquement sur les messages inclusifs. Et le suivi des depositaires sur les doublons garantit qu'aucune information n'est perdue meme lorsque les copies redondantes sont supprimees. Tous les champs de metadonnees listes ci-dessous sont disponibles dans les exports de fichiers de chargement (DAT, CSV, XLSX) pour une utilisation en aval dans Relativity, Nuix ou d'autres plateformes de revision.
Champs de document principaux
Ces champs sont presents sur chaque document independamment du type de fichier. Ils fournissent les identifiants fondamentaux, les proprietes de fichier et les informations de traitement necessaires a la gestion des documents et au suivi de la chaine de possession.
| Champ | Type | Description |
|---|---|---|
| doc_id | Chaine | Identifiant unique du document au sein du dossier (p. ex. DOC-000001). Il s'agit de la reference principale utilisee sur toute la plateforme — dans les resultats de recherche, les exports, les journaux d'audit et les references croisees. |
| doc_seq | Entier | Numero sequentiel attribue lors du versement, utilise pour le tri et la numerotation de style Bates dans les exports. Les sequences sont uniques au sein de chaque dossier et attribuees dans l'ordre de telechargement. |
| filename | Chaine | Nom de fichier original du document tel qu'il existait dans les donnees sources. Preserve exactement tel que trouve pour la defensibilite — aucun renommage ni assainissement n'est applique. |
| mime | Chaine | Type MIME du fichier (p. ex. application/pdf, message/rfc822). Determine a la fois par l'extension du fichier et l'analyse des octets magiques pour une identification precise. |
| document_type | Chaine | Categorie de document enrichie — E-mail, PDF, Word, Excel, PowerPoint, Image, Texte, Archive, Audio, Video ou Autre. Utile pour filtrer la liste de documents par type de fichier. |
| size_bytes | Entier | Taille du fichier en octets. Affichee dans un format lisible (Ko, Mo) dans l'interface. Utile pour identifier les fichiers inhabituellement volumineux ou suspicieusement petits. |
| source_folder | Chaine | Chemin du dossier original dans le conteneur source — p. ex. la hierarchie de dossiers PST (Inbox/Projects/2024), le chemin du repertoire ZIP ou la structure d'archive imbriquee. Preserve le contexte organisationnel des donnees d'origine. |
| date_created_utc | DateHeure | Date de creation du fichier en UTC. Pour les documents Office, extraite des proprietes de document integrees. Pour les autres fichiers, derivee des horodatages du systeme de fichiers ou des metadonnees du conteneur. |
| date_modified_utc | DateHeure | Date de derniere modification du fichier en UTC. Essentielle pour le filtrage par plage de dates dans les workflows de revision et pour etablir les chronologies de documents. |
| md5 | Chaine | Hachage MD5 du contenu du fichier (32 caracteres hexadecimaux). Utilise pour la deduplication dans le dossier et pour la verification de l'integrite de la chaine de possession dans les exports. |
| sha256 | Chaine | Hachage SHA-256 du contenu du fichier (64 caracteres hexadecimaux). Fournit une empreinte d'integrite cryptographiquement solide pour une production defensible. |
| status | Chaine | Statut de traitement — queued (en attente de traitement), processing (en cours de versement), ready (traite avec succes et disponible pour revision) ou failed (une erreur s'est produite). |
| processing_error | Chaine | Message d'erreur detaille en cas d'echec du traitement. Aide a diagnostiquer les problemes tels que les fichiers proteges par mot de passe, les archives corrompues ou les formats non pris en charge. |
| processing_dataset | Chaine | Identifiant du lot de telechargement (p. ex. UPL-001) reliant le document a son lot de versement. Utile pour suivre a quel ensemble de telechargement appartient un document et consulter les statistiques au niveau du lot. |
Champs de famille & de hierarchie
Les documents extraits de fichiers conteneurs — tels que les e-mails avec pieces jointes, les archives ZIP ou les dossiers PST imbriques — sont automatiquement regroupes en familles. Les relations familiales sont essentielles pour une revision defensible : les examinateurs voient chaque e-mail accompagne de ses pieces jointes, et les exports peuvent regrouper les membres d'une famille dans le meme volume pour la production.
| Champ | Type | Description |
|---|---|---|
| family_id | Chaine | Identifiant du groupe familial. Pour les documents parents (p. ex. un e-mail), ce champ est egal au doc_id du document lui-meme. Pour les documents enfants (p. ex. les pieces jointes), ce champ herite du family_id du parent — reliant toute la famille pour le regroupement, l'export et la revision. |
| parent_id | UUID | Identifiant du document parent (p. ex. l'e-mail qui contenait cette piece jointe). Null pour les documents autonomes de niveau superieur. Permet l'affichage de l'arborescence familiale dans la visionneuse de documents, ou les examinateurs peuvent naviguer entre un parent et tous ses enfants. |
Lors de l'export de documents, Dezcry preserve les relations familiales dans le fichier de chargement. Les documents parents et leurs enfants sont lies via les champs family_id et parent_id, permettant aux plateformes de revision en aval (Relativity, Nuix, etc.) de reconstruire la hierarchie familiale. L'assistant d'export prend egalement en charge le regroupement en volumes par famille pour conserver les documents associes ensemble.
Champs d'e-mail
L'e-mail est souvent le type de donnees le plus important en eDiscovery. Dezcry extrait un ensemble complet de metadonnees d'e-mail depuis les formats EML et MSG, y compris les messages extraits des conteneurs PST, OST et MBOX. Ces champs sont stockes en tant que colonnes de base de donnees de premier ordre pour un filtrage, un tri et une recherche specifiques aux champs efficaces (p. ex. from:john@acme.com).
| Champ | Type | Description |
|---|---|---|
| email_from | Chaine | Adresse e-mail et nom d'affichage de l'expediteur (p. ex. "John Smith <john@acme.com>"). Consultable via le prefixe de champ from: dans la recherche par mots-cles. |
| email_to | Chaine | Adresses e-mail des destinataires (separees par des points-virgules). Prend en charge plusieurs destinataires. Consultable via le prefixe de champ to:. |
| email_cc | Chaine | Adresses e-mail des destinataires en copie carbone (separees par des points-virgules). Consultable via le prefixe de champ cc:. |
| email_bcc | Chaine | Adresses e-mail des destinataires en copie carbone invisible (separees par des points-virgules). Consultable via le prefixe de champ bcc:. Disponible uniquement lorsque les donnees sources incluent des en-tetes BCC (generalement uniquement dans la boite de courrier de l'expediteur). |
| email_subject | Chaine | Ligne d'objet de l'e-mail. Consultable via le prefixe de champ subject:. Couramment utilise pour la recherche par mots-cles et les workflows de classification. |
| email_message_id | Chaine | En-tete Message-ID RFC 2822 — un identifiant unique global attribue par le serveur de messagerie expediteur. Utilise en interne pour le threading d'e-mail et la deduplication. |
| email_date_sent_utc | DateHeure | Date et heure d'envoi de l'e-mail, normalisees en UTC. Il s'agit du champ de date principal utilise pour le filtrage par plage de dates des e-mails et l'analyse chronologique. |
| email_date_received_utc | DateHeure | Date et heure de reception de l'e-mail, normalisees en UTC. Peut differer de date_sent en raison de delais de livraison ou de differences de fuseau horaire entre les serveurs de l'expediteur et du destinataire. |
| email_attachments_json | JSON | Resume structure des pieces jointes contenant le nombre et la liste des noms de fichiers (p. ex. {count: 3, names: ["report.pdf", "data.xlsx", "photo.jpg"]}). Utile pour identifier rapidement les e-mails avec des pieces jointes specifiques sans les ouvrir. |
| email_in_reply_to | Chaine | Message-ID de l'e-mail auquel celui-ci est une reponse directe. Utilise par le moteur de threading pour construire l'arborescence de conversation. |
| email_references | Chaine | Chaine ordonnee de Message-ID representant l'historique complet de la conversation. Chaque reponse ajoute le Message-ID de son parent, creant un fil d'Ariane a travers la discussion. |
| email_conversation_index | Chaine | PR_CONVERSATION_INDEX Microsoft Exchange — une valeur binaire encodee en hexadecimal presente dans les messages originaires d'Outlook/Exchange. Fournit un positionnement precis dans le thread meme lorsque les en-tetes standard sont absents ou peu fiables. |
| email_thread_index | Chaine | Chemin de position hierarchique dans le thread calcule par Dezcry (p. ex. "a1b2c3d4+0001+0002"). Encode la position exacte dans l'arborescence pour un ordre de tri chronologique correct et l'identification des branches dans les vues de conversation. |
Tous les champs de metadonnees d'e-mail sont indexes dans le moteur de recherche. Vous pouvez utiliser des prefixes de recherche specifiques aux champs pour cibler des champs individuels — par exemple, from:john@acme.com AND subject:"quarterly report" ou to:legal@company.com AND date >= 2024-01-01. Consultez la section Syntaxe de recherche pour la liste complete des prefixes de champ et des operateurs pris en charge.
Champs de threading d'e-mail
Ces champs sont calcules par le moteur de threading d'e-mail de Dezcry lors du versement. Le threading regroupe les messages associes en arborescences de conversation et identifie quels messages sont inclusifs (contenant du contenu unique qu'un examinateur doit voir) par opposition aux messages non inclusifs (messages redondants dont le contenu est entierement capture par une reponse ulterieure). Cela peut reduire l'ensemble de revision de 40 a 60 % dans les dossiers riches en e-mails, diminuant directement le temps de revision et les couts de traitement par IA.
| Champ | Type | Description |
|---|---|---|
| email_thread_group_id | UUID | Identifiant du groupe de discussion auquel cet e-mail appartient. Tous les e-mails d'une meme conversation partagent cet identifiant, permettant le regroupement au niveau du thread et la navigation dans la visionneuse de documents. |
| email_thread_indentation | Entier | Profondeur dans l'arborescence du thread (0 = message racine/original, 1 = reponse directe, 2 = reponse a une reponse, etc.). Utilise pour l'indentation visuelle dans les vues de conversation. |
| is_inclusive_email | Booleen | Indique si cet e-mail est inclusif — c'est-a-dire s'il contient du contenu de message unique ou des pieces jointes non presentes dans un message ulterieur dans le thread. Null si le threading n'etait pas active pour ce document. Les e-mails inclusifs constituent l'ensemble minimum qu'un examinateur doit consulter. |
| inclusive_reason | Chaine | Explique pourquoi l'e-mail est inclusif : unique_message_content (texte du corps absent des reponses ulterieures), unique_attachment (piece jointe absente des messages ulterieurs), unanalyzed_attachment (la piece jointe n'a pas pu etre comparee), root_message (premier message du thread) ou threading_error (l'inclusivite n'a pas pu etre determinee). |
Lorsque l'option "Inclusif uniquement" est activee lors du telechargement, les courriels non inclusifs sont entierement exclus de l'espace de travail de revue actif. Ils sont neanmoins conserves dans le systeme et peuvent etre consultes via la vue de conversation pour le contexte, mais ils n'apparaissent pas dans la liste principale des documents, ne sont pas traites par la classification IA ni par la redaction, et ne sont pas comptabilises dans le stockage. Il s'agit de l'approche recommandee pour les dossiers comportant un volume important de courriels lorsque l'efficacite des couts est une priorite.
Champs OCR
Dezcry detecte automatiquement les documents qui ne contiennent aucun texte extractible -- tels que les PDF numerises, les photographies de documents et les fichiers image -- et les signale pour la reconnaissance optique de caracteres (OCR). Une fois l'OCR effectue, le texte extrait devient entierement consultable et disponible pour le traitement IA.
| Champ | Type | Description |
|---|---|---|
| ocr_required | Booleen | Indique si le document necessite l'OCR pour extraire du texte consultable. Defini automatiquement sur vrai lors de l'ingestion pour les PDF numerises, les PDF ne contenant que des images et les fichiers image (JPEG, PNG, TIFF, BMP). Les documents disposant d'un texte integre existant sont definis sur faux. |
| ocr_status | Chaine | Statut actuel du traitement OCR : not_applicable (le document possede un texte integre, l'OCR n'est pas necessaire), completed (OCR termine avec succes, texte extrait), failed (OCR tente mais une erreur s'est produite), partial (certaines pages ont ete traitees avec succes) ou skipped (OCR non execute bien que requis). |
Champs de deduplication
Lorsque la deduplication globale est activee lors du telechargement, Dezcry identifie les fichiers identiques octet par octet dans l'ensemble du dossier par correspondance de hachage. La premiere instance est conservee en tant que document maitre et les copies suivantes sont signalees comme doublons. La deduplication est appliquee au niveau superieur -- ce qui signifie que les familles entieres (courriel + pieces jointes) sont dedupliquees en tant qu'unite, preservant l'integrite des familles. Consultez la section Deduplication pour tous les details.
| Champ | Type | Description |
|---|---|---|
| is_duplicate | Booleen | Indique si ce document est un doublon d'un autre document dans le dossier. Les documents en double sont exclus de l'ensemble de revue actif mais conserves a des fins d'audit et d'exportation. |
| duplicate_of_id | UUID | Identifiant du document maitre dont celui-ci est un doublon. Permet aux reviseurs et aux exportations de retrouver la copie conservee. Le document maitre est toujours la premiere instance ingeree. |
| duplicate_custodian_info | Chaine | Enregistre quels depositaires detenaient des copies de ce document. Essentiel pour la defensabilite -- meme si les copies en double sont retirees de l'ensemble de revue, ce champ preserve un enregistrement complet des personnes qui possedaient le document dans toutes les sources de donnees. |
Champs de filtrage NIST
Le filtrage NIST (egalement connu sous le nom de "de-NISTing") supprime les fichiers systeme connus, les composants du systeme d'exploitation et les fichiers d'execution d'applications de l'ensemble de revue en faisant correspondre les hachages de fichiers avec la Bibliotheque nationale de reference logicielle du NIST (NSRL). Il s'agit d'une pratique standard en eDiscovery qui elimine les fichiers qui ne sont jamais pertinents pour la revue -- tels que les DLL Windows, les modeles Office et les fichiers de cache du navigateur -- supprimant souvent 10 a 30 % d'un ensemble de donnees avant le debut de la revue.
| Champ | Type | Description |
|---|---|---|
| is_nist_filtered | Booleen | Indique si ce fichier a ete identifie comme un fichier systeme ou d'application connu par correspondance de hachage NIST NSRL. Les fichiers filtres sont exclus de l'espace de travail de revue actif mais conserves dans le systeme a des fins d'audit et de rapport. |
| nist_product_name | Chaine | Nom du produit logiciel auquel appartient le fichier selon la base de donnees NSRL (p. ex. Microsoft Windows 11, Adobe Acrobat Reader, Google Chrome). Aide a identifier pourquoi un fichier a ete filtre et fournit un contexte dans les rapports d'exceptions. |
Champs de chiffrement et d'integrite
Dezcry effectue une analyse detaillee de chaque fichier lors de l'ingestion pour detecter le chiffrement, la corruption et les incompatibilites de type de fichier. Ces champs fournissent une image complete du statut d'integrite de chaque document -- essentiel pour les rapports d'exceptions en eDiscovery et pour garantir qu'aucun document n'est manque de facon silencieuse lors du traitement.
| Champ | Type | Description |
|---|---|---|
| is_encrypted | Booleen | Indique si le document est chiffre ou protege par un mot de passe. Les fichiers chiffres ne peuvent pas etre traites avant d'etre dechiffres -- ajoutez le mot de passe a la banque de mots de passe et retraitez, ou notez l'exception dans les rapports. |
| encryption_type | Chaine | Classification detaillee du chiffrement : password_protected (mot de passe Office/PDF standard), drm_protected (gestion des droits numeriques), pgp_encrypted (chiffrement PGP/GPG), smime_encrypted (chiffrement de courriel S/MIME) ou bitlocker (artefact de chiffrement de disque complet). Aide les equipes informatiques a determiner la methode de dechiffrement appropriee. |
| is_corrupt | Booleen | Indique si le document est corrompu ou malforme. Les fichiers corrompus sont signales comme exceptions de traitement et inclus dans les rapports d'exceptions pour la transparence. |
| corruption_type | Chaine | Classification detaillee de la corruption : truncated (fichier tronque), malformed_header (en-tete de fichier invalide), invalid_structure (erreurs de structure interne) ou zero_byte (fichier vide). Fournit des details exploitables pour le depannage ou la re-collecte depuis la source. |
| file_signature | Chaine | Signature des octets magiques du fichier detectee en inspectant l'en-tete binaire du fichier (p. ex. "PDF-1.4", "PK (ZIP)", "JPEG/JFIF"). Independante de l'extension du fichier -- fournit la veritable identite du format. |
| file_signature_mismatch | Booleen | Indique si l'extension du fichier ne correspond pas au contenu reel detecte par les octets magiques (p. ex. un fichier .docx qui est en realite un .exe renomme). Important pour identifier les fichiers potentiellement suspects ou mal etiquetes lors d'une revue medico-legale. |
| is_decrypted | Booleen | Indique si le document a ete dechiffre avec succes lors du traitement a l'aide d'un mot de passe de la banque de mots de passe ou fourni au moment du telechargement. |
| decryption_method | Chaine | Methode de dechiffrement du document : global_password_bank (correspondance avec les mots de passe stockes du dossier) ou upload_password (mot de passe fourni lors du telechargement contenant ce fichier). Fournit une piste d'audit pour les actions de dechiffrement. |
Dezcry inspecte les octets magiques binaires de chaque fichier pour determiner son veritable format, independamment de l'extension du fichier. Lorsqu'une incompatibilite est detectee (p. ex. un fichier .xlsx qui est en realite une archive ZIP, ou un .pdf qui est en realite une image JPEG), l'indicateur file_signature_mismatch est active. Cela est utile pour identifier les fichiers qui ont ete intentionnellement renommes pour echapper a la revue, une tactique courante dans les enquetes et litiges.
Champs d'exceptions de traitement
Dans tout dossier d'eDiscovery, un pourcentage de documents rencontrera des problemes de traitement. Dezcry categorise chaque exception avec un type et une action, fournissant les donnees structurees necessaires pour des rapports d'exceptions defensables. Ces champs sont inclus dans les exportations et les rapports de lots de traitement afin que les equipes juridiques disposent d'un enregistrement complet de ce qui a -- et n'a pas -- ete traite avec succes.
| Champ | Type | Description |
|---|---|---|
| exception_type | Chaine | La categorie d'exception de traitement : encryption (fichier protege par mot de passe ou chiffre), corruption (fichier malforme ou endommage), unsupported_format (type de fichier non pris en charge pour l'extraction de texte) ou text_extraction_failed (format pris en charge mais l'extraction a rencontre une erreur). Utilise pour filtrer et rendre compte des resultats de traitement. |
| exception_action | Chaine | L'action prise par Dezcry en reponse a l'exception : processed_with_errors (traitement partiel complete avec certains problemes notes), skipped (le document n'a pas pu etre traite du tout), partial_extraction (une partie du contenu a ete extraite mais le processus n'a pas ete entierement complete) ou placeholder_created (une entree de substitution a ete creee a des fins de suivi et de rapport). Assure la transparence pour les equipes juridiques evaluant l'exhaustivite. |
Champs IA et de traitement
Dezcry utilise l'IA pour generer automatiquement des resumes de documents, appliquer des redactions et produire des apercus de documents. Ces champs suivent le statut et les resultats de chaque flux de travail alimente par l'IA, permettant aux reviseurs de voir rapidement quels documents ont ete resumes, rediges ou sont encore en attente de traitement.
| Champ | Type | Description |
|---|---|---|
| llm_summary | Chaine | Resume de 1 a 2 phrases genere par IA du contenu du document. Les resumes sont produits automatiquement apres l'ingestion et affiches dans la liste des documents et le visualiseur. Utile pour trier rapidement les documents sans les ouvrir -- les reviseurs peuvent parcourir les resumes pour identifier plus rapidement les documents pertinents. |
| markup_status | Chaine | Statut du flux de travail de redaction et d'annotation : not_started (aucune redaction appliquee), pending (redaction en cours), complete (toutes les redactions appliquees et le marquage genere) ou failed (une erreur s'est produite lors de la generation du marquage). Les documents dont le markup_status est "complete" disposent d'un apercu entierement redige. |
| markup_page_count | Entier | Nombre total de pages dans le document de marquage. Rempli apres la completion de la generation du marquage. Utile pour estimer l'effort de revue et pour le suivi des redactions au niveau de la page dans les rapports de production. |
| preview_status | Chaine | Statut de generation de l'apercu du document : none (aucun apercu demande), queued (en attente de generation), generating (en cours de conversion), ready (apercu disponible pour consultation) ou error (echec de la generation). Les apercus convertissent les formats natifs en HTML/PDF consultables pour la revue de documents dans le navigateur. |
Champs de decision du reviseur
Ces champs sont definis par les reviseurs lors de la revue des documents via le Panneau de decisions dans le visualiseur de documents, ou via des actions en lot sur la liste des documents. Chaque modification de ces champs est horodatee, attribuee au reviseur et enregistree dans la piste d'audit pour une defensabilite totale. Le verrouillage optimiste empeche les modifications conflictuelles lorsque plusieurs reviseurs travaillent sur le meme dossier simultanement.
| Champ | Type | Description |
|---|---|---|
| relevance | Chaine | Classification de pertinence attribuee par le reviseur -- generalement Responsive, Non-Responsive ou Privileged, mais entierement personnalisable au niveau du dossier. Il s'agit du champ de codage principal utilise pour separer les documents pertinents du reste de l'ensemble de donnees. |
| hot_document | Booleen | Indicateur signalant que le document est particulierement significatif -- une "piece a conviction" ou une preuve cle qui merite une attention accrue. Les documents importants sont visuellement mis en evidence dans la liste des documents et peuvent etre filtres pour un acces rapide. |
| decision_comment | Chaine | Annotation en texte libre dans laquelle les reviseurs expliquent leur raisonnement pour la decision de pertinence. Utile pour le controle de la qualite, la revue en second passage et la fourniture de contexte aux reviseurs seniors ou aux conseillers juridiques. |
| relevance_coded_at | DateHeure | Horodatage du dernier enregistrement de la decision de pertinence. Utilise pour le suivi de la progression de la revue, les mesures de productivite et les objectifs de la piste d'audit. Mis a jour chaque fois que le reviseur modifie sa decision. |
En plus des champs integres ci-dessus, les dossiers peuvent etre configures avec des champs de decision personnalises -- listes deroulantes a selection unique, etiquettes a selection multiple ou champs en texte libre -- pour saisir le codage specifique au dossier tel que les codes de probleme, les categories de privilege ou les designations de confidentialite. Les champs personnalises sont entierement exportables et apparaissent dans le panneau de decisions aux cotes des champs standard. Consultez Champs personnalises pour les details de configuration.
Metadonnees etendues (metadata_json)
En plus des champs de premier rang ci-dessus, chaque document contient un objet de metadonnees etendu avec des proprietes specifiques au format organisees par espace de noms. Ces champs capturent toute la profondeur des informations incorporees dans chaque type de fichier -- des outils de creation de PDF aux donnees de geolocalisation EXIF d'image en passant par les resultats d'authentification de courriel. Les metadonnees etendues sont consultables dans le panneau de metadonnees et incluses dans les exportations.
| Espace de noms | Types de document | Champs |
|---|---|---|
| general | Tous les documents | filename, extension, mime, document_type, size_bytes, upload_batch_id. Present sur chaque document comme ensemble de proprietes de base. |
| EML, MSG | from, to, cc, bcc, subject, message_id, in_reply_to, references, conversation_index, date_sent_utc, date_received_utc, attachments (nombre et noms). Inclut egalement les resultats d'authentification de courriel : dkim_result, spf_result et dmarc_result -- utiles pour identifier les messages usurpes ou non authentifies. | |
| Fichiers PDF | title, author, subject, producer (l'application ayant genere le PDF), creator (l'application d'origine), creation_date_utc, modification_date_utc, page_count, is_encrypted. Extraits a la fois du dictionnaire d'informations PDF et des flux de metadonnees XMP lorsque disponibles. | |
| ooxml | Word, Excel, PowerPoint (DOCX, XLSX, PPTX) | Proprietes principales : created, modified, title, subject, creator, lastModifiedBy, revision, keywords, description, category. Proprietes de l'application : application (p. ex. Microsoft Excel), company, template. Ce sont les proprietes visibles dans la boite de dialogue "Proprietes" d'un fichier dans Microsoft Office. |
| image | JPEG, PNG, TIFF, BMP, GIF | format (p. ex. JPEG, PNG), mode (p. ex. RGB, RGBA), width, height. Donnees EXIF (lorsque disponibles) : DateTimeOriginal, DateTimeDigitized, Make (fabricant de l'appareil photo), Model (modele de l'appareil photo), Software, Orientation, XResolution, YResolution et GPSInfo (latitude, longitude, altitude). Les donnees de geolocalisation EXIF peuvent etre essentielles dans les enquetes impliquant des photographies. |
Recherche
Recherche par mots-cles
Dezcry offre une recherche par mots-cles de niveau eDiscovery propulsee par Elasticsearch, offrant des capacites equivalentes a dtSearch a grande echelle. Le moteur de recherche prend en charge des millions de documents avec des temps de reponse inferieurs a la seconde.
La recherche est accessible depuis la liste principale de documents via la barre de recherche. Les resultats sont classes par pertinence avec mise en evidence des occurrences, et toutes les recherches renvoient des comptes exacts (jamais approximatifs). Les resultats de recherche peuvent etre filtres davantage a l'aide de filtres de colonnes et enregistres pour une reutilisation ulterieure.
Les champs suivants sont indexes et consultables :
- Contenu textuel integral des documents
- Nom de fichier et chemin d'acces
- Champs de courriel : objet, de, a, cc, cci
- Auteur, depositaire, type de document, type MIME
- Empreintes MD5 et SHA-256
- Etiquettes, dates (creation, modification, envoi, reception)
Syntaxe de recherche
Dezcry prend en charge la gamme complete de syntaxes de recherche eDiscovery :
| Syntaxe | Exemple | Description |
|---|---|---|
| Boolean AND | contract AND liability | Les deux termes doivent figurer dans le document |
| Boolean OR | merger OR acquisition | L'un ou l'autre des termes doit figurer |
| Boolean NOT | confidential NOT public | Le premier terme doit figurer, le second ne doit pas |
| Groupement | (merger OR acquisition) AND confidential | Les parentheses controlent la precedence des operateurs |
| Expression exacte | "privileged communication" | Correspondance d'expression exacte, en preservant l'ordre des mots |
| Proximite | "contract breach"~5 | Les termes doivent apparaitre dans un rayon de 5 mots l'un de l'autre |
| W/N (dtSearch) | merger W/5 acquisition | Proximite de style dtSearch -- termes dans un rayon de N mots |
| Caractere generique (prefixe) | priv* | Correspond a privilege, privileged, privacy, etc. |
| Caractere generique (suffixe) | Correspond a email, voicemail, etc. | |
| Caractere generique (simple) | h?t | Correspond a hat, hit, hot, hut, etc. |
| Approximatif | colour~ | Correspond a des orthographes similaires (distance de Levenshtein) |
| Approximatif (explicite) | colour~2 | Correspond dans une distance d'edition de 2 |
| Specifique au champ | subject:"quarterly earnings" | Rechercher dans un champ specifique |
| Champ (courriel) | from:john@acme.com | Rechercher dans le champ De du courriel |
| Champ (nom de fichier) | filename:report.xlsx | Rechercher par nom de fichier |
| Plage de dates | date >= 2020-01-01 | Filtrer par date |
| Plage de dates | date:2020-01-01..2022-12-31 | Plage de dates avec debut et fin |
Les recherches appliquent automatiquement la racinisation -- rechercher "run" correspondra egalement a "running", "ran" et "runs". Ce traitement est effectue par l'analyseur Elasticsearch et fournit des resultats plus complets sans recourir a la syntaxe avec caracteres generiques.
Ensembles de termes de recherche
Les rapports de termes de recherche vous permettent de definir un ensemble de mots-cles et de les executer sur une selection de documents afin de mesurer les taux de correspondance. Cette fonctionnalite est couramment utilisee pour :
- Valider des listes de mots-cles avant une revision complete
- Mesurer la prevalence de sujets specifiques dans la collection
- Produire des rapports d'occurrences de termes de recherche opposables pour les autorites de reglementation
- Identifier quels depositaires ou sources de donnees contiennent des elements pertinents
Pour creer un rapport de termes de recherche, naviguez vers Termes de recherche dans un dossier :
- 1Creer un rapport — Donnez-lui un nom et selectionnez la portee (tous les documents ou une recherche enregistree).
- 2Ajouter des termes de recherche — Saisissez vos mots-cles un par un. Chaque terme peut comporter jusqu'a 450 caracteres et prend en charge la syntaxe de recherche complete.
- 3Configurer les options — Activez "Inclure les correspondances de la famille" pour comptabiliser les documents dont les membres de la famille correspondent. Activez "Etiqueter les correspondances" pour creer des enregistrements de correspondances par document.
- 4Executer le rapport — Dezcry execute chaque terme de recherche sur la portee definie et enregistre les nombres de correspondances.
Rapports de termes de recherche
Une fois qu'un rapport de termes de recherche est complete, vous pouvez consulter les resultats detailles :
- Nombre de correspondances par terme -- nombre de documents correspondant a chaque terme de recherche (correspondances directes et familiales)
- Correspondances uniques -- documents qui correspondent uniquement a ce terme specifique
- Mise en evidence par code couleur -- chaque terme peut se voir attribuer une couleur de mise en evidence personnalisee pour une identification visuelle dans le visionneur de documents
- Resume de la portee -- nombre total de documents dans la portee, nombre total de documents avec au moins une correspondance
- Statut des termes -- suivi individuel du statut de chaque terme (en attente, en cours, termine, erreur)
Lorsque l'option etiqueter les correspondances est activee, vous pouvez filtrer la liste de documents pour n'afficher que les documents qui correspondent a un terme de recherche specifique, permettant une revision ciblee des elements repondant aux mots-cles. Les mises en evidence des termes de recherche persistent dans l'onglet texte du visionneur de documents, affichant les termes correspondants avec leurs couleurs assignees.
Recherches enregistrees
Toute combinaison de requete de recherche et de filtres de colonnes peut etre enregistree sous un nompour une reutilisation ulterieure. Les recherches enregistrees constituent un element fondamental de Dezcry -- elles servent de selecteur de portee pour la redaction, la classification, l'exportation et les rapports de termes de recherche.
| Propriete | Description |
|---|---|
| Nom | Un nom unique au sein du dossier pour une identification aisee |
| Description | Description longue facultative de ce que la recherche capture |
| Visibilite | Partagee (visible par tous les utilisateurs du dossier) ou Privee (createur uniquement) |
| Epinglee | Epinglez les recherches frequemment utilisees en haut de la liste |
| Etiquettes | Categorisez les recherches (ex. : "Privilege", "Revision", "Production") |
| Requete + Filtres | La requete de recherche complete et la configuration des filtres de colonnes |
Lorsqu'une recherche enregistree est utilisee comme portee pour une tache (redaction, classification ou exportation), l'ensemble de documents est fige au moment du demarrage de la tache. Cela signifie que la tache traite les documents qui correspondaient a ce moment-la, meme si de nouveaux documents sont ajoutes au dossier ulterieurement -- garantissant ainsi la defensibilite et la reproductibilite.
Classification AI
Vue d'ensemble
La classification AI vous permet de categoriser automatiquement les documents a l'aide de champs de decision personnalisesdefinis par votre equipe. Contrairement a l'examen manuel, la classification AI traite des ensembles de documents entiers en quelques minutes, produisant des predictions accompagnees de scores de confiance calibres afin que les reviseurs puissent concentrer leur attention sur les elements genuinement ambigus, tandis que les predictions a haute confiance sont appliquees automatiquement.
La classification s'effectue sur des grands modeles de langage au sein du meme environnement Azure que le reste de la plateforme -- aucune donnee de document ne quitte votre deploiement. Le systeme inclut un debiais de confiance pour corriger la surconfiance connue des LLM, un passage de verification pour les predictions limite utilisant un modele distinct, et un decoupage intelligent des documents pour les documents longs. Chaque prediction comprend un score de confiance calibre et une justification, et toutes les decisions sont enregistrees dans la piste d'audit.
La classification et le caviardage servent des objectifs differents. La classification attribue des etiquettes a des documents entiers -- en les categorisant par type, pertinence, sensibilite, ou toute taxonomie personnalisee definie par votre equipe. Le caviardage identifie et supprime des textes specifiques au sein des documents. La classification aide votre equipe a decider quoi faire d'un document ; le caviardage vous aide a le preparer pour la divulgation.
Champs personnalises
Avant d'executer une tache de classification, vous definissez les champs de decision que l'AI doit predire. Ceux-ci sont entierement personnalisables -- vous definissez les noms de champs, les types, les options et les instructions specifiques a votre examen. Acces a Classification dans un dossier pour configurer les champs.
| Type de champ | Description | Exemple |
|---|---|---|
| Selection unique | L'AI choisit exactement une valeur parmi une liste d'options predefinies. Ideal pour les categories mutuellement exclusives. | Pertinence : Responsive / Non-Responsive / Partiellement Responsive |
| Selection multiple | L'AI peut selectionner une ou plusieurs valeurs applicables dans une liste. Ideal pour les etiquettes non exclusives. | Categories de donnees : Financier / Medical / Emploi / Personnel |
| Booleen | Une simple decision oui/non. | Contient des DCP : true / false |
| Texte libre | L'AI fournit une reponse courte en texte libre. Ideal pour les resumes ou descriptions. | Sujets cles : Description en une phrase du contenu du document |
Pour chaque champ, vous fournissez des instructions en langage naturel qui indiquent precisement a l'AI comment evaluer les documents. La qualite de ces instructions influe directement sur la precision de la classification. Dezcry fournit un indicateur de qualite en temps reel pendant la redaction :
| Niveau de qualite | Longueur | Recommandation |
|---|---|---|
| Insuffisant | Moins de 10 caracteres | Trop court pour etre utile -- l'AI n'a aucun contexte pour prendre des decisions. Ajoutez des criteres specifiques, des exemples et des conseils sur les cas limites. |
| Acceptable | 10 a 50 caracteres | Direction de base, mais manque de nuance. Ajouter plus de details sur ce qui qualifie chaque option et sur la gestion des cas ambigus ameliorera la precision. |
| Bon | 50 a 200 caracteres | L'AI dispose de suffisamment de contexte pour effectuer des predictions fiables. Envisagez d'ajouter des exemples de cas limites. |
| Excellent | 200+ caracteres | Instructions detaillees avec des criteres clairs, des exemples et la gestion des cas limites. Cela produit les resultats les plus precis et les plus coherents. |
De bonnes instructions de classification doivent inclure :
- Des criteres clairs -- ce qui fait qu'un document correspond a chaque option
- Des exemples -- des exemples concrets de ce qui appartient a chaque categorie
- Des cas limites -- comment traiter les documents ambigus ou frontaliers
- Du contexte -- les informations generales pertinentes sur le dossier, le secteur ou le cadre reglementaire
- Des exemples negatifs -- ce qui ne doit pas etre classe dans une categorie donnee
Par exemple, au lieu de "Est-ce pertinent ?", ecrivez : "Classez comme Responsive si le document contient des informations sur l'historique d'emploi de la personne concernee, son salaire, ses evaluations de performance ou ses communications RH. Classez comme Non-Responsive si le document est une notification generee par un systeme, un materiel marketing, ou concerne une personne differente. Classez comme Partiellement Responsive si le document contient un contenu partiellement pertinent melange a du materiel non pertinent."
Ensembles de classification
Un ensemble de classification est une configuration reutilisable qui definit les champs a predire, le comportement attendu de l'AI et les seuils de confiance a appliquer. Les ensembles de classification peuvent etre executes plusieurs fois -- par exemple, apres l'ajout de nouveaux documents au dossier. Pour creer et executer une classification :
- 1Selectionner la portee — Choisissez tous les documents ou une recherche sauvegardee pour definir les documents a classifier. La portee est figee au moment de l'execution -- les nouveaux documents ajoutes par la suite ne seront pas inclus dans cette execution.
- 2Nommer l'ensemble — Donnez a l'ensemble de classification un nom descriptif a des fins de suivi et d'audit.
- 3Configurer les champs — Definissez un ou plusieurs champs de decision personnalises avec des types, des options et des instructions AI en langage naturel.
- 4Definir les seuils — Configurez le seuil d'acceptation automatique (par defaut : 0,85) et le seuil de revision (par defaut : 0,60) pour controler le routage des predictions.
- 5Invite systeme (optionnel) — Fournissez une invite de niveau systeme optionnelle qui s'applique a tous les champs -- utile pour definir le contexte global tel que le type de dossier, la juridiction ou le protocole d'examen.
- 6Echantillonnage optionnel — Pour les grands ensembles de documents, configurez l'echantillonnage de prevalence pour valider la qualite de la classification sur un sous-ensemble avant de lancer une execution complete.
- 7Verifier et lancer — Verifiez tous les parametres dans une vue recapitulative et lancez la tache de classification.
Seuils de confiance et routage
Dezcry utilise un systeme de routage a trois niveaux base sur des scores de confiance calibres pour determiner le traitement de chaque prediction :
| Plage de confiance | Routage | Description |
|---|---|---|
| Au-dessus de l'acceptation automatique (par defaut : > 0,85) | Applique automatiquement | La prediction est appliquee automatiquement sans necessiter de revision humaine. L'AI est hautement confiante et la prediction est defensible. |
| Entre la revision et l'acceptation automatique (par defaut : 0,50 a 0,85) | Marque pour revision | La prediction est sauvegardee mais marquee comme needs_review. Un reviseur humain doit l'approuver, la corriger ou la rejeter avant qu'elle soit appliquee. |
| En dessous du seuil de revision (par defaut : < 0,50) | Indetermine | L'AI n'a pas pu effectuer une prediction fiable. Le document est marque pour un codage manuel par un reviseur. |
Les deux seuils sont configurables par ensemble de classification, permettant aux equipes d'ajuster l'equilibre entre automatisation et supervision humaine en fonction du profil de risque de l'examen. Un examen de privilege a enjeux eleves pourrait utiliser un seuil d'acceptation automatique plus bas (0,95) pour assurer davantage de revision humaine, tandis qu'une classification de type de document de routine pourrait utiliser un seuil plus eleve (0,80) pour maximiser l'automatisation.
Calibration de la confiance (debiais)
Les LLM sont connus pour etre systematiquement surconfiants -- ils ont tendance a rapporter des scores de confiance de 0,90 ou 0,95 meme lorsque leur precision reelle est plus proche de 0,80 a 0,85. Cela est particulierement problematique en eDiscovery ou les seuils de confiance guident les decisions de revision.
Dezcry applique un debiais empirique de la confiance -- une couche de calibration qui ajuste les scores de confiance bruts des LLM pour mieux reflechir la precision reelle. La calibration est :
- Monotone -- une confiance brute plus elevee produit toujours une confiance calibree plus elevee (preserve le classement)
- Deterministe -- la meme entree produit toujours la meme sortie (defensible dans des contextes reglementaires)
- Conservatrice -- ramene systematiquement les scores surconfiants vers des courbes de precision empiriques
La calibration est basee sur des recherches publiees sur la calibration de la confiance des LLM et adaptee aux mesures de precision specifiques a l'eDiscovery. Elle comprime la queue surconfiante (0,85 a 0,99) plus agressivement que la plage de faible confiance bien calibree (0,05 a 0,50).
Passage de verification
Pour les predictions qui se situent dans une plage de confiance limite (0,35 a 0,70 par defaut), Dezcry declenche automatiquement un passage de verification -- une seconde tentative de classification utilisant un deploiement de modele different. Cela fonctionne comme une couche de controle qualite :
- Le passage de verification utilise un persona d'invite different ("reviseur QC") pour contester la classification initiale
- Il utilise un deploiement de modele distinct pour la diversite des modeles, reduisant les erreurs correlees
- Si la verification confirme le premier passage, les scores de confiance sont moyennes (augmentant generalement la confiance finale)
- Si la verification diverge, le score de confiance le plus bas est utilise, la classification de la verification est adoptee, et le resultat est force-marque pour revision humaine
Decoupage des documents longs
Les documents qui depassent le budget de contexte du modele (par defaut : environ 112 000 caracteres) sont automatiquement divises en segments deterministes pour le traitement. Le decoupage est concu pour maintenir la precision de la classification :
- Conscient des limites de phrases -- les segments sont divises aux limites de phrases, jamais en milieu de phrase, preservant la coherence semantique
- Avec chevauchement -- les segments adjacents partagent environ 200 caracteres de chevauchement, assurant la continuite du contexte entre les limites de segments
- Deterministe -- le meme document produit toujours les memes segments, garantissant des resultats reproductibles
- Decoupage de repli -- si une seule phrase depasse la limite du segment, un decoupage aux limites de mots avec chevauchement est utilise en remplacement
Lorsqu'un document est decoupe, chaque segment est classe independamment, et les resultats sont agreges a l'aide d'un systeme de vote pondere :
- La prediction de chaque segment est ponderee par son score de confiance
- Les segments qui renvoient null (aucun contenu classifiable) sont exclus du vote, et ne sont pas comptes comme preuves
- La prediction gagnante est determinee par le score pondere par la confiance totale, avec un departage par la confiance maximale d'un seul segment
- Un bonus d'unanimite augmente la confiance lorsque tous les segments s'accordent ; le desaccord la reduit
- Une penalite de dissidence est appliquee lorsqu'un segment dissident presente une haute confiance (≥ 0,70), avec une note recommandant une revision manuelle
Lorsque differents segments d'un document produisent des classifications differentes, cela est marque comme desaccord entre segments et le document est automatiquement marque pour revision humaine. Il s'agit d'un signal de qualite important -- cela indique souvent qu'un document contient un contenu mixte (par exemple, un document partiellement pertinent ou certaines sections sont pertinentes et d'autres non). La justification agregee inclut une note sur les segments dissidents et leurs niveaux de confiance.
Les ensembles de classification suivent les executions avec un rapport de progression detaille : nombre total de documents, documents traites, erreurs rencontrees et utilisation des tokens pour l'attribution des couts. Les executions terminees creent automatiquement une recherche sauvegardee contenant les documents classes pour le traitement en aval.
Les executions de classification prennent en charge le traitement parallele -- plusieurs documents sont classes simultanement (par defaut : 6 appels LLM simultanes) pour maximiser le debit tout en respectant les limites de debit de l'AI. Les executions peuvent etre annulees a tout moment, et l'annulation prend effet proprement apres la fin du traitement du document en cours.
La vue de progression de la classification affiche le traitement en temps reel avec une console en direct, des resultats document par document incluant les scores de confiance, et le temps restant estime. Vous pouvez continuer a travailler pendant que la classification s'execute en arriere-plan.
Revision des predictions
Une fois l'execution d'une classification terminee, les reviseurs peuvent examiner les resultats. Chaque document recoit un resultat pour chaque champ configure, contenant :
| Champ | Description |
|---|---|
| Valeur predite | La classification choisie par l'AI pour ce champ (par exemple "Responsive", "Financier"). Null si l'AI n'a pas pu determiner une classification. |
| Score de confiance | Un score calibre de 0,0 a 1,0 refletant la certitude de l'AI. Debiaise pour corriger la surconfiance des LLM. |
| Justification | Une courte explication en langage naturel de la raison pour laquelle l'AI a effectue cette prediction, faisant reference a un contenu specifique du document. |
| Necessite une revision | Indicateur booleen -- true si la confiance est inferieure au seuil d'acceptation automatique, si les segments etaient en desaccord, ou si le passage de verification a remplace la classification initiale. |
| Nombre de segments | Le nombre de segments en lesquels le document a ete divise (1 pour les documents courts tenant dans une seule fenetre de contexte). |
| Desaccord entre segments | Si differents segments du document ont produit des predictions differentes -- un signal que le document peut contenir un contenu mixte. |
| Statut de verification | Si le passage de verification a ete declenche et s'il etait en accord ou en desaccord avec la classification initiale. |
Les reviseurs peuvent effectuer les actions suivantes sur toute prediction :
- Approuver -- accepter la prediction de l'AI comme decision finale pour ce document et ce champ
- Corriger -- remplacer la prediction de l'AI par une valeur differente choisie par le reviseur. La correction est enregistree aux cotes de la prediction AI originale a des fins d'audit.
- Rejeter -- ignorer entierement la prediction, laissant le champ non code pour ce document
Toutes les actions de revision sont enregistrees dans la piste d'audit avec l'identite du reviseur, l'horodatage, la prediction AI originale et la decision du reviseur. Cela fournit un enregistrement defensible de la maniere dont chaque decision de classification a ete prise -- que ce soit par l'AI avec approbation humaine, par correction humaine d'une suggestion AI, ou par codage purement manuel.
Echantillonnage de prevalence
Pour les grands ensembles de documents, Dezcry prend en charge l'echantillonnage de prevalence -- la classification d'un sous-ensemble statistiquement representatif de documents avant de s'engager dans une execution complete. Cela permet aux equipes de :
- Valider que les instructions de classification produisent des resultats precis avant de traiter l'ensemble complet
- Estimer la prevalence de chaque categorie dans la collection (par exemple : "environ 30 % des documents sont pertinents")
- Calculer les metriques de precision et de rappel en comparant les predictions AI au codage manuel sur l'echantillon
- Affiner les instructions en fonction des resultats de l'echantillon avant de lancer la classification complete
Les resultats d'echantillonnage sont stockes sous forme d'enregistrements ClassificationSample, preservant a la fois la prediction AI et la verite terrain codee manuellement pour la mesure de la qualite et la defensibilite.
Caviardage IA
Apercu general
Le caviardage IA est la fonctionnalite phare de Dezcry — un pipeline de detection a 5 couches qui identifie les donnees personnelles, le contenu sensible et les elements protegees par le secret professionnel en vue de leur caviardage. Le systeme est concu comme un outil d'aide a la revision, et non comme un outil autonome : chaque suggestion de l'IA est consultable, modifiable et consignee avant d'etre appliquee.
Le caviardage s'appuie sur des grands modeles de langage au sein du meme environnement Azure. Aucune donnee de document n'est transmise a un service tiers. Le pipeline combine la correspondance de motifs deterministe avec l'analyse LLM et la resolution d'entites inter-documents pour une couverture complete.
Types de caviardage
Dezcry prend en charge trois protocoles de caviardage, chacun adapte a un cas d'usage different :
| Type | Objectif | Configuration |
|---|---|---|
| DSAR | Supprimer les informations personnelles de la personne concernee dans les documents divulgues. Utilise une approche par liste blanche — vous indiquez le nom, les adresses e-mail et les numeros de telephone de la personne concernee, et l'IA identifie toutes les occurrences. | Prenom/nom de la personne concernee, adresses e-mail connues, numeros de telephone connus |
| Privilege | Identifier et caviarder les communications protegees par le secret professionnel (privilege avocat-client, doctrine du travail preparatoire). Utilise le filtrage par domaine et par mots-cles pour detecter le materiau privilegie. | Personnes privilegiees, domaines de cabinets d'avocats, mots-cles de privilege, instructions personnalisees |
| Ad Hoc | Caviardage personnalise avec des instructions en texte libre. A utiliser pour toute tache de caviardage ne correspondant pas aux modeles DSAR ou privilege. | Instructions en texte libre decrivant ce qui doit etre cavarde |
Modeles de caviardage
Lors de la creation d'un ensemble de caviardage, vous selectionnez les categories d'entites que l'IA doit detecter. Chaque categorie dispose d'une couleur distincte pour l'identification visuelle dans l'interface de revision :
| Modele | Description | Couleur |
|---|---|---|
| Noms | Noms de personnes, prenoms/noms de famille, initiales, pseudonymes | Rouge |
| E-mails | Adresses e-mail | Orange |
| Numeros de telephone | Numeros de telephone, numeros de fax, numeros de portable | Ambre |
| Identifiants | NSS, numeros de passeport, numeros de permis de conduire, identifiants nationaux | Vert |
| Emploi | Intitules de poste, identifiants employe, informations salariales, historique professionnel | Bleu |
| Identifiants d'entreprise | Numeros d'immatriculation, identifiants fiscaux, ABN/ACN | Violet |
| Localisations | Adresses postales, codes postaux, coordonnees GPS | Magenta |
| Opinions politiques | Affiliations politiques, adhesions a des partis, registres de vote | Violet clair |
| Informations de sante | Pathologies, traitements, diagnostics, medicaments | Rouge |
| Orientation sexuelle | Identite de genre, informations sur l'orientation sexuelle | Rose |
| Informations financieres | Numeros de compte bancaire, numeros de carte de credit, donnees financieres | Vert |
| Identifiants d'authentification | Mots de passe, codes PIN, cles API, jetons de securite | Cyan |
| Liens familiaux | Relations, personnes a charge, details des membres de la famille | Rouge clair |
| Identifiants d'appareils | Adresses IP, adresses MAC, identifiants d'appareils | Bleu clair |
Les categories sensibles — informations de sante, orientation sexuelle,opinions politiques et identifiants d'authentification — utilisent un seuil de confiance d'application automatique plus bas par defaut (0,70) afin d'assurer un traitement plus prudent.
Pipeline a 5 couches
Dezcry traite chaque document via un pipeline de caviardage a 5 couches, combinant plusieurs methodes de detection pour une couverture complete :
| Couche | Nom | Methode | Description |
|---|---|---|---|
| L1 | Analyse des motifs | Moteur NER (deterministe) | Moteur de correspondance de motifs qui detecte les donnees personnelles structurees a l'aide de regles regex et de la reconnaissance d'entites nommees. Fournit une base rapide et deterministe — detecte les adresses e-mail, les numeros de telephone, les numeros de carte de credit et les formats d'identifiants standard. |
| L2 | Analyse IA | Grand modele de langage | La passe de detection IA principale. Le LLM analyse chaque document en prenant en compte le contexte des resultats L1 et L4, identifiant les donnees personnelles contextuelles que la seule correspondance de motifs ne permettrait pas de detecter — telles que les noms mentionnes en langage naturel, les relations implicites et le contenu sensible. |
| L3 | Double verification IA | Verification LLM independante | Une couche de verification independante utilisant un deploiement de modele distinct. Agit comme un "reviseur senior QA en eDiscovery" — examine de maniere contradictoire les resultats L2 pour confirmer, rejeter ou ameliorer les entrees de caviardage. Detecte les faux positifs et les elements manques. |
| L4 | Reference croisee | Resolution d'entites (algorithmique) | Regroupement flou des variantes d'entites dans tous les documents de la portee. Regroupe les differentes orthographes et formats d'une meme entite (par exemple "J. Dupont", "Jean Dupont", "jean.dupont@acme.com") en clusters avec une forme canonique. Garantit un caviardage coherent sur l'ensemble des documents. |
| L5 | Routage intelligent | Routage par niveau de confiance (algorithmique) | Achemine chaque entree de caviardage en fonction de son score de confiance : les elements a haute confiance sont appliques automatiquement, les elements a confiance moyenne sont envoyes dans la file de revision humaine, et les elements a faible confiance sont signales pour inspection manuelle. |
Les couches s'executent dans l'ordre suivant : L4 (resolution d'entites) → L1 (analyse des motifs) → L2 (analyse IA) → L3 (verification) → L5 (routage). L4 s'execute en premier pour construire l'index des entites, qui fournit le contexte aux couches IA suivantes. La progression est suivie par phase avec des mises a jour de statut en temps reel dans l'interface.
Revision des caviardages
Une fois le traitement de l'ensemble de caviardage termine, acces a la page Revision pour examiner et approuver les suggestions de l'IA. La file de revision presente chaque entite detectee avec :
- Texte original — le texte exact que l'IA a identifie pour le caviardage
- Categorie du modele — le type d'entite (noms, e-mails, etc.) avec un badge code couleur
- Couche source — quelle couche du pipeline l'a detecte (L1, L2, L3, L4)
- Score de confiance — le degre de certitude de l'IA quant au fait qu'il s'agit bien d'une entite reelle
- Statut de verification — confirme, rejete, ameliore ou nouveau (issu de L3)
- Emplacement dans la page — le numero de page et les coordonnees en pixels dans le document
Les reviseurs peuvent filtrer la file par couche, categorie de modele et seuil de confiance. Pour chaque entree, les reviseurs peuvent :
- Approuver — accepter le caviardage et l'appliquer au document
- Rejeter — ignorer la suggestion comme etant un faux positif
- Signaler pour revision — escalader vers un reviseur senior pour un second avis
La file de revision est paginee a 100 entrees par page. Toutes les decisions de revision sont consignees dans la piste d'audit avec l'identite du reviseur, l'horodatage et l'action effectuee.
Caviardages manuels
En plus du caviardage assiste par IA, les reviseurs peuvent dessiner manuellement des zones de caviardage sur n'importe quel document a l'aide de la visionneuse de balisage. Les caviardages manuels sont appliques directement aux images de balisage du document et sont suivis aux cotes des caviardages IA dans la piste d'audit.
Pour les documents de type tableur, Dezcry fournit une visionneuse de balisage de tableur specialisee qui permet le caviardage au niveau des cellules — les reviseurs peuvent selectionner des cellules individuelles ou des plages a caviarder.
Resumes IA & Chat
Resumes de documents
Dezcry genere automatiquement des resumes alimentes par LLM pour chaque document d'un dossier. Les resumes sont des apercu en 1 a 2 phrases qui donnent aux reviseurs un contexte rapide pour evaluer la pertinence, decider de l'inclusion ou de l'exclusion, et progresser plus rapidement dans les ensembles de revision volumineux.
Les resumes sont generes par un modele de langage dedie fonctionnant sur une infrastructure GPU au sein du meme environnement Azure. Aucune donnee de document n'est transmise a des services tiers. Les resumes sont generes en arriere-plan et sont disponibles aux cotes du document dans le panneau de metadonnees.
- Les resumes sont generes automatiquement au telechargement et lors du rattrapage en arriere-plan
- La langue des resumes est configurable par dossier (anglais, allemand, francais, espagnol, etc.)
- Les resumes sont indexables et apparaissent dans le panneau de metadonnees du document
- Les administrateurs peuvent declencher la regeneration des resumes pour n'importe quel document ou lot
Chat sur les documents
Le panneau Chat sur les documents fournit une IA conversationnelle pour poser des questions sur les documents. Disponible depuis la visionneuse de documents, le chat utilise la Generation Augmentee par Recuperation (RAG) pour trouver le contenu pertinent et generer des reponses precises avec des citations de sources.
Comment cela fonctionne :
- 1Poser une question — Saisissez une question en langage naturel dans le panneau de chat (par exemple : "Quelles sont les dates cles mentionnees dans ce document ?")
- 2Recherche hybride — Dezcry recherche le contenu pertinent a la fois par recherche par mots-cles (Elasticsearch) et par recherche semantique (vecteurs d'embeddings), en combinant les resultats via la Fusion de Rang Reciproque.
- 3L'IA genere une reponse — Le LLM lit les segments de documents pertinents et genere une reponse avec des citations en ligne faisant reference a des documents specifiques.
- 4Verification des sources — Chaque reponse inclut des references de documents sources cliquables (par exemple [DOC-00028]) permettant aux reviseurs de verifier la reponse de l'IA.
Le chat est limite a 20 requetes par minute par utilisateur et 60 requetes par minute par dossier afin de garantir une allocation equitable des ressources entre les equipes.
OCR IA
Apercu general
L'OCR IA (Reconnaissance Optique de Caracteres) extrait le texte indexable des documents bases sur des images — PDF numerises, photographies, captures d'ecran et autres fichiers image ne contenant pas de texte incorpore. Dezcry utilise l'API Azure Computer Vision Read pour une extraction de texte a haute precision.
L'OCR peut etre active automatiquement lors du telechargement (comme option de traitement) ou execute manuellement sur des documents ou des lots specifiques apres ingestion.
Execution de l'OCR
Acces a la page OCR IA dans un dossier pour gerer les taches OCR :
- 1Creer une tache — Selectionnez la portee — tous les documents ou une recherche sauvegardee — et lancez la tache OCR.
- 2Traitement — Dezcry envoie chaque document image a l'API Azure Computer Vision pour l'extraction de texte. La progression est suivie en temps reel avec des intervalles d'interrogation de 4 secondes.
- 3Resultats — Le texte extrait est stocke dans la fiche du document et devient immediatement indexable. Les resultats par document comprennent le nombre de pages extraites, le nombre de caracteres extraits, les scores de confiance et la duree de traitement.
Les resultats des taches OCR font le suivi de chaque document individuellement, en indiquant :
- Pages et caracteres extraits par document
- Statut par document (termine, echoue, ignore)
- Messages d'erreur pour les documents en echec
- Duree de traitement par document
Les taches peuvent etre annulees pendant leur execution ou lorsqu'elles sont en file d'attente. Le tableau de bord OCR IA affiche les metriques agregees : nombre total de taches, taches terminees, taches actives et nombre total de documents traites.
Banque de mots de passe
Presentation
La Banque de mots de passe stocke les mots de passe et les identifiants des documents chiffres dans un dossier. Lorsque Dezcry rencontre des fichiers proteges par mot de passe lors de l'ingestion (fichiers PDF chiffres, archives ZIP protegees par mot de passe, documents Office proteges, fichiers PST chiffres), il tente de les dechiffrer a l'aide des mots de passe de la Banque de mots de passe.
Gestion des mots de passe
Acccedez a la page Banque de mots de passe dans un dossier pour gerer les identifiants :
- Ajouter des mots de passe -- saisissez des mots de passe avec des etiquettes et des balises facultatives pour l'organisation
- Etiquettes -- indications lisibles par l'utilisateur pour identifier a quoi correspond le mot de passe (l'etiquette est visible, le mot de passe lui-meme est masque)
- Balises -- categorisez les mots de passe (par ex. "client", "depositaire-dupont", "lot-3")
- Suivi d'utilisation -- chaque mot de passe enregistre la date de derniere utilisation et le nombre de fois qu'il a ete applique
- Modifier et supprimer -- mettez a jour ou supprimez des mots de passe avec des boites de dialogue de confirmation
Les mots de passe sont reutilisables pour tous les telechargements dans le dossier. Lors du telechargement de nouveaux documents, tous les mots de passe de la banque sont testes sur les fichiers chiffres. Le recapitulatif du telechargement indique le nombre de fichiers dechiffres avec succes et le nombre d'echecs de dechiffrement.
Exportation
Presentation
Le systeme d'Exportation de Dezcry produit des packages de communication prets a la divulgation avec la numerotation Bates, des fichiers de chargement de metadonnees, des caviardages integres et l'historique complet des decisions. Les exportations sont configurees via un assistant multi-etapes et peuvent etre relancees avec des parametres mis a jour.
Deux types d'exportation sont pris en charge :
- Production -- packages de divulgation formels avec numerotation Bates, en-tetes/pieds de page personnalises et organisation structuree en volumes. Utilises pour les soumissions reglementaires et les reponses formelles aux DSAR.
- Revue -- packages simplifies pour la revue interne ou le transfert vers un conseil externe, sans les exigences de numerotation de niveau production.
Assistant d'exportation
L'assistant d'exportation vous guide a travers un processus de configuration en 6 etapes :
- 1Portee — Selectionnez les documents a exporter -- tous les documents du dossier ou une recherche sauvegardee.
- 2Nom et type — Nommez le jeu d'exportation et choisissez le type Production ou Revue.
- 3Composants de sortie — Selectionnez les types de sortie a inclure : fichier de chargement de metadonnees, fichiers natifs, images, fichiers texte et/ou PDF.
- 4Numerotation et personnalisation — Configurez la numerotation Bates (prefixe, suffixe, numero de depart, remplissage) et la personnalisation facultative des en-tetes/pieds de page.
- 5Fichier de chargement et volumes — Configurez le format du fichier de chargement des metadonnees, l'encodage, les formats de date et les parametres d'organisation en volumes.
- 6Verification et lancement — Examinez tous les parametres dans une vue recapitulative et lancez l'exportation.
Selection de la portee
La portee de l'exportation definit les documents inclus dans le package de sortie. Vous pouvez choisir :
- Tous les documents -- exporte chaque document du dossier
- Recherche sauvegardee -- exporte uniquement les documents correspondant a une requete de recherche et des filtres precedemment sauvegardes
L'assistant affiche un nombre de documents pour la portee selectionnee afin que vous puissiez verifier le volume avant de continuer. La portee est figee au moment de l'execution -- les nouveaux documents ajoutes au dossier apres le demarrage de l'exportation ne seront pas inclus.
Composants de sortie
Selectionnez les types de sortie a inclure dans le package d'exportation :
| Composant | Description |
|---|---|
| Fichier de chargement de metadonnees | Un fichier de donnees structure (DAT, CSV ou HTML) contenant toutes les metadonnees des documents, les decisions et les numeros Bates. Compatible avec Relativity, Concordance et d'autres plateformes de revue. |
| Fichiers natifs | Fichiers sources originaux dans leur format natif (DOCX, PDF, XLSX, etc.) |
| Images | Images rendues des documents (TIFF monopages ou multipages) avec des fichiers de chargement Opticon ou iProrev facultatifs pour le reference croisee des images. |
| Fichiers texte | Contenu textuel brut extrait de chaque document, utile pour l'analyse textuelle en aval ou les references croisees. |
| Versions PDF rendues de chaque document, optionnellement avec des caviardages integres et la personnalisation des numeros Bates. |
Numerotation & Personnalisation
Les exportations de production prennent en charge la numerotation de documents de type Bates :
| Parametre | Description | Exemple |
|---|---|---|
| Prefixe | Texte ajoute avant chaque numero Bates | ACME- |
| Suffixe | Texte ajoute apres chaque numero Bates | -PROD |
| Numero de depart | Le premier numero de la sequence | 1 |
| Remplissage des chiffres | Largeur de zero-remplissage pour la partie numerique | 7 -> 0000001 |
| Mode de numerotation | Au niveau du document (un numero par document) ou au niveau de la page (un numero par page) | Au niveau du document |
| Separateur de page | Caractere entre le numero de document et le numero de page en mode page | _ -> ACME-0000001_001 |
| Regroupement des pieces jointes | Conserver les documents parents et les pieces jointes numerotes sequentiellement | Actif |
| Ordre de tri | Comment les documents sont ordonnes pour la numerotation (sequentiel, groupe familial ou par champ) | doc_seq |
La personnalisation facultative ajoute des en-tetes et des pieds de page a la sortie PDF :
- En-tete et pied de page avec sections gauche, centre et droite
- Jetons de modele :
{BatesNumber},{PageX},{PageY} - Pied de page par defaut : "CONFIDENTIEL"
Fichiers de chargement & Volumes
Les parametres du fichier de chargement controlent le format de sortie des metadonnees :
| Parametre | Defaut | Description |
|---|---|---|
| Format | DAT | Format du fichier de chargement -- DAT (Concordance), CSV, HTML ou TXT personnalise |
| Encodage | UTF-8 | Encodage des caracteres pour le fichier de chargement |
| Format de date | MM/dd/yyyy | Format des champs de date dans le fichier de chargement |
| Format d'heure | HH:mm:ss | Format des champs d'heure |
Les parametres de volume controlent l'organisation physique du package d'exportation :
| Parametre | Defaut | Description |
|---|---|---|
| Prefixe de volume | VOL | Prefixe pour les noms de dossiers de volume (VOL001, VOL002, etc.) |
| Numero de depart | 1 | Premier numero de volume |
| Remplissage des chiffres | 3 | Zero-remplissage pour les numeros de volume |
| Taille maximale du volume | 4500 MB | Taille maximale par dossier de volume avant fractionnement |
| Nombre maximum de fichiers par dossier | 5000 | Nombre maximum de fichiers dans un sous-dossier unique |
| Nommage des fichiers | Numero de controle | Methode de nommage des fichiers -- par numero Bates/de controle ou nom de fichier d'origine |
Telechargement des exportations
Une fois l'execution d'une exportation terminee, le package de sortie est disponible au telechargement. La page d'exportation affiche :
- Statut d'execution -- en cours, termine, echoue ou annule
- Progression -- documents traites par rapport au total
- Taille de sortie -- taille totale du package genere
- Duree -- temps necessaire pour generer l'exportation
- Nombre d'erreurs et d'avertissements -- problemes rencontres par document
- Instantane des parametres -- la configuration exacte utilisee pour cette execution
L'integration de caviardage vous permet d'integrer les caviardages dans la sortie de l'exportation. Selectionnez un jeu de caviardage termine et choisissez le mode d'espace reserve :
- Aucun -- pas d'espaces reserves pour les caviardages (les zones caviardees sont simplement noircies)
- Crochets -- le texte caviarde est remplace par des etiquettes de categorie entre crochets
- Bloc de caviardage -- boites noires solides sur le contenu caviarde
Toutes les actions d'exportation -- creation, demarrage de l'execution, telechargement -- sont consignees dans le journal d'audit.
Audit & Rapports
Journal d'audit
Chaque action significative dans Dezcry est enregistree dans un journal d'audit immuable, fournissant une trace opposable aux autorites reglementaires, aux revisions juridiques et a la gouvernance interne. Le journal d'audit consigne :
| Categorie | Actions suivies |
|---|---|
| Documents | Consultes, telecharges, telecharges en amont, supprimes, resumes regeneres |
| Decisions | Mises a jour du codage de pertinence, modifications en masse des decisions, modifications des balises |
| Caviardages (manuels) | Zones de caviardage dessinees, mises a jour ou supprimees sur les documents |
| Revue de caviardage | Entrees de caviardage IA approuvees, rejetees ou escaladees |
| Taches de caviardage | Jeux crees/supprimes, executions demarrees/terminees/annulees/echouees |
| Classification | Jeux crees/supprimes, executions demarrees/terminees/annulees/echouees |
| Exportation | Jeux crees/mis a jour/supprimes/clones, executions demarrees/annulees, telechargements |
| Balisage | Images de previsualisation et de balisage generees ou echouees |
| Telechargements | Telechargements PDF, telechargements PDF en masse, telechargements de feuilles de calcul caviardees |
| Recherche | Recherches sauvegardees creees, mises a jour ou supprimees |
| Discussion | Messages envoyes, conversations creees/mises a jour/supprimees |
| Indexation | Documents indexes, dossier re-indexe, index efface |
| Authentification | Connexion reussie/echouee, modifications de mot de passe, verrouillages de compte |
| Administration | Utilisateurs crees/mis a jour, roles modifies, acces au dossier accorde/revoque |
| Facturation | Utilisation recalculee, factures generees |
Chaque entree d'audit comprend : le type d'action, la cible (quel document, jeu ou ressource a ete affecte), l'identite de l'utilisateur (qui l'a effectue), l'horodatage et les details (contexte enrichi comprenant les noms de fichiers, les comptages, les anciennes/nouvelles valeurs). Le journal d'audit est filtrable par type d'action, type de cible, utilisateur et plage de dates, avec une pagination de 50 entrees par page.
L'audit au niveau du dossier est accessible depuis la page Audit dans chaque dossier. L'audit a l'echelle du systeme est disponible pour les administrateurs depuis la section Administration.
Tableau de bord des rapports
La page Rapports fournit des tableaux de bord analytiques avec des visualisations reparties sur huit onglets :
| Onglet | Metriques |
|---|---|
| Vue d'ensemble | Indicateurs cles de performance de synthese -- nombre de documents, taux d'achevement, resume d'activite |
| Traitement | Historique des lots d'ingestion, croissance du volume dans le temps, debit de traitement |
| Caviardage | Executions de caviardage, entites detectees par modele, statistiques par couche, taux de couverture |
| Classification | Executions de classification, resultats par champ, distributions des scores de confiance |
| Performance de l'IA | Utilisation des jetons, attribution des couts, precision et metriques de qualite des modeles |
| Revue | Profondeur de la file de revue, elements en attente de revue, delais de traitement des reviseurs |
| Activite | Tendances des actions des utilisateurs, resumes du journal d'audit, nombre de reviseurs actifs |
| Exportations | Historique des exportations, statistiques de production, tailles des livrables |
Les tableaux de bord comprennent des cartes KPI, des graphiques a barres, des graphiques en courbes, des graphiques circulaires et des graphiques en aires. Les rapports peuvent etre exportes en PDF avec des graphiques integres, des en-tetes d'information sur le dossier et des horodatages de generation.
Facturation & Utilisation
La page Facturation affiche l'utilisation du stockage et les couts pour chaque dossier. Le stockage est decompose en sept categories :
| Categorie | Description |
|---|---|
| Documents | Fichiers originaux telecharges dans leur format natif |
| Texte extrait | Texte brut extrait lors du traitement et de l'OCR |
| Images de balisage | Images de pages rendues pour le flux de caviardage |
| PDF caviardcs | Versions PDF avec caviardages integres et personnalisation |
| Indices | Indices de recherche Elasticsearch pour le dossier |
| Embeddings | Embeddings vectoriels utilises pour la discussion IA et la recherche semantique |
| Autre | Artefacts de traitement divers |
Le tableau de bord de facturation affiche l'utilisation actuelle (total en Go et cout mensuel projete), la repartition du stockage par categorie, l'historique d'utilisation dans le temps et les details des factures. La tarification est au Go avec des variations regionales et des remises par paliers de volume.
Administration
User Management
La page Admin (accessible aux roles admin et super_admin) fournit une interface centralisee pour gerer tous les utilisateurs de l'organisation. La liste des utilisateurs affiche :
- Adresse e-mail et nom complet
- Role attribue
- Statut du compte (actif, inactif, en attente, invite, bloque, desactive)
- Statut d'activation de la double authentification (2FA/MFA)
- Date de derniere connexion
- Nombre d'affectations a des dossiers
Les administrateurs peuvent effectuer des recherches par adresse e-mail ou par nom, et filtrer par statut ou par role. Les actions disponibles comprennent la creation d'utilisateurs, la modification des informations, le changement de role, l'envoi d'invitations, la reinitialisation des mots de passe, ainsi que l'activation ou la desactivation des comptes.
Roles & Permissions
Dezcry utilise un systeme de controle d'acces base sur les roles (RBAC) hierarchiquecomprenant quatre roles. Les roles sont hierarchiques -- chaque role herite de toutes les autorisations des roles inferieurs. L'acces est applique a deux niveaux :niveau role (les actions qu'un utilisateur peut effectuer sur la plateforme) et niveau dossier (les dossiers specifiques auxquels un utilisateur peut acceder).
Hierarchie des roles
| Role | Description | Matter Access |
|---|---|---|
| Super Admin | Controle total de la plateforme. Peut gerer tous les utilisateurs (y compris les autres administrateurs), supprimer des dossiers, configurer les parametres a l'echelle du systeme et acceder a toutes les fonctionnalites. Destine aux proprietaires de la plateforme et aux administrateurs informatiques. | Acces implicite a tous les dossiers du tenant -- aucune affectation explicite requise. |
| Admin | Gestion au niveau de l'organisation. Peut creer des dossiers, inviter et gerer des utilisateurs, affecter des utilisateurs a des dossiers, consulter les journaux d'audit, gerer la banque de mots de passe et configurer la facturation. Ne peut pas supprimer des dossiers ni gerer d'autres administrateurs. | Acces implicite a tous les dossiers du tenant -- aucune affectation explicite requise. |
| Reviewer | Le role de travail principal pour les membres des equipes juridique, confidentialite et conformite. Peut televerser des documents, examiner et coder des documents, lancer des taches de classification et de caviardage IA, creer et gerer des exports, gerer les recherches enregistrees et executer des rapports de termes de recherche. | Doit etre explicitement affecte a chaque dossier. Peut uniquement voir et travailler dans les dossiers auxquels l'acces lui a ete accorde. |
| Read Only | Acces en lecture seule pour les parties prenantes, les conseillers externes ou les auditeurs qui ont besoin de visibilite sans pouvoir effectuer de modifications. Peut parcourir les documents, consulter les metadonnees, lire les rapports, utiliser le chat et telecharger les exports -- mais ne peut pas televerser, modifier ni lancer de taches. | Doit etre explicitement affecte a chaque dossier. Peut uniquement voir les dossiers auxquels l'acces lui a ete accorde. |
Matrice detaillee des autorisations
Le tableau suivant indique le role minimum requis pour chaque action sur la plateforme. Les roles superieurs heritent automatiquement de toutes les autorisations des roles inferieurs.
| Feature Area | Action | Minimum Role |
|---|---|---|
| Matters | Consulter les dossiers | Read Only |
| Matters | Creer de nouveaux dossiers | Admin |
| Matters | Modifier les parametres d'un dossier | Admin |
| Matters | Supprimer des dossiers | Super Admin |
| Documents | Consulter et rechercher des documents | Read Only |
| Documents | Televerser des documents | Reviewer |
| Documents | Mettre a jour les decisions, etiquettes et codage | Reviewer |
| Documents | Supprimer des documents | Admin |
| AI Classification | Consulter les resultats de classification | Read Only |
| AI Classification | Creer des ensembles et lancer des taches de classification | Reviewer |
| AI Redaction | Consulter les resultats de caviardage | Read Only |
| AI Redaction | Creer des ensembles, lancer des taches et examiner les entrees | Reviewer |
| Export | Consulter les ensembles d'export et telecharger les paquets | Read Only |
| Export | Creer des ensembles d'export et lancer des exports | Reviewer |
| Search | Consulter les recherches enregistrees | Read Only |
| Search | Creer et gerer les recherches enregistrees | Reviewer |
| Search Term Reports | Consulter les rapports de termes de recherche | Read Only |
| Search Term Reports | Creer et executer des rapports | Reviewer |
| Chat / AI Q&A | Poser des questions et consulter l'historique du chat | Read Only |
| Reporting | Consulter les tableaux de bord analytiques | Read Only |
| Billing | Consulter la facturation et l'utilisation | Read Only |
| Billing | Gerer les parametres de facturation | Admin |
| Password Bank | Consulter les mots de passe enregistres | Admin |
| Password Bank | Ajouter, modifier et supprimer des mots de passe | Admin |
| Audit Log | Consulter les journaux d'audit des dossiers et du systeme | Admin |
| User Management | Consulter et gerer les utilisateurs | Admin |
| User Management | Inviter des utilisateurs et attribuer des roles | Admin |
| System Admin | Gerer les autres administrateurs, supprimer des dossiers, configuration systeme | Super Admin |
Controle d'acces au niveau des dossiers
L'acces aux dossiers individuels est controle independamment des autorisations liees aux roles :
- Super Admin et Admin disposent d'un acces implicite a tous les dossiers du tenant. Ils n'ont pas besoin d'etre explicitement affectes -- ils peuvent voir et gerer tous les dossiers automatiquement.
- Reviewer et Read Only requierent une affectation explicite a chaque dossier. Un administrateur doit accorder l'acces en affectant l'utilisateur au dossier. Tant que cette affectation n'est pas effectuee, le dossier est completement invisible pour l'utilisateur -- il n'apparait pas dans sa liste de dossiers et ne peut pas etre consulte via une URL directe.
Ce modele a deux niveaux permet aux organisations d'appliquer la separation des responsabilites et le principe du besoin d'en connaitre. Par exemple, un reviewer traitant des DSAR RH peut etre limite aux seuls dossiers lies aux RH, tandis qu'un autre reviewer traite les DSAR clients -- meme s'ils ont le meme role, ils voient des ensembles de dossiers entierement differents.
Isolation des tenants
Tous les controles d'acces operent dans les limites d'un tenant. Chaque requete de base de donnees est limitee au tenant de l'utilisateur authentifie, et chaque operation au niveau d'un dossier verifie que ce dossier appartient au meme tenant. L'acces entre tenants est architecturalement impossible -- il n'existe aucun mecanisme au niveau de la couche applicative pour acceder aux donnees d'une autre organisation, meme avec un role Super Admin.
Acces au niveau des documents
L'acces aux documents individuels suit le modele d'acces aux dossiers. Si un utilisateur a acces a un dossier, il peut consulter tous les documents de ce dossier (sous reserve des autorisations de son role pour la lecture ou la modification). Il n'existe pas de restriction d'acces par document -- l'acces est controle au niveau du dossier, ce qui est l'approche standard dans les flux de travail eDiscovery et d'examen des DSAR, ou les reviewers doivent voir le contexte complet d'un dossier pour prendre des decisions defensibles.
Les autorisations sont appliquees cote serveur pour chaque requete API, et pas seulement dans l'interface utilisateur. Meme si un utilisateur manipule le frontend ou construit des requetes API directement, le backend valide son role et son acces au dossier avant de traiter toute operation. Les requetes refusees recoivent une reponse 403 Forbidden structuree avec une explication claire de la raison pour laquelle l'acces a ete refuse.
Inviting Users
Les administrateurs invitent de nouveaux utilisateurs en fournissant leur adresse e-mail, leur nom et le role attribue. L'invite recoit un e-mail contenant un lien d'invitation a usage unique qui le guide tout au long des etapes suivantes :
- 1Set password — Creer un mot de passe robuste (minimum 12 caracteres, doit inclure une majuscule, une minuscule et un chiffre).
- 2Configure 2FA — Scanner un code QR avec une application d'authentification (Google Authenticator, Authy, etc.) et saisir le code de verification.
- 3Complete setup — Le compte est active et l'utilisateur peut se connecter.
Les liens d'invitation sont a usage unique et ont une date d'expiration. L'invitation enregistre qui l'a creee, quand elle a ete utilisee, ainsi que l'adresse IP de l'utilisateur qui l'a acceptee.
Admin Dashboard
Le Admin Dashboard fournit des analyses a l'echelle du tenant et une surveillance operationnelle :
- Apercu des utilisateurs -- total, actifs, bloques, invites ; taux d'adoption de la 2FA ; repartition des roles ; utilisateurs actuellement en ligne
- Apercu des dossiers -- total des dossiers ; repartition par statut (ouvert/ferme/archive) ; repartition par type ; nombre de documents et stockage par dossier
- Apercu des documents -- nombre total de documents ; stockage total ; repartition par statut ; nombres de fichiers chiffres, corrompus et en double
- Statut de traitement -- lots de telechargement recents ; taches de classification, de caviardage et d'export en cours
- Repartition du stockage -- utilisation detaillee du stockage par categorie pour tous les dossiers
- Activite d'audit recente -- dernieres entrees d'audit a l'echelle du systeme
System Audit
La page System Audit dans la section Admin fournit une vue a l'echelle du tenant de toutes les entrees du journal d'audit pour tous les dossiers. Cela permet aux administrateurs de surveiller l'activite sur l'ensemble de la plateforme, d'enqueter sur les evenements de securite et de produire des rapports de conformite. Les memes fonctionnalites de filtrage et de recherche disponibles au niveau du journal d'audit d'un dossier sont egalement disponibles au niveau du systeme.
Security & Compliance
Data Security
Dezcry est entierement heberge sur Microsoft Azure, en utilisant Azure Container Apps, Azure PostgreSQL et Azure Storage. Toute l'infrastructure s'execute au sein d'un groupe de ressources unique avec une isolation au niveau reseau. Le service worker GPU qui gere l'inference IA fonctionne avec une entree interne uniquement et n'est pas accessible depuis l'internet public.
La plateforme opere selon une architecture multi-tenant logiquement isolee. Les donnees de chaque organisation -- documents, metadonnees, decisions des reviewers et journaux d'audit -- sont segreguees au niveau de l'application et de la base de donnees. Les fichiers televerses sont stockes dans des chemins de stockage limites a l'organisation. L'acces aux donnees entre tenants n'est pas possible via la couche applicative.
Encryption
Toutes les donnees sont chiffrees en transit via TLS 1.2+ pour toutes les connexions entre les services, le stockage et la base de donnees. Les donnees sont chiffreesau repos a l'aide de cles de chiffrement gerees par Azure via Azure Storage Service Encryption et le chiffrement Azure Database. Les fichiers televerses, les sorties traitees et les enregistrements de la base de donnees sont tous couverts.
Data Residency
Dezcry prend en charge la residence des donnees regionale -- chaque dossier peut etre heberge dans une region Azure specifique pour repondre aux exigences locales en matiere de protection des donnees :
- Australia East -- region par defaut
- Switzerland North -- pour les exigences suisses en matiere de protection des donnees
- Germany -- pour la residence des donnees allemande/europeenne
- United Kingdom -- pour les exigences britanniques en matiere de protection des donnees
Les modeles IA sont deployes de maniere regionale -- les donnees australiennes utilisent les points de terminaison IA australiens, les donnees suisses utilisent les points de terminaison suisses, et ainsi de suite. Les clients entreprise peuvent discuter d'un deploiement dans des regions supplementaires ou dans des environnements dedies/sur site.
AI Data Handling
Dezcry exploite ses propres modeles IA pour le caviardage, la classification et la summarisation. Aucune donnee de document n'est envoyee a des services IA tiers. Toute l'inference IA s'effectue au sein du meme environnement Azure que le reste de la plateforme :
- Classification et caviardage utilisent des grands modeles de langage deployes au sein de l'environnement Azure
- Chat et resumes utilisent un modele de langage dedie fonctionnant sur l'infrastructure GPU
- Embeddings sont generes sur CPU au sein du meme environnement de conteneurs
Le caviardage assiste par IA est concu comme un outil d'aide au reviseur, et non comme un systeme autonome. L'IA identifie le contenu probablement sensible pour la revue humaine. Les reviseurs approuvent, rejettent ou modifient chaque suggestion avant son application. Toutes les suggestions generees par l'IA et les decisions des reviseurs sont enregistrees dans la piste d'audit.
Les donnees des clients ne sont jamais utilisees pour entrainer ou affiner des modeles partages entre les locataires.