Recherche et structuration de l'information, la voie "Naturel"

RECHERCHE ET STRUCTURATION DE L'INFORMATION,
LA VOIE "NATUREL"

Yvette HENRY ROUSSEAU
ARDILOG

1. SOMMAIRE

Cette conférence traite principalement des étapes successives qui ont conduit la firme Ardilog à considérer HTML, NQML et SGML dans l'architecture de ses produits. Elle explique de quelle façon les demandes des clients décident des orientations de la recherche et du développement et pourquoi la tendance poursuivie au cours des six dernières années nous guide vers un standard de normalisation de la structure des documents.

2. PROFIL CORPORATIF

Fondée en décembre 1989 par deux spécialistes des technologies de l'information, Ardilog inc. a pour mission de supporter le client dans le processus de gestion de son information textuelle.

Notre firme se spécialise dans la conception de logiciels de recherche textuelle pour la gestion de l'information sur support magnétique, optique et sur l'Internet.

Ardilog a vu le jour suite au développement d'une nouvelle technologie en matière de repérage d'information. Monsieur Gratien Rousseau, président d'Ardilog, a conçu un nouvelle technique de recherche en séquentiel indexé et a développé un algorithme unique basé sur l'utilisation du langage courant pour l'interrogation. Par la suite, Ardilog a poursuivi ses recherches afin d'offrir à ses usagers diverses composantes technologiques, dont son interface à affichage dynamique - offrant à l'usager un résultat en temps réel - et le processus de segmentation dynamique des documents.

L'ensemble des composantes de systèmes sont développées à Pointe-Claire par notre équipe de spécialistes.

Le responsable de la recherche et développement d'Ardilog compte plus de 20 ans d'expérience dans le domaine de l'informatique textuelle.

Ardilog a pour objectif d'implanter des solutions qui s'adaptent à l'information ponctuellement disponible dans les organisations. Dans ce cadre, l'ensemble des produits développés par notre firme permet le traitement des documents en format natif et permet d'éviter, dans la mesure du possible, les opérations de transformation de l'information.

3. L'ARCHITECTURE GLOBALE DE NOS SOLUTIONS INFORMATIQUES

A. Localisation de l'information

Votre information est habituellement diponible sur plusieurs informatique.

B. Le traitement des formats de fichiers

L'information est acheminée à travers un processus visant la création d'un séquentiel indexé et utilisant une série de filtres conçus pour traiter en mémoire l'information textuelle. Les documents sont donc conservés dans leurs formats originaux.

À ce niveau:

aucune duplication n'est nécessaire;

aucune conversion ou transformation est nécessaire;

aucune importation n'est nécessaire;

les documents ne sont pas déplacés de leur localisation originale.

Ce processus simplifie la gestion et la mise à jour des bases d'information textuelle. Les index sont mis à jour en arrière plan et l'opération ne nécessite pas d'intervention humaine.

Les filtres disponibles permettent la gestion et la recherche, en langage naturel, d'informations issues de traitements de textes, bases de données, chiffriers électroniques, éditeurs HTML ou éventuellement SGML.

En fonction de l'architecture du système en vigueur chez le client, Ardilog offre différentes solutions.

C. Naturel Pro

Naturel est un logiciel de recherche et gestion d'information à architecture ouverte, compatible avec la majorité des traitements de textes, bases de données et chiffriers électroniques. Il permet d'accéder efficacement à l'information plein texte et structurée disponible sur un serveur.

Un ensemble de fonctions permet à l'usager de retrouver, contrôler, assembler et échanger son information. Naturel Pro permet la création de liens hypertextes multi-formats, de notes personnelles et de listes. Il permet le traitement de l'image et utilise des thésaurus unitermes et/ou multi-termes en ligne pour l'interrogation. Son architecture permet une intégration avec différents systèmes de gestion documentaire, de gestion de bibliothèque, d'ingéniérie, etc.

Naturel est utilisé pour différents types d'applications tels que la gestion de procès verbaux, le traitement des manuels de politiques et procédures et la recherche d'information juridique - opinions, litige assisté, lois et jurisprudence.

Naturel centralise la fonction de recherche sur un réseau et s'adapte à une grande variété d'utilisateurs.

D. NQL

NQL est une bibliothèque de programmes écrits en C++ - programmation objet - qui permet l'intégration de notre technologie à l'intérieur de diverses applications. La structure du produit permet la création d'index et offre des fonctions de recherche d'information en plein texte ou en structuré et ce, peut importe la structure de l'information indexée HTML, SGML ou autres. NQL permet par exemple l'utilisation de la recherche en langage naturel à l'intérieur:

d'un progiciel de gestion et recherche d'information;

d'un logiciel de bibliothèque;

d'un logiciel de gestion documentaire;

d'un CD-ROM multimédia ou sur l'autoroute électronique.

E. Naturel Edition

Naturel Edition permet la préparation et la distribution de bases d'information sur support magnétique ou optique. Il compresse et encrypte l'information qu'il exporte ensuite sur un média pour fins de distribution. Il offre différents niveaux de sécurité, le choix de la langue de travail, la possibilité de livrer une base en fonction d'un nombre d'usagers maximum, etc.

F. Naturel Net

Naturel Net permet la publication d'information multi-formats incluant HTML sur un serveur WWW. L'architecture du système prévoit la possibilité de publier une base d'information issue de Naturel Pro ou Naturel Edition sur un serveur WEB d'Internet.

Les différents produits offrent à l'organisation une architecture ouverte qui leur permet de coexister et d'interagir entre eux ou avec d'autres solutions ou logiciels.

Par exemple:

Une organisation pourrait implanter Naturel Pro pour centraliser son accès à l'information à l'intérieur d'un seul produit. Ensuite, une partie de cette information pourrait être publiée sur disque magnétique ou sur CD-ROM pour être distribuée par l'entremise de Naturel Edition. Cette même information pourrait, par le biais de Naturel Net, être publiée sur l'Internet.

N'oublions pas que l'information initialement indexée par NQL peut provenir de sources diverses: logiciel de gestion de bibliothèque ou de gestion documentaire, traitement de textes, base de données, chiffrier électronique, etc.

De plus une base d'information pourrait-être configurée de telle sorte qu'elle interagisse avec un logiciel d'imagerie, un générateur de rapport ou un logiciel de reconnaissance optique.

Afin de favoriser l'interaction des différentes composantes des solutions et d'offrir au client l'ensemble des fonctionnalités qu'il exige, l'implantation prévoit souvent des modifications au niveau de la structure même de l'information. Dans ce cadre, Ardilog développe des outils ayant pour objectif de minimiser l'effort investi dans la transformation de l'information.

Devant la complexité d'une telle architecture, il est évident que notre firme a depuis longtemps considéré la normalisation des structures de l'information comme un élément qui favoriserait l'implantation d'une solution d'accès à l'information. Nous nous voyons donc naturellement poussés à diriger nos activités de recherche et développement en considérant l'avénement éventuel d'un standard dans la structure de l'information.

Voici donc l'ensemble des étapes qui ont amené notre firme à considérer l'utilisation d'une norme dans la structure des documents.

4. VERS UNE NORMALISATION DES STRUCTURES DE L'INFORMATION CHEZ ARDILOG

Depuis une quinzaine d'années, les besoins en matière de gestion et recherche d'information ont beaucoup évolués, en partie à cause de la révolution micro-informatique.

Il est possible de classer ces besoins en trois grandes catégories:

- Donner accès à l'information de l'entreprise à l'intérieur de celle-ci;

- Permettre la diffusion de certaines informations à l'extérieur de l'entreprise;

- Faciliter les échanges d'information entre plusieurs organisations.

A. Accès à l'information dans l'entreprise (NATUREL-PRO)

Au début des années quatre vingt (80), l'information documentaire était encore majoritairement produite avec des machines à traitement de texte et il était alors impossible de faire des recherches automatisées dans cette information. Afin de faciliter l'accès aux documents, certaines entreprises produisaient des fiches signalétiques qui, dans les meilleurs des cas, étaient rendues interrogeables par un système sur ordinateur central ou à travers un système de gestion de bases de données.

L'avènement de la bureautique a bouleversé la gestion de l'information documentaire. L'utilisation du traitement de texte pour imprimer les documents s'est répandue rapidement et très vite a surgi l'idée de conserver les textes sur disquettes,puis sur disques durs afin de pouvoir consulter et réutiliser cette information.

Recherche plein texte

À la fin de cette décennie (80) les entreprises ayant pris le virage micro-informatique se sont retrouvées avec une grande masse d'information électronique, et le besoin d'un logiciel de repérage capable de lire directement cette information s'est clairement manifesté.

Bien sûr, les traitements de textes offraient des fonctions de recherche à l'intérieur des fichiers créés dans leur format, mais elles étaient rudimentaires et les interrogations devaient se faire fichier par fichier.

De plus, les logiciels de création de documents n'étant pas normalisés à l'intérieur d'une entreprise, l'accès à l'information documentaire restait limité.

C'est pour répondre à ces besoins de recherche en plein texte dans l'ensemble des documents (quelque soit leur format d'enregistrement) regroupés sur un réseau que des logiciels comme NATUREL-PRO ont vu le jour.

Information stucturée avec champs

Progressivement l'idée d'interroger toute l'information produite par l'entreprise nous a conduit à développer des filtres permettant à NATUREL de lire sans conversion les enregistrements des systèmes de bases de données et les données contenues dans les chiffriers électroniques.

De cette manière l'accès n'était plus limité aux spécialistes et NATUREL devenait le seul système d'interrogation à apprendre. La normalisation se faisait ainsi au niveau du système de recherche.

Réutilisation de l'information

Nos utilisateurs n'avaient pas seulement besoin de consulter l'information, ils voulaient pouvoir extraire des éléments d'information d'origines différentes afin de construire de nouveaux documents ou ouvrir directement le fichier résultat dans le traitement de texte afin de le retravailler.

NATUREL, reconnaissant automatiquement le format du fichier, permet ces fonctions d'appel sur fichier courant et d'extraction de texte en en conservant le format d'origine.

B. Diffusion de l'information (NATUREL-EDITION)

Naturel Edition a été conçu pour faciliter la diffusion électronique par des éditeurs.

Les éditeurs sont assurés d'une intégration complète de leurs bases à l'information personnelle de leurs clients. Les bases commerciales livrées avec Naturel Edition s'installent dans les mêmes répertoires. Les utilisateurs peuvent choisir à partir d'une seule fenêtre d'interroger soit une base interne soit une base commerciale.

Liens hypertextes et lancements d'applications

Il est vite devenu nécessaire de publier des documents interreliés et pour cela nous avons développé des fonctions de création et de consultation de liens hypertextes.

La fonction de lancement d'application déjà présente dans Naturel Pro a permis de publier des documents contenant des images, des photographies et des graphiques.

C'est grâce à cette fonction que Procédurix a pu être intégré au Code de procédure civile en greffant l'appel de WordPerfect sur des modèles pré-établis à des lignes particulières du Code.

Toutes les fonctions développées pour améliorer la consultation des bases publiées avec NATUREL-EDITION ont toujours été intégrées à NATUREL-PRO.

Annotation

L'annotation est une fonction indispensable à toute personne qui lit un document et qui désire enregistrer ses commentaires par rapport à une portion particulière du texte. Nos clients du secteur juridique sont de grands utilisateurs de cette fonction. Elle a été introduite avec les fonctions de liens hypertextes dans la dernière version de Naturel 3.30.

C. Diffusion sur les INFOROUTES

L'émergence de réseaux comme INTERNET a obligé certains de nos clients à mettre une partie de leur information accessible informatiquement à une plus vaste clientèle.

Le principal problème rencontré est la nécessité de transformer l'information existante et de coder les documents selon la norme HTML afin de pouvoir être traités par les logiciels en vigueur sur Internet (WAIS, MOSAIC, LYNX, etc.).

Cela représente une très grande masse d'information à retravailler et les entreprises ne veulent pas modifier leurs textes originaux ni maintenir plusieurs versions selon leur utilisation. Elles désirent aussi pouvoir utiliser le même logiciel ou tout au moins ne pas avoir à reconstruire les index des bases.

D. Echange d'information

Parmi notre clientèle de traducteurs l'information à traduire leur est fournie sur disquette en format de traitement de texte. Le traducteur ne possède pas toujours le traitement de texte de son client et, dans ce cas, son traitement de texte doit être capable de lire le fichier reçu et retourner la traduction dans le format du client. Cette compatibilité n'est pas toujours présente, par exemple Word 6.0 et WordPerfect 6.0 ne se reconnaissent pas.

Un système de codage unique des documents leur serait indispensable pour améliorer le transfert d'information.

5. LES BESOINS DE NORMALISATION: STRUCTURATION DE

L'information et codage des fonctions

La diffusion de l'information n'est plus réservée aux éditeurs traditionnels. Les grandes entreprises et les institutions gouvernementales sont venues s'ajouter à cette famille d'éditeurs.

Comme les textes dans ces cas-là sont souvent mis à jour, il nous a été demandé de conserver les ancrages afin qu'ils ne soient pas affectés lors de la modification. La solution la plus sûre était le codage à l'intérieur même du texte. La question du sytème de codage s'est donc posée.

L'évolution des besoins de nos clients par rapport aux différents formats d'information nous a conduit à trouver une manière de normaliser le traitement des filtres.

HTML et Naturel

Un de nos premiers soucis a été de répondre au besoin du codage des liens hypertextes, des images et des lancements d'applications dans les textes, c'est pourquoi les documents étiquetés selon la norme HTML sont traités par Naturel 4.0

Liens

1 Lien "origine" dans le fichier source

<A HREF="nom du fichier destination#mlien">texte</A>

- mlien identification du lien - chaîne de caractères qui doit obligatoirement être présente et unique dans le codage des liens "destination".

- Exemples : Pour l'Article 605 du CCQ

<A HREF="cm-02.asc#605">Ministère de la Justice</A>

<A HREF="doct-07.asc#605">Doctrine citée</A>

2 Lien "destination" dans le fichier destination

<A NAME="mlien"> texte </A>

Exemple :

- Dans le fichier cm-02.asc : <A NAME="605">Commentaire:605</A>

- Dans le fichier doct-07.asc : <A NAME="605">Doctrine sur l'art. 605</A>

- Dans le fichier cpc-art.asc : <A NAME="394">ARTICLE: 394</A> Image "bitmap" <IMG SRC="nom du fichier.bmp">

Appel d'application <A EXEC="nom de l'application+ paramètre d'appel">texte</A>

Exemple:

<A EXEC="C:\W_WORDF\WINWORD.exe exemple.doc">APPEL de WORD</A>

NQML

Le manque d'étiquettes pour les fonctions d'annotation et de champs nous a conduit à développer nos propres étiquettes ou à demander au client de définir, lors de la création de ses bases, les étiquettes utilisées dans ses fichiers.

La syntaxe utilisée est celle adoptée par les concepteurs de logiciels de traitement de texte: <étiquette> et </étiquette>

Annotation

<ANOTE>texte</ANOTE><NOTE> texte de la note sur plusieurs lignes ou pages </NOTE>

Séparateurs de documents, noms de champs et table des matières.

Les étiquettes sont définies par le client. La syntaxe suggérée est:

<DOC> pour le séparateur de document;

<TIT> et </TIT> pour un titre de la table des matières;

<NOMCHAMP> ; </NOMCHAMP> ; <CHAMP>contenu du champ</CHAMP> pour les champs. Cette dernière syntaxe étant assez éloignée de la forme contenue dans les textes, Naturel s'adapte à la syntaxe du client (Auteur: par exemple). Par contre cette écriture permet de traiter des champs et de sous-champs.

Naturel et NQL permettent une adapatation facile à d'autres marquages.

6. CONCLUSION

Bien que notre objectif premier ait été d'implanter une solution efficace en tenant compte de l'information déjà disponible chez le client et en limitant la transformation de cette information, nos produits ont évolués rapidement vers une codification que nous appellons 'NQML', issue des standards HTML et SGML. Par contre, Ardilog compte offrir encore pour plusieurs années un support multi-formats en accord avec l'architecture de système de nos clients.

Il est très facile d'intégrer NQL dans une application sur un serveur WEB et d'offrir toute la puissance de la recherche en langage naturel et de la recherche par champs sur Internet.

M.A.D. 8 juillet 1996