table des 
matières  
précédente  
suivante  [CRDP]  [Info]  [Help]

ACTIVE SYSTEMS INC.
ÉTUDE DE CAS:
IMPLANTATION SGML POUR LA GESTION DES TEXTES DE LOI
DANS L'ÉTAT DU OKLAHOMA

Michel PAQUETTE
Active Systems

1. MISE EN SITUATION

Contexte

L'état du Oklahoma, comme la plupart des États américains, s'est doté d'une agence qui a la responsabilité d'assembler et de diffuser les lois administratives, ainsi que la réglementation qu'établissent les différentes agences gouvernantes de l'état. Ces agences sont ni plus ni moins le pendant américain des ministères du Québec autant que l'agence de diffusion est le pendant de la Société québécoise d'information juridique (SOQUIJ).

Cycle de Production

Teneur Des Textes
Dans l'état du Oklahoma, les textes relatifs aux lois administratives sont catégorisés en deux domaines distincts:

* les textes qui supportent le processus d'évolution de la loi

* les textes de loi

Les textes de support à la loi incluent l'ensemble des avis relatifs au processus de création d'une loi ainsi que l'ensemble des modifications apportées aux lois existantes:

* Intention de légiférer

* texte préliminaire de la loi (préambule, texte de loi, références)

* avis public de contestation

* avis du Gouverneur

* avis de promulgation d'une loi

* texte de modification d'une loi (préambule, texte de loi, références)

- ajouts (texte souligné)

- abrogations (texte biffé)

- remplacements (texte biffé/souligné)

Les textes de support à la loi sont publiés par l'entremise d'un véhicule de diffusion mensuelle désigné `the Oklahoma Register'.

Les textes de loi, eux, sont uniformisés pour l'ensemble des agences gouvernementales et incluent:

* le texte de loi

* les annexes qui détaillent l'ensemble des tableaux, graphiques, images, et autres, relatifs à la loi

Ces textes sont publiés par l'entremise du `Cumulative Oklahoma Administrative Code' à une fréquence semi-annuelle, et par l'entremise du `Oklahoma Administrative Code' à tous les trois ans ou selon les besoins.

Le `Cumulative Oklahoma Administrative Code' cumule l'ensemble des:

* nouvelles lois

* des lois modifiées

* des références aux lois abrogées

tandis que le `Oklahoma Administrative Code' présente l'ensemble les textes de lois en vigueur, la référence aux actions qui ont fait évoluer chacune des lois, ainsi qu'une référence à l'abrogation d'une loi.

Production
La production des textes de loi s'étale de la façon suivante:

Production du `Oklahoma Register'

* réception journalière des intentions de légiférer, des textes préliminaires, des avis spéciaux, des modifications, des décisions du gouverneur, etc. sous formats papier ou électroniques variés

* conversion des différents formats électroniques (Word, ASCII, WordStar, et autres) en format WordPerfect

* enregistrement des textes reçus au registre officiel

* révision/édition des textes reçus

* inclusion des textes révisés et édités dans une plage de diffusion déterminée du `Oklahoma Register'

* assemblage des textes d'une même plage en document complet `Oklahoma Register' par type de texte

* pagination des textes

* création des indexes et des références

* assemblage papier du document final

* reproduction papier du document

* diffusion papier du document selon une liste d'envoi préétablie

* archivage du document

Production du `Cumulative Oklahoma Administrative Code'

* extraction des textes de loi du `Oklahoma Register'

* élimination des renseignements de caractère administratifs tels le préambule, les références aux éléments du `Oklahoma Register', etc.

* élimination du texte biffé

* élimination du soulignement pour le texte souligné

* création des éléments hiérarchiques de référence de la particule de loi qui est modifiée (Chapitre, Sous-Chapitre, Section, Sous-Section)

* création de la liste cumulative des actions exécutées sur cette particule de la loi (à partir de la liste des actions contenues dans les textes de loi antécédents)

* assemblage de l'ensemble des textes à diffuser selon un ordre préétabli (par Agence, Chapitre, Sous-Chapitre, Section, etc.)

* pagination du document des textes de loi

* création des indexes et des références

* création de l'indexe de contenu

* assemblage du document final

* reproduction du document

* diffusion du document selon une liste d'envoi préétablie

* archivage du document

Problème d'Affaire

Le problème d'affaire auquel faisait face cette agence, est essentiellement l'assemblage et la diffusion la plus rentable possible, étant donné les contraintes budgétaires nouvellement imposées, ainsi que le souci de l'éditeur en chef d'offrir une qualité sans équivoque.

Les problèmes sous-jacents auxquels faisait face cet organisme incluent:

Rédaction des textes

* l'absence d'un pouvoir de gestion sur la fonction de rédaction des textes

* la multiplicité des auteurs

* la `créativité' abusive de certains auteurs

Acquisition

* la multiplicité des formats de support électronique des textes de loi

* l'identification arbitraire des types de documents (un document est considéré être de type X parce qu'il porte un nom de fichier particulier, ou parce qu'il est localisé dans un répertoire Y, etc.)

Traitement

* le volume des documents à traiter

* les besoins d'épuration et de traitement post rédaction des textes source

* les besoins de contrôle des versions

* les limites des logiciels de bureautique pour l'assemblage de documents complexes

* le niveau élevé de traitement d'exception pour l'identification des éléments documentaires devant être réutilisés (par exemple, le `Oklahoma Register doit réutiliser un ensemble d'objets documentaires pour produire un indexe par titre de chapitre, section, sous section, un indexe des mots-clés, un index par organismes, et un sommaire des agences traitées dans cette plage de diffusion)

* les erreurs fréquentes reliées à la composition manuelle des éléments dérivés des textes

Production et diffusion

* les limites des logiciels de bureautique pour la composition complexe des documents papier

* l'impossibilité de diffusion en médias multiples, autre que le papier, selon les technologies disponibles aux différents lecteurs

* les délais de production serrés

* le manque flagrant de personnel de soutien

* les pressions `politiques' exercées pour la mise en vigueur rapide des textes de loi... un tant soit peu!

2. AVANTAGES D'UNE SOLUTION SGML

L'introduction de la norme SGML dans cet environnement, a permis de réaliser des avantages économiques marqués, une gestion plus serrée de la production des textes, une élimination presque complète des risques d'erreur, ainsi qu'un niveau élevé d'automatismes qui ont allégés grandement les tâches de soutien administratif. De plus, l'introduction de cette norme a ouvert le pas à l'ensemble des technologies de diffusions modernes telles l'Internet, le CD-ROM, les outils de bureautique conventionnels, ainsi qu'à une gamme croissante de visualisateurs SGML qui permettent des recherches en mode `full text' et surtout en mode `contextual full text'.

La norme SGML a permis de tirer un énorme bénéfice de ses avantages inhérents, tout au long de la chaîne de production des textes de loi. La figure 1, ci-après, détaille les champs d'intervention de la norme tout au long d'un cycle conventionnel de production.

Figure 1 - SGML contribue tout au long de la chaîne de production

Plus particulièrement la norme a permis à l'agence de tirer les avantages suivants:

Rédaction des textes

* encadrement de la rédaction dans une structure préétablie ne laissant aucune place aux élans créatifs qui, à toute fin pratique, n'ajoutent aucune valeur au contenu du texte, mais peuvent consommer entre 20 et 40% du temps de rédaction

* abstraction des considérations de forme et emphase sur le contenu

Acquisition

* uniformisation due support électronique des documents source et élimination des besoins en conversion

* catégorisation des documents grâce aux renseignements bibliographiques incorporés dans la structure SGML, et non par un moyen arbitraire non fiable (nom de fichier, répertoire dans lequel le texte se trouve, etc.)

Traitement

* élimination des erreurs par l'identification sans équivoque des objets documentaires qui devront être traités de façon particulière (préambule, référence bibliographique, etc.)

* élimination, grâce à une identification précise, des traitements d'exceptions... l'exception finit toujours par devenir la règle!

* identification, à l'intérieur de mêmes objets documentaires, de caractéristiques précises qui auront à être traitées particulièrement (biffage, soulignement)

* gestion des versions de révision

* identification et réutilisation d'objets documentaires particuliers sans efforts, grâce au balisage de chaque élément pertinent

Production et diffusion

* accès universel aux logiciels sophistiqués de composition supportant la norme SGML

* assemblage des documents en formats de diffusion variés (CD-ROM, WWW (HTML), papier, traitement de textes, etc.) sans devoir altérer le texte. Les particularités de chaque média étant gérées par l'engin de composition du media en réutilisant la même représentation SGML du document.

3. STRATéGIE D'IMPLANTATION

La stratégie d'implantation a été orchestrée en considération des défis à surmonter, de tâches spécifiques à accomplir, et de la situation actuelle (technologie, processus) de l'agence.

Défis à surmonter

Pour réaliser ce projet, des défis de taille ont du être relevés. Certains étaient connus d'emblée, et d'autres ont rapidement fait surface en cours de projet. Les défis les plus contraignant ont cependant étés:

* la conversion du `Administrative Code' existant d'un format WordPerfect, qui s'est avéré à tout le moins très `ImPerfect', au format SGML (environs 30,000 pages de texte de loi)

Bien que le `Administrative Code' était, aux dires de l'éditeur en chef, très bien structuré, et selon la réglementation en vigueur, la réalité s'est avérée toute autre, au point d'occasionner des retards notables dans la livraison du projet.

* connaissance très limitée du standard SGML au sein de l'équipe de production de l'agence

Le standard SGML a été sélectionné en fonction de ses vertus et faisant suite au développement d'une vision d'uniformité de production des documents par l'équipe de production. Par contre, l'équipe n'a pas eu le loisir de se familiariser avec les concepts, et surtout, la philosophie derrière la norme. Cette lacune a donné lieu à des pertes considérables de temps au bénéfice de discussions philosophiques futiles.

* manque flagrant de procédures d'assemblage et de diffusion

Dans une entreprise d'assemblage et de diffusion de documents, la rigueur au niveau des processus est généralement de mise. Lorsque les processus sont absents, il est mal aisé de les améliorer! L'apport d'un standard tel le SGML n'est pas une solution aux problèmes de production reliés aux processus; l'équipe d'implantation a du développer, de concert avec l'équipe de l'agence, un minimum de processus structurés afin de permettre une implantation ayant des chances de réussite.

* connaissance minime de la technologie de l'information couplée à un manque de support central

L'équipe de production ne bénéficiait que d'une connaissance et d'un support limité des technologies de l'information. L'introduction d'une nouvelle technologie dans un tel environnement, ne peut que causer des problèmes à long terme. L'équipe d'implantation a donc mis en place une formation de dernier recours et a également piloté la production des textes de loi pour une période déterminée d'apprentissage.

Approche Utilisée

Le projet global d'implantation SGML a incorporé un ensemble de sous projets qui ont été menés de front par une équipe multidisciplinaire. Aux étapes les plus critiques, l'équipe de projet a compté pas moins de 14 ressources spécialisées incluant:

* un chef de projet

* trois programmeurs

* une rédactrice en chef

* cinq rédacteurs

* deux techniciens

* deux formateurs

sans compter les quatre membres de production de l'agence.

Projet de conversion des textes existants au standard SGML

Le premier des sous projets, la conversion des textes existants, a été entrepris dès le début du mandat. L'approche utilisée pour la conversion des textes existants a inclue:

* l'architecture documentaire des texte de lois à convertir, afin de produire un devis structurel adéquat de ces textes

* l'examen de la qualité des textes

* la personnalisation des convertisseurs généraux automatisés (WordPerfect à SGML)

* la construction de convertisseurs spécifiques

* l'épuration manuelle de certains textes qui ne pouvaient être traités par les convertisseurs automatisés

* la conversion automatisée générale et particulière des textes

* la validation des conversions

* l'ajustement manuel des exceptions complexes

* la validation interne de l'ensemble des textes

* la validation des textes par l'éditeur en chef de l'agence

* la correction finale des textes

Projet de développement du premier `Administrative Code' photocomposé papier

Le deuxième sous projet a consisté en la production de la première version papier photocomposée des textes de loi à être publiée. En effet, le `Oklahoma Administrative Code' d'avant projet consistait en un amalgame douteux de feuilles rédigées à la tant bien que mal!

Pour réaliser ce projet, nous avons sélectionné en consultation avec l'équipe de l'agence le logiciel de composition `INTERLEAF' pour lequel nous avons développé un convertisseur simple SGML à INTERLEAF ASCII. L'utilisation des balises SGML du texte source nous ont permis d'établir une relation de un à un avec les styles particuliers INTERLEAF sans avoir à manipuler d'aucune façon le texte source. Grâce aux principes de balisage du SGML nous avons donc conçu des outils de composition complètement automatisés permettant de passer du format SGML à un format photocomposé sans intervention humaine! Ces outils ont été réutilisés dans le processus de production continu des textes de loi.

Projet de développement du répertoire SGML et des traitements

Le troisième sous projet a été le développement du répertoire des objets documentaires SGML ainsi que de la chaîne de traitements qui permettent la production automatisée de tous les textes de loi depuis la réception des documents source.

Le SGML, qui n'est ni plus ni moins qu'un langage de définition des objets documentaires, est implanté d'une façon automatisée par un ensemble de logiciels de programmation, de convertisseurs, de banques de données, et de logiciels de diffusion sophistiqués.

Pour les fins de ce projet, nous avons utilisé les composantes logicielles suivantes:

* FastTag pour la conversion générale de sources multiples à SGML

* `C++' pour bâtir les outils de conversion particuliers

* ActiveServer comme répertoire SGML (Client/Serveur)

* Object Query Language (OQL) comme langage d'accès au répertoire

* `C' comme langage de manipulation des objets documentaires

* ActiveSearch pour la consultation contextuelle des objets documentaires

* Hammer comme outil de formatage des textes SGML en INTERLEAF ASCII

* INTERLEAF comme engin de composition

Grâce à ces outils, nous avons été en mesure d'automatiser complètement a chaîne de production des textes de loi à partir des documents source.

Projet d'implantation d'une solution SGML

Le dernier sous projet a inclut l'acquisition des composantes matérielles de traitement automatisé, l'intégration des éléments logiciels développés, la rédaction des procédures d'opération des logiciels, l'installation physique des équipements, le rodage, la formation et le suivi sur place.

4. CONCLUSION: LEçONS APPRISES

Ce projet d'implantation d'une solution SGML intégrée ne s'est pas déroulée sans heurts; et nous y avons probablement investi autant de deniers que l'agence. Par contre l'expérience vécue nous a permis de tirer des leçons importantes, que nous pouvons aujourd'hui partager avec confiance. D'autre part, la qualité des services rendus et l'économie d'opération de cette implantation SGML en fait une alternative attrayante et économique à la production conventionnelle des textes.

L'essentiel des leçons apprises lors de ce projet d'ampleur se résume ainsi:

* Préparation du terrain

- Qualité des documents à convertir

À moins que les documents à traiter ne soient déjà dans un format de balisage (SGML ou autre), et au niveau de granularité requis, il sera nécessaire de transiger avec les problèmes suivants:

> les textes ne seront jamais uniformes, peu importe le degré de confiance exprimé par l'éditeur en chef

> ce qui semblera être, ne sera pas: l'aspect visuel du texte source cachera toujours des pièges sournois

> un ajustement manuel post conversion sera requis; plus souvent qu'autrement, il sera majeur

> la conversion sera inévitablement complétée à 95%; 95% DU TEMPS!

> si vous avez une conversion à effectuer, ne la faites pas!; faites la faire

- Qualité des processus

Lorsque les processus de production de documents sont déficients, il devront être corrigés à tout prix. Il en va de la crédibilité du projet.

- Maîtrise du SGML

Une compréhension élaborée des fondements et de la philosophie d'application du SGML de la part des participants à un tel projet d'intégration est essentielle.

Une compréhension des objectifs et des fondements du SGML de la part des auteurs/rédacteurs est d'autant plus essentielle que ces participants au cycle de production devront, pour la plupart, changer dramatiquement leur façon de faire.

Un projet pilote SGML est un véhicule efficace pour introduire graduellement les principes et fondements du SGML.

*Architecture des documents

- une architecture documentaire complète mais simple, est garante d'une réussite

La norme SGML est outrageusement permissive; il est très facile pour des architectes documentaires néophytes emballés de développer des architectures-monstre pour des documents simples, qui vont assurément créer plus de problèmes qu'ils n'en résoudront; certains souffriront d'inclusionnite et d'autres de granulite... et le projet n'aboutira à rien.

- une architecture documentaire qui reprends les contraintes imposées par la technologie de diffusion archaïque qu'est le papier ne sera qu'une source de problèmes à n'en plus finir. Les pièges de la technologie papier incluent:

> le concept de la page; la page n'existe que par le papier. Dans le format SGML, la page n'existe pas.

> la table des matières n'existe pas

> les indexes n'existent pas

> toute identification d'objets documentaires tels: chapitre, section, sous-section, paragraphe, liste numérique, liste aléatoire, etc. n'ont aucune valeur. Il est avisé d'utiliser des définitions d'objets documentaires qui signifient quelque chose d'utile: Introduction, Conclusion, énoncé sommaire, énoncé détaillé, marche à suivre, énumération, politique, avis juridique, antécédent, jugement, prononcé, témoins, etc.

> tout comme dans l'activité da rédaction de textes de loi qui sauront transcender l'usure du temps, les références à des entités dictés par une technologie quelconque sont inacceptables: référer à la page 346, alinéa 3 ne sera plus acceptable dans une implantation SGML. On se rappellera que, jusqu'à tout récemment, la loi électorale, qui a été rédigée en fonction de la technologie de l'époque, obligeait le recenseur rural à utiliser un `crayon à la mine rouge'...pas de stylo-bille à encre indélébile en ce temps!

* Utilisation des technologies

- les technologies qui implantent la norme SGML sont encore très jeunes, et la norme est complexe. La simplicité sera donc la meilleure stratégie dans l'implantation efficace d'un environnement SGML.

- Pour les mêmes raison de jeunesse, mieux vaut tester les technologies contemplées par l'entremise d'un projet pilote, afin de pouvoir jauger adéquatement les obstacles à contourner.

Outre ces mises en garde, l'introduction de la norme SGML dans l'environnement documentaire est souhaitable puisque cette norme permettra d'exploiter avantageusement une ressource qui a été jusqu'à présent très mal servie: l `information textuelle.


Envoyez vos questions et commentaires au CRDP
© CRDP
M.A.D. 8 juillet 1996