File Information

File: 05-lr/acl_arc_1_sum/cleansed_text/xml_by_section/metho/92/c92-4191_metho.xml

Size: 17,978 bytes

Last Modified: 2025-10-06 14:13:01

<?xml version="1.0" standalone="yes"?>
<Paper uid="C92-4191">
  <Title>Indexation de textes : l'apprentissage des concepts</Title>
  <Section position="3" start_page="0" end_page="0" type="metho">
    <SectionTitle>
ACRES DE COLING-92, NANTES. 23-28 ^Ol~q&amp;quot; 1992 1 I 9 7 PROC. OF COLING-92. NANI'ES, AUG. 23-28. 1992
1 - INTRODUCTION :
</SectionTitle>
    <Paragraph position="0"> Le domaine des grandes bases de comlaissances, rassemblant des textes, est apparu vers les anndes 50 comme une des applications privilEgiEes de la puissance des ordinateurs. Deux besoins cruciaux out Et6 identifi~s : l'indexation des textes doit Otre correcte, la recherche dolt /~tre efficace en rdponse ~ une simple question.</Paragraph>
    <Paragraph position="1"> Au cocur de ces probl~mes, se pesent le choix des concepts et, plus gEnEralement, la definition de nouveaux thesaurus. Sahon avait prEconisd d~s 1966 l'automatisation de ces tilches car leur rEalisation manuelle est coflteuse et non dEtemfiniste \[SALT 66\]. Nous prEsentons ici le syst~me ANA (Apprentissage Naturel AutomatisE) qui sElectionne les concepts (sur lesquels seront indexes les textes de la base), eL les structures afin de faciliter las interrogations uttErieures.</Paragraph>
    <Paragraph position="2"> Nous avons choisi de travailler avec le minimum de connaissances, sails analyseur syntaxique, sans dictiormaire, uniquement par l'observation statistique des textes. Les concepts sElectionnEs sont alors directement issus de la langue employee. A cette exigeucc dc simplicitE, nous avons ajoutd la robustesse. Le systEme dolt supporter les dysfonctionnements que pourrait causer une lacune clans ses connaissances. Enfin, la simplicitd des ressources utilisEes permet au syst~me d'auto-dEcouvrir les connaissances dont il a besoin.</Paragraph>
    <Paragraph position="3"> lndexation manuelle Les syst~mes les plus simples et les plus rEpandas sont bases sur la selection de mots-clEs clans les textes. Une question utilisant ces mots donne accEs aux textes ainsi sdlectionnEs. Ces syst~mes prEsentent l'ineonvEnient d'&amp;re tr~.s rigides : I'ajout d'un nouveau mot-clE oblige ,h reparcourir tousles textes dEjb. indexes pour y rechercher sa presence. M~me automatisEe, cette procedure est trb, s contraignante. De plus Salton \[SALT 86\] a dEmontr6 les inconvEnients de I'indexation manuelle. A titre d'exemple, deux sujets diffErcnts ne choisissent quhh 70% des mots-clEs identiques pour indexer un m~me document ~ I'aide du m~me thesaurus.</Paragraph>
    <Paragraph position="4"> De plus, des informations, qui, hun moment dnnnd, ne semblent pas pertinentes/~ l'indexeur peuvent jouer un r61e contexte important \[ANDRa\] MEthodes statistiques Le probi~me du choix des concepts est contournE Iorsque l'on utilise le thesaurus en entier.</Paragraph>
    <Paragraph position="5"> Des crit~:res purement statistiques, se rEfErant ~t la valeur des termes d'indexation et non/1 leur sens \[DACH\] sont utilisds pour indexer les textes.</Paragraph>
    <Paragraph position="6"> Trb~s t6t, Stiles a montrd l'intdrt~.t de prendre en compte les occurrences simultandes de termes \[STIL 61\]. Plus rEcemment sont apparus les rEseaux connexionistes qui permettent de gErer dynamiquement les liens et les coefficients de ponddration affectant les termes d'indexation du thesaurus \[KIMO 90\]. Dans \[ANDRc\], on utilise les probabilitEs de Bayes actualis~es en fonction des rEponses et du poids sEmantique des termes dans le thesaurus (ou le dictionnaire). Cette thEorie oblige /1 distinguer homographes et synonymes car ceux-ci peuvent provoquer des biais importants. Turtle tente de simplifier les calculs de probabilitE dont la complexitE grandit de fad:on exponentielle avecla taille de la base \[TURT 91\]. D'autres mEthodes sont dEveloppEes pour representer le contenu sEmantique de chaque document, en particulier ~ raide de matrices : les lignes 6tant les documents et les colonnes les mots-clEs. C'est la mdthode de la structuration de la sEmantique latente \[FURN\], \[DEER 88\], \[DEER 90\], Approches mixtes Entre ces deux extremes, l'intervention de l'intelligence humaine darts l'indexation manuelle, et la prise en compte de tout le thesaurus (sans comprehension), l'Intelligence Artificielle oriente ses recherches vers I'automatisation du choix des concepts porteurs de l'indexatiou. Le problEme est alors de dEfinir les crit~res qui permettront la selection des concepts. Certains syst~mes utilisent des connaissances lexicales, syntaxiques, parrots sEmantiques (les synonymes). S. David pense que l'analyse morphosyntaxique est une 6tape indispensable : l'utilisation de patrons catEgoriels permet d'isoler les groupes de roots intEressants \[DAVI\]. Ces approches linguistiques, h priori les plus appropriEes, sont aussi les plus difficiles h implanter.</Paragraph>
    <Paragraph position="7"> De nombreux systEmes mixtes font intervenir b. la fois des outils linguistiques et statistiques. Le systEme Spirit en est un boll exemple. Les textes y sont analyses dans le but de repdrer les ElEments articulatoires du langage qu' utilise l'analyse linguistique pour sElectionner les concepts jugEs pertinents. Des filtres statistiques Evaluent les pondErations \[ANDRa\].</Paragraph>
  </Section>
  <Section position="4" start_page="0" end_page="0" type="metho">
    <SectionTitle>
2 - PRESENTATION
</SectionTitle>
    <Paragraph position="0"> Nous avons choisi d'utiliser l'apprentissage pour acqudrir les concepts correspondants aux textes traitEs, L'apprentissage automatique da langage (russe) par le comptage d'occurrences a dEj/t 6t~. EtudiE par Andreewsky \[ANDRb} mats le but Etait alors de dEcouvrir la grammaire de le langue h travers l'agencernent des ddclinaisons.</Paragraph>
    <Paragraph position="1"> Notre idEe a 6rE de concevoir un syst~:me aussi simple que possible avec le minimum de connaissance, mOme incomplete.</Paragraph>
    <Paragraph position="2"> Ce syst~me rEpond au problb~me du choix des concepts en n'utilisant ni l'analyse syntaxique ou sEmantique nile dictionnaire.</Paragraph>
    <Paragraph position="3"> Nous avons essayE d'Evaluer et de rEduire autant que possible les colmaissances, explicites et implicites, fournies au systb, me. Celui-ci est efficace lorsque les textes se referent h un domaine technique. /Is sont alors gEnEralement Ecrits dans un langage dit &amp;quot;opEratif&amp;quot;, un langage precis comportant peu d'homographes ou de synonymes \[FALZI.</Paragraph>
    <Paragraph position="4"> La mise en oeuvre d'heuristiques tr~s simples permet au syst~me d'acquErir une experience des objets familiers du domaine qui apparaissent darts les textes foumis. Cette connaissance se rEf~re directement au langage utilisE dans les textes, m~me si ceux-ci ne sont pas syntaxiqaemant corrects ou si les roots employEs ont un sans different de leur definition.</Paragraph>
    <Paragraph position="5"> Nous prEsenterons dans un premier temps les processus mis en oeuvre dans le syst~me ANA. Ensuite, nous ACTES DE COLING-92, NAhTE.~, 23-28 hOt~ 1992 1 I 9 8 PgOC. OF COLING-92. NANTES, AUG. 23-28. 1992 examinerons ses llouvelles fonctioanalitds et los extensions que nous lui avons apportdes. Enfin, scront prdsent~,s les rdsultats d'un test sur un corpus de 120 000 lOOtS.</Paragraph>
    <Paragraph position="6"> Notons que nous utilisons uu module qui permet de ddfinir, d'instancier et de g6rer des classes d'objets et des liens (Property Driven Model \[BART 79\]).</Paragraph>
    <Paragraph position="7"> Cette pr6sentation sera inustrde de nonlbreux exemples pour lesquels nous nollS situerons dans le cadre d'une application domestiquc.</Paragraph>
  </Section>
  <Section position="5" start_page="0" end_page="0" type="metho">
    <SectionTitle>
3 - LE SYSTEME ANA \[EN(-IU 911:
</SectionTitle>
    <Paragraph position="0"> Le prentier objectif est Ic choix automatiquc de concepts en vu de I'indexation de textes. Un concept est la forme canonique corrcspolldant ~ ant classe de nlots ou de syntagmes. &amp;quot;VERRE&amp;quot;, par excmplc, klentific les roots &amp;quot;verre&amp;quot;, &amp;quot;verres&amp;quot;.</Paragraph>
    <Paragraph position="1"> * Les connaissances proc6durales Nous avons utilis6 un ix)stulat se r6fdrant h des aspects statistiquas ou surl~.ciques du hmgage : Les 6v~nements frdqnents soot slgnifieatlfs.</Paragraph>
    <Paragraph position="2"> Ce postulat peut 6tre appliqu6 : - pour rechercher des sdquences de roots r6p6titives, - pour identifier des configurations d6notant des concepts.</Paragraph>
    <Paragraph position="3"> Ces configurations privildgidts sont implantdes sous forme de deux modules sym6triques que I'on tentera de faire con'espondre avec le texte.</Paragraph>
    <Paragraph position="4"> Si l'on rencontre l'ane de ces configurations : , ,. \[ ' mot mot spdcifiant concept'~ incomm an scll~nla con.ha J Qconc pt u'n sch,ma \[ in~Idegtn 0 I mot Sl~Scifiant I connu Alors le loot incollou es\[ considdrd col/line susceptible de dcvcnir un concept.</Paragraph>
    <Paragraph position="5"> Les roots sp~cifiallt les scht~mas soot acquis par appremissage si le corpus est suffisamment imlmrtant, ou donnds snag lorme d6clarative.</Paragraph>
    <Paragraph position="6">  COllCepts connus. Toutes les marques de ponctuation sont 61imindes. Cette reconnaissance est tol6rante aux fames d'orthograpbe et aux diffdrentes flexions qui peuvent ~tre reucontrdes.</Paragraph>
    <Paragraph position="7"> Le texte amsi per~u est analys6 en appliquant le postulat au colltcxte local autour des concepts.</Paragraph>
  </Section>
  <Section position="6" start_page="0" end_page="0" type="metho">
    <SectionTitle>
2 - Recueil des occurrences
</SectionTitle>
    <Paragraph position="0"> Wechniquement, le texte est vu an travers d'une fen&amp;re de quatre roots. Les mots rides et ceux de moills de deux lettres ne sont pas pris en compte dans le calcul de l'empan de cette fen~tre.</Paragraph>
    <Paragraph position="1"> La fent~tre est d6placde tout le long du texte, son contenu ast recueilli suivant trois voles diffiSrentes en flmction de sa nature.</Paragraph>
    <Paragraph position="2">  Les seuils net m sum arbitrairement fix6s aux valeurs 3 et 5 qui se sore expErimentalement rEvElEes correctes pour des corpus de 40 D00 A 200 000 roots. Cependant il semblerait nEcessaire de les rendre adaptatifs quand le corpus devient trEs grand.</Paragraph>
    <Paragraph position="3">  totalisant environ 120 000 roots et provenant d'interviews relatives au retour d'expErience du dEmarrage du rEacteur ~ neutrons rapides Super-PhEnix. La base initiale comprenait 350 concepts effectivement utilisEs dans les textes analyses.</Paragraph>
    <Paragraph position="4"> L'analyse a donn6 lieu/t la dEcouverte de 700 nouveaux concepts dont les deux-tiers ont 6t6 jugSs qualitativcment trEs bons. D'autre part, 260 des concepts du bootstrap om 6t6 confirmEs.</Paragraph>
    <Paragraph position="5"> D'autres rEsultats sont dEtaillEs darts \[ENGU 91\].</Paragraph>
  </Section>
  <Section position="7" start_page="0" end_page="0" type="metho">
    <SectionTitle>
4 - LES EXTENSIONS
</SectionTitle>
    <Paragraph position="0"> Nous abordons l'apprentissage des connaissances utilisEes pour l'apprentissage ! Nous avons vu comment dEcouvrir des concepts. Le syst~.me va maintenant apprendrc une partie des connaissmlces nEcessaires ~ ce premier apprentissage, c'est h dire les connaissances ddclaratives : la liste des roots rides, la liste de roots fortement lies et les roots spEcifiant les schemas.</Paragraph>
    <Paragraph position="1"> Les rEsultats de cet apprentissage, les listes que le syst~me va 6tablir, ne seront pas exactement identiques aux listes fixdes h I'avance qui, jusqu'b, present, lui dtaient fournies. Nous nous attentions b. ce que son fonctionnement en soit amdliord : le processus va n6gliger certains schemas, rares darts l'6chantillon, en mettre de nouveaux h jour auxquels noas n'avions pas pens6. Bref, l'addquation ~ la langue manipul6e darts les textcs sera meilleure.</Paragraph>
    <Paragraph position="2"> Les extensions de l'apprentissage Le postulat est applique ~ la structure interne des concepts afin de ddcouvrir la fagon dont ils sont formEs. Ac-r~ DE COLING-92. NAN'r~s, 23-28 Ao~'r 1992 l 2 0 0 PROC. OF COLING-92, N.~t~s, AUC. 23-28, 1992 Les configurations les plus frdquentes toumir0nt des gdn6ralisations qui serviront ,5 ddgager les schdmas de ddcouverte des nouveaux concepts.</Paragraph>
    <Paragraph position="3"> Examinons l'apprentissage des conuaissances ddclaratives qui auparavant 6talent fournies au syst~me : la liste des mots rides, la liste de roots fortement lids et les roots spdcifiant les schdnlas.</Paragraph>
    <Paragraph position="4"> L&amp;quot;~pprentissage des ennn'dssances d~elaratives Afin de moddliser la structure interne des concepts, nous ddfinissons une nouvene classe d'objets.</Paragraph>
    <Paragraph position="5"> Ulle nouvellc classe d'objets : les termes Les temles sont les roots composant les concepts.</Paragraph>
    <Paragraph position="6"> lls SORt lids entre eux par la relation &amp;quot;voisin&amp;quot; qui mdmorise la frdquence de chaque association. De chaque terrae nous eonnaissons le nonrbre d'occarreuces et lc fait qu'il soit, ou non, concept ~ titre individuel. Les termes sont entourds d'un simple cadre dulls les repr6sentations graphiques.</Paragraph>
    <Paragraph position="7">  &amp;quot;CAFE&amp;quot; sum eux-mt:mes des concepts, alors que &amp;quot;bol&amp;quot; et &amp;quot;de&amp;quot; n'en sont pus.</Paragraph>
    <Paragraph position="8"> DC/~grmination ~le la list~ de roots vi(tc~ Pour obtenir une liste de bonne qualit6, il est ndcessaire d'utiliser un 6chantillon de textes d'au nloins 40 000 mots, soit environ 100 pages (minimum issu de l'examen de diffdrents corpus).</Paragraph>
    <Paragraph position="9"> Le syst~me lit l'dchantillon et compte tousles roots qu'il rencontre. Un terme est ici strictement ddfini par sa forme, par la chatne ordonnde de caractdres qui le composent. Ainsi, &amp;quot;chaise&amp;quot; et &amp;quot;chaises&amp;quot; sont considdrds comme deux termes diffdrents.</Paragraph>
    <Paragraph position="10"> Les diffdrents termes sont ensuite classds en fonction de leurs frdquences ddcroissantes el affectds d'un numdro correspondant ,5 leur rmlg.</Paragraph>
    <Paragraph position="11"> La courbe, frdqucnce = f (log (rang)), est seuillde au rang s tel que raire As (d6finie par la courbe, raxe des abscisses, I'axe des ordonndes et la droite x = s), approche 95 % de l'aire totale A (ddfinie par la coarbe et l'axe des abscisses).</Paragraph>
    <Paragraph position="12"> Soient : n, le hombre de temles de l'dchantinor  DEs lors, tous les rook'; de rang x &lt;- s sont des inols rides, lls sont 6crits dmls la liste addquate.</Paragraph>
    <Paragraph position="13"> k ~ * -rots &amp;quot;tbrtement li~.s et des mots tie Les roots caractdrisant les schdmas ont la propridtd de lier des cuncepts. Nous utilisons cette particularit6 pour les isoler.</Paragraph>
    <Paragraph position="14"> A I'initialisation du syst~me nous disposons de l'ensemble des concepts dOlulds dans le tmotstrap.</Paragraph>
    <Paragraph position="15"> Dans un premier temps, dliminons les concepts composds de plusieurs termes, ceux-ci risqucraient de biaiser notre analyse furore, et Iravaillons avec les seuls concepts simplcs.</Paragraph>
    <Paragraph position="16"> La premiere opdration utilise ces concepts et un 6chantillon de textes pour en ddduire des concepts composds par la collecte d'occurrences assocides `5 des expressions. A ce stade, aucune connaissance n'intervient, nous ne raisons qu'appliquer le postulat pour regrouper les concepts prdsents afill d'en forlner de plus complexes.</Paragraph>
    <Paragraph position="17"> Aa fur et ,~ mesure de leur crdation, ces concepts sum ddcomposds en termes. Nous utilisons une information cruciale attachde `5 chaque terme : Est-il un concept de fa~on individuelle ? Alors, les listes que nous cherchoas peuvent 61re 6tablies  L'analyse statistique 6tablit une liste de 35 mots rides : &amp;quot;a&amp;quot;, &amp;quot;'au&amp;quot;, &amp;quot;avait', &amp;quot;c', &amp;quot;ce', &amp;quot;cela&amp;quot;, &amp;quot;d&amp;quot;, &amp;quot;clans&amp;quot;, &amp;quot;de&amp;quot;, &amp;quot;des&amp;quot;, &amp;quot;done&amp;quot;, &amp;quot;du', &amp;quot;en&amp;quot;, &amp;quot;est', &amp;quot;et&amp;quot;, &amp;quot;altair&amp;quot;, &amp;quot;fait&amp;quot;, &amp;quot;il&amp;quot;, &amp;quot;je&amp;quot;, &amp;quot;1&amp;quot;, &amp;quot;la&amp;quot;, &amp;quot;le&amp;quot;, &amp;quot;its&amp;quot;, &amp;quot;n', &amp;quot;he&amp;quot;, &amp;quot;on&amp;quot;, &amp;quot;pus&amp;quot;, &amp;quot;ixmr&amp;quot;, &amp;quot;qu&amp;quot;, &amp;quot;que&amp;quot;, &amp;quot;qui&amp;quot;, &amp;quot;sur&amp;quot;, &amp;quot;un', &amp;quot;une&amp;quot;, -y,,.  &amp;quot;b. la&amp;quot;, &amp;quot;de 1&amp;quot;, &amp;quot;de la&amp;quot;.</Paragraph>
    <Paragraph position="18"> - de qualifier ies termes earact~ristiqnes de schemas : &amp;quot;de la&amp;quot;, &amp;quot;d', &amp;quot;des&amp;quot;, &amp;quot;de&amp;quot;, &amp;quot;du&amp;quot;. Nous constatons que les tools de sch6rnas retrouv6s par le syst~me sont les plus productifs quant aux nouveaux concepts qu'ils sont susceptibles de d6couvrir.</Paragraph>
    <Paragraph position="19">  Le contr0le des connaissances de notre syst~me ainsi que leur introduction sous forme d6clarative nous ont permis d'exploiter le rdseau de concepts et de termes. Toutefois, il nous reste /t explorer de nouvelles extensions vers une plus grande structuration du r6seau : la d6finition automatique de classes de mots. \[FURN\] Le processus d'induction de ces classes sera has6 sur rexamen des contextes droits et gauches des termes eomposant les concepts. L'utilisation des termes dans le langage reflStant la manipulation des objets dims le monde physique. Cet isomorphisme pr6suppos6 des structures, des termes et des objets, correspond /1 la th~orie psychologique de capture des classes par \[KIMO 90\] prototypage.</Paragraph>
  </Section>
class="xml-element"></Paper>
Download Original XML