File Information

File: 05-lr/acl_arc_1_sum/cleansed_text/xml_by_section/metho/98/w98-1006_metho.xml

Size: 19,108 bytes

Last Modified: 2025-10-06 14:15:07

<?xml version="1.0" standalone="yes"?>
<Paper uid="W98-1006">
  <Title>Voyellation automatique de l'arabe</Title>
  <Section position="2" start_page="42" end_page="43" type="metho">
    <SectionTitle>
I. Introduction
</SectionTitle>
    <Paragraph position="0"> Un texte arabe non voyell~ est fortement ambigu. 74% des roots qui le composent acceptent plus d'unc voyellation lcxicale, et 89,9% des noms qui Iv constituent acceptent plus d'une voyellc casudlc. La proportion des mots ambigus passe ~ 90,5% si les comptages portent sur lenrs voyellations globales (lexicales et casudles).</Paragraph>
    <Paragraph position="1"> Pour mieux comprendre ces chiffres prenons l'exemple du mot ~ / ktb et comptabilisons sos divcrses voycllations lcxicalcs ~ casucllcs. Le dictionnaire nous renvoie les sept voyellations lexicales suivantes:</Paragraph>
    <Paragraph position="3"> auxquelles en toute rigueur fl convient d'ajouter los denx voyellations correspondant A la</Paragraph>
    <Paragraph position="5"> ce qui donne neut'voyellations au total.</Paragraph>
    <Paragraph position="6"> Pour lcs norm, Ic dictionnairc nous renvoie d'autrc part l'ensemblc des cinq voyeUes casucUes suivantes \[ &amp;quot; ' &amp;quot;\]/\[a u i an un in\] i, ensemble quc nous appclons sch~ casucl.</Paragraph>
    <Paragraph position="7"> Commc on le voit, la voyeHe casuelle nc figure pas dam ce sch~na. La raison est qu'ellc nc s'applique pas aux graphics: ~ I kutub, ~ / katob et ~ / tabb mais aux graphics t,~/ kutuban, t~ / katoban et .~ / tabban qui, dam un dictionnairc de formes, constituent des entr~es distinctes.</Paragraph>
    <Paragraph position="8"> La combinatoirc des voyeUations lcxicales et casuelles associ~es ~ ~ /ktb donne donc au total C/t minimalement 21 voyellations globales. Comment compter ? Derriere ces chiffres se cache unc double question : Comment mesurcr lc nombrc de voyeUations lexicalcs et casueHes diff6rentes d'unc forme simple7 Comment effcctuer ces m~mes mesures sur les forints agglutin6es? La r~ponse n'cst pas aussi simple qu'il n'y paratt au prime abord. La fusion des voyclles casuclles, du tanwin, des suffixes du pluricl ou du duel, d'une part, et l'agglutination, d'autre part, rendent difficilc pen ou prou les comptages. En effet, la distinction informatiquc de ces cliff, rents composants linguistiques n'est pas toujours chose aisle.</Paragraph>
    <Paragraph position="9"> S'il est trivial de compter les nombres de voyellations lcxicales et casuclles d'un mot commc L..~.b / mdrst, qu'en est-il de mots ~Nous donnons dans la lisle suivante la codification des voyeUes que nons avons pr6coni~. Attention cette codification n'est utilis~e que pour representer les schemes vocaliques. La tramlit~ration u'tflis~ par afllenrs pour reprdsenter les mots arabes est ici circonstantieHe.</Paragraph>
    <Paragraph position="10">  o: ; a&amp;quot; , u:;i:,A:;U:*,X:;an:;un:; In:' in: ,An:;Un:', . .</Paragraph>
    <Paragraph position="11"> comme ~, :~- I mqhy, b.t,k.~ / mslmwn, ou t..~.tK/ ktlbl. Et quc deviennent ces nombres lorsquc ~ ces m&amp;nes roots sont agglutin6s  quelquc proclltiques ou enditiques.</Paragraph>
    <Paragraph position="12"> La di~cult~ vient ici de ce que la voyellc casuelle ne se trouve pas toujours pr6sente en position finale, qu'elle ne prend pas toujours la simple forme d'un signe diacritique cod6 au moyen d'un senl cara~re, et ClUe d6s lors cUe n'est pas toujours facilement ~Ic.</Paragraph>
    <Paragraph position="13"> n y a de surcrdt quc les comptages sont li6s ~ la repr6sentation informatique des donn~es lexicales et aux r6gles qui lenr sont assocides * scion quc l'on utilise un dictionnaire de lemmcs ou un dictionnaire de forints, les comptages autant que les objets (sch&amp;x~.s vocaliques ou casuels) sur lesquels portent ces comptages scront diff~rents.</Paragraph>
    <Paragraph position="14"> Par exemplc ~. t_~. / bib aura scion qu'fl est issu d'un dictionnairc de lemmcs ou d'un dictionnaire de formes les schemas vocaliqucs et casucls suivants 2&amp;quot; Lemme sch6ma voc. sch6ma casucl</Paragraph>
    <Paragraph position="16"> La voyclle ~ / anl n'est pas pr6sente clans ce demicr sch6ma casud car dam lc dictionnaire de formes il y a aussi l'entr6e t&amp; / blbl ~ laqucUc</Paragraph>
  </Section>
  <Section position="3" start_page="43" end_page="43" type="metho">
    <SectionTitle>
2 Notations * darts la rcpr~entation des sch~m~
</SectionTitle>
    <Paragraph position="0"> voca/iques et casuels le (&lt;.)&gt; ind/quC/ l'absence de signe vccalique pour les semi-voyetles (, j ~ ,C/) / (1 w Y y) occupant la position correspondante dans la graphic du mot. De m6me, dans un sch~na casuel, 1'((*)) dAn~ une position d~terrnin~C/, indique l'interdiction fare t la graphie d'avoir ce cas, ~tant entendu clue Its six positions d'un schema casuel Ow s sont respectivement associ~es at= six cas : ' / auianunin sent associds les schdmas vocaliques et casuels suivants * Forme schdma voc. schdma casuel ~.b. \[** :***\] Enfin fly a que h description informatique introduit parfois des simplifications qui se font au prix de confusions qui l'dloignent du mod61e linguistique qu'elle est cens~e reprdsenter.</Paragraph>
    <Paragraph position="1"> Nous donnons ici au travers de diff6rents exemples les conventions et les choix de reprdsentation que nons avons prdconis6s.</Paragraph>
    <Paragraph position="2"> Rappelons que nous travaillons au moyen d'un dictionnaire de formes, celui-ci codant les voyellations de la fac~on suivante : Formes schema vocalique sch~.ma casuel</Paragraph>
    <Paragraph position="4"> d'abord de scMm~s casuels dont le nom devient quelque peu usurp6 puisque incluant parfois des voyelles qui ne sont que fina!es et non casuelles (par ex. ~l &amp;quot;'. / musoLimuwna); ensuite de sch~a~ms vocaliques incluant parfois les marques du tanwin comme pour ,~- / mqhy, c~ qui conduit ~ l~g~rement v amplifier l'ambiguR~ lexicale puisque pour de tels roots l'on se retrouve ave~ uneou phsieurs voyellations lexicales suppldmentaires, cn l'occurrence ici aver&amp;quot; .o* / a o aet la voyellation lexicaJe</Paragraph>
    <Paragraph position="6"> suppldmentaire / a o an. Une ambigurt~ lexicale ~&lt; artificieUe, est ahsi cr~Ae par l'apparition d'un schdma vocalique/-chant la marque du tanwin.</Paragraph>
    <Paragraph position="7"> Ces distorsions restent en fa/t assez marginales. Pour le traitement informatique de la voyellation elles sont sans consdquence. II n'y a que le taux d'ambiguRd lexicale moyen qui est tr6s Idg6rement amplifid an ddtriment de cclui de l'ambiguitA casuelle. Le tableau suivant donne prdcisdment les comptages relatifs aux entrdcs du dictionnaire qui donnent lieu ~ des schdmas vocaliques ou casuels &lt;&lt; impropres ,.</Paragraph>
    <Section position="1" start_page="43" end_page="43" type="sub_section">
      <SectionTitle>
Mots
</SectionTitle>
      <Paragraph position="0"> du type Cette representation n'est pas comme on le volt sans cons~uence sur les comptages. De fafon ,sjb,.o fort simple, elle ne retient au compte des voyelles casuelles d'nne graphie que l'ensemble de ses seules voyelles finales. Simpl/cit~ done, 44 mais au double d6triment :</Paragraph>
      <Paragraph position="2"> Les cas qui conduisent a des comptages 16g6rement erron6s an regard de la d6finition lln~uistique restent done en proportion relativement peu nombreux : an total 30 529 sur les 503 000 entr6es que compte le dict.ionn~ire, soit 6% du nombre total des mots non voyell~s.</Paragraph>
      <Paragraph position="3"> Et si l'on ne devait s'int&amp;esser qu'aux seuls mots ayant re@u une voyeUation lexicale suppldmentaire ayant pour conshtuence d'en augmenter l'ambiguitd, nous constatons que leur hombre est ndgtigeable : 35 + 744 soit au total 779, ce qui donne en proportion 0,15%.</Paragraph>
      <Paragraph position="4"> Le codage retenu n'introduit done au regard de ce qui aurait ~ souhaitable de comptabiliser qu'une tr~ ldg~re distorsion dent les cons~uencos dens la earact~risation quantitative du probl~me de la voyeUation ne sont pratiqucment pas visibles.</Paragraph>
      <Paragraph position="5"> D'autre part, il convient de remarquer que les comptages qui en db:oulent livrent au fond la v6ritable mesure des difficult~s que nous aurons r6soudre rant il est vrai qu'il nous faut bien #Be oo~ lever l'ambiguRd ~, ~'~-/~, ~,~-(maqohay / maqohany).</Paragraph>
    </Section>
  </Section>
  <Section position="4" start_page="43" end_page="45" type="metho">
    <SectionTitle>
IL AmbiguYtd vocalique
</SectionTitle>
    <Paragraph position="0"> If. 1. Mesure en d~finiaon Nous donnons dans le tableau suivant les comptages li~s aux voyellations lcxicales et casuelles des 503000 cilla'des du diO:ionnaire de formes utilis6. Les deux premieres lignes livrent respectivement les proportions d'entr~es non ambigues/ambigu~s au regard de la voyellation lexicale, casuelle et globale. La demi~re ligne donne le nombre moyen de voyeUations lexicales, casuelles et globales par entr6e.</Paragraph>
    <Paragraph position="1">  Parco que sous l'ansle de la solution informatique, le problhne de la voyeUation est analogue ~ colu/ do la r~.c~mtuafion automatique, nous donnons dam les d~x tableaux comparatifs suivants les comptages</Paragraph>
  </Section>
  <Section position="5" start_page="45" end_page="48" type="metho">
    <SectionTitle>
3 Nous d/st/nguons les unit~s lexifales, entrf~ du
</SectionTitle>
    <Paragraph position="0"> dicfionn~ires, des unit~s morphologiques, ch~Tnes de caract~res comprises entre deux s~atears forts dans un texte, lesquelles sent constitutes d'unit~s lexicales agglufin~.s. Les proclitiques, les formes simples et les enclitiques sent des unit~ lexicales.</Paragraph>
    <Paragraph position="1"> Les forints simples lorsque isol6:s ~n.C/ le textc ct les formes agglutin6~s sent des uait~s morphologiques.</Paragraph>
    <Paragraph position="2">  Cos tableaux sugg~rcnt a priori que voyeller est sans doutc plus difficile quc r~acccntuer. Ne paxt-on pas en effct d'une situation bicn plus ambigu~ dans le eas de l'axabe : dam le lexique 44% des mots ou m~me 56% si l'on prcnd cn comptc la voyelle casuelle sent ambigus, centre sculcrnent 4% pour le franf~is. En outrc, alors que l'ambigui)h fait porter au mot arabe 2 ou 3 voydlations en moyenne, cUe n'attribue pour le fran~ds quc 1,04 accentuations cn moyenne.</Paragraph>
    <Paragraph position="3"> Les m&amp;ues mesures effcctu~cs en usase accentuent encore plus la diffdrencc : 75% (sans voyellations casuclles) / 90% (avcc voyellations casuelles) des unit~s morphologiques consfituant un tcxtc axabe sent cn effet ambigu~s centre sculcmcnt 28% pour le franctais. LA aussi avcc de surcroh pour l'axabe un niveau d'ambiguith ncttcmcnt plus ~lev~ : de 6,2 (sans) / /~ 11,5 (ave.c) voyeUations pax mot en moycnne centre 1,3 accentuations cn moycnne pour lc francois.</Paragraph>
    <Paragraph position="4"> IIL Voyellation automatique Lo processus de la voyellation automatique est dam son prinC/ipe assez simple. Tout commo pour la r~accentuation, il op~re C/u deux temps. Dam un premier temps il associe/~ clmque mot rctcnu l'ensemble de sos voyeUations potentiellcs. Dam un second temps, ct au travers de toutes Its ~mpes ult~rieures du traitement, le processus tente de r&amp;hire le nombre de C/es voyellations potentielles, la r~solution ~ant obtcnue s'il n'cn subsiste qu'une settle.</Paragraph>
    <Paragraph position="5"> III.1. Quelles connaissances pour la voyellation La voyellatiort, cornme la r~x, cntuation, ndccssito la raise en oeuvre de connai.csanccs de tous les niveaux : morphologique, syntaxique, s&amp;uantique, pragmatique. Le tableau suivant donne des excmples earact~ristiques de situations off l'ambiguit~ vocalique (lexicale et easuelle) n&amp;~essitc pour sa rdsohtion de tdles connnissnnces.</Paragraph>
    <Paragraph position="6">  qui peut aider ici A retenir la settle comb~nalson licite ~=,~J'~ ~f'ji A supposer que les ~-~apes syntaxique et s~mtique aient jou6 lenrs r61es ca 6 &amp;quot;laninant mutes les voyellations potenfielles incompatibles ou impropres au C/ontexte, il subsistera l~ur les mots +t ~l.ll et at denx, voyellations dormant lien /! deux lectures diff6rentes : i Le choix de I unc ou de I autrc lecture no pent ~e effectu6e ici qu'au moyen de cormaissances extm-linguistiques, en l'occurfence celles qui privilCgient ici la prerr~6re lecture.</Paragraph>
    <Paragraph position="7"> Dans le travail pr~sentd ici nous explomns les contributions au traitement de la voyellation de l'analyse morphologique d'une part, et de l'~iquetage gmnmmtical d'autre part. Nous tentons d'en 6vaJuer les apports en termes de r6solution ou sinon de r&amp;lu~don de l'ambiguR~ vocalique.</Paragraph>
    <Paragraph position="8"> ILL2.. Analyse morphologique A proprement parler, l'analyse morphologique ne fait clue mettre au jour les diverses vocalisatious potenfielles des mots d'un textc. Le probRme est trivial lorsqu'il s'agit de mots simples : les voyellations lexicales ct casuelles sont dircctement ~livr~es par le double dictio-na;re non voyell~/voyelld. Le mot est ambigu ou non ambigu d'cmbl~, et s'il est  ambigu, l'analyse morphologique ne peut lien faire de plus. Pour un texte donn6, c'est statistiquement le cas pour environ 52% des roots qui le composent 4.</Paragraph>
    <Paragraph position="9"> Le probRme est bien plus complexe lorsqu'il s'agit de formes agglutin~s, soit pour 58,27% des unit~ qui composent un texte. Darts ces cas, ranalyse morphologique se dolt de reconnaZtre routes les scgnumtations potentieUes licites et associer A toutes les ur~t~s lexicales qui en sont issues lenrs diverses voyellafions potenficlles. Or la reconnaissance des segmentations licites n'est pas ind6pendante de la voyellation des unit~s ainsi segment~es. L'61imination des segmentations illicites repose en effct sur l'ernploi de r~gles de compatibilit6 qui font appel aux propri~s linguistiques des unit~s segmentales pr~cis~ent voydl6es. Le rejet est prononcd lorsque pour une ddcomposition en proclitique + forme simple + enclitique donn~e, routes les comb!nalsons issues des divcrses voyellations respectives de ces ~l~ents sont d6clar~es incompatibles. Bien stir, ce processus n'aboutk pas toujours. Et c'est pr~is~nent lorsqu'il n'aboutk pas qu'il y a parfois r~lucfion voire r~solution de l'ambiguR~ vocalique.</Paragraph>
    <Paragraph position="10"> C'est ce processus qui conduit par exemple pour tree unit~ comme ,+ -~: / bktb A conserver la d&amp;;omposition ,+- -C/&amp;quot; + ~. I b + ktb avec respectivement les senles possibilit~s vocaliques suivantes : pour ~ {.}lb{i},ctpour~{ , , , / {aoi, aoin, uui, uuin}, les a.utx~es possibilit~s 4 52% de formes Slmples contre 48% de formes agginfin~s sont les proportions exactes mesur~ sot un texte d'environ 23000 unit~s pr~lablement an~/s4~es A la main. Au regard de l'~n~lyse morphologique ess proportions eh~nSent l~g~ement : la dis~mlns~on ~mit~ ~mn|es / unit~ agglutin6es n'6tant plus faites, il y a introduction d'une tmisi~me classe d'unit~ cetles qui sont potentiellement A la fois ~mples et aggl-tln~es. Les comptages donnent 41,71% de formes simples, 41,63% de formes agglulim~es, et 16,64% de fonnes ambigues.</Paragraph>
    <Paragraph position="11"> {&amp;quot;,&amp;quot;,-,&amp;quot;Y} / {u~, aIo, aAa, uia, aaa} ayant ~ ~ &amp;quot;li~es.</Paragraph>
    <Paragraph position="12"> La contribution de l'analyse morphologique au processus de voyellation ne se limite done pas settlement it l'attribution des diverses vocal/sations potentieHes. Au travers de l'analyse des formes agglutin~es, die entame le processus d'dimination de certaines voealisations potentielles, done de r6duction de l'ambigtat~ voeal/que, la rdsolution ~'tant m&amp;ne atteinte dans eertain.~ Cas. LC/ tableau suivant donne pr~eis~ment tree ~vahation chiffr~e de cette contribution.</Paragraph>
    <Paragraph position="13"> Textes voy. voy. voy.</Paragraph>
    <Paragraph position="14"> lexicale casuelle globale Avant applications r~gles de compatibilit6 non ambigus 25,6% ambigus 74,4% nb moy. de 6,2 voy. par mot  Relatif it l'analyse d'un texte d'environ 23000 unit~s compl~tement non voyell~es, la ehadda ~tant en partieulier elle aussi absente, ee tableau montre ee qu'apporte en sus l'analyse des unit~ agghtin&amp;s. Pour la voyellation globale par exemple, l'on passe de 9,5% d'unit~s simples reconnues non ambigues d'embl&amp;, it 9,5% + 1,4% d'unit~s simples et agglutin~es r~sohes, soit 10,9%. On observe en m~me temps une diminution substantielle du degr6 de l'ambiguit6 vocal/que : le hombre moyen de voyellations potentielles pour une unith morphologique passe de 11,5 a 7,5. Les colonnes dormant les r~sultats l/6s it la voyellation lexicale et ~ la voyellation casuelle se l/sent de la m&amp;ne fa~n. On observe l~ aussi les m~mes tendances.</Paragraph>
    <Paragraph position="15"> IlL&amp; Etiquetage grammatical L'~quetage gammatical n'est pas indZ~ndaat de la voyelhtion. En effet, les cheminements s~ques qu'il construit sont l/&amp; aux ,Jtiquettes grammaticales potentielles qui sont assoei&amp;s non pas aux roots non voyell&amp; mais aux diverses instaneiations voyell&amp;s potentielles de ees derniers. Les vocalisations sont done intimement li&amp;s aux ~,tiquettes grammaticales, et d~s lors, l'ambiguith vocal/que ~ l'ambiguR~ grammaticale. Si done les vocalisations sont une condition it la d~/termination des diverses ~quettes grammaticales potentielles d'tmmot, inversernent, la r&amp;hction de cet ensemble d'~quettes n'est pas sans cons&amp;luence sur la d~nition de l'ensemble des vocalisations potentielles de d~vart.</Paragraph>
    <Paragraph position="16"> La question est de savoirjusqu'a quel point la r6duction ou, mieux, la lev&amp; des ambiguit~ grammaticales contribue-t-elle ~t la r&amp;hction ou r&amp;ohtion de l'ambiguit~ vocalique.</Paragraph>
    <Paragraph position="17"> Pour r~pondre a cette question, nous nous sommes l/vr&amp; a deux exp6rimentations.</Paragraph>
    <Paragraph position="18"> Dam la premi&amp;e, la situation ehoisie est id~ale. C'est celle o6 routes les ambiguit&amp; grammaticales sont correctement lev~es. Darts la seconde, les conditions exp6rimentales sont normales, celles o/1 l'~dquetage est automatique et done non compl~Leraent r&amp;oh.</Paragraph>
    <Paragraph position="19">  Textes voy. voy. voy.</Paragraph>
    <Paragraph position="20">  Nous remarquons tout d'abord que clans la premi&amp;e exp6rimentation, quand bienm~ane la levee des arnbiguit~s grammatieales est enti&amp;ement rdalisde, la r6solution des ambigtat~ lexicales n'est obtenue que pour 76,5% des roots, tandis qu'elle plafonne /t 98,9% pour l'ambiguitd casuelle. Ces performances repr~sentent en fair les seuils qui ne pourront jamais &amp;re depass~s au sortir de l'~iquetage grammatical.</Paragraph>
    <Paragraph position="21"> Les r~sultats affleh~s dam la seconde partie du tableau sont done /L ~valuer ~ l'aune de ees seui\]s.</Paragraph>
    <Paragraph position="22"> Bibliography Fathl DEBILI, Christian FLUHR Modularit~ et construction d'informations linguistiques pour une approche industrielle du traitement automatique du langage naturelo Colloque \]nformatique et Langue naturelle, Nantes,</Paragraph>
  </Section>
class="xml-element"></Paper>
Download Original XML