File Information
File: 05-lr/acl_arc_1_sum/cleansed_text/xml_by_section/metho/92/c92-4192_metho.xml
Size: 18,050 bytes
Last Modified: 2025-10-06 14:13:00
<?xml version="1.0" standalone="yes"?> <Paper uid="C92-4192"> <Title>Programme de Recherches Concertdes, Communication Homme-Machine -- Research</Title> <Section position="1" start_page="0" end_page="0" type="metho"> <SectionTitle> BESOINS LEXICAUX A LA LUMIERE DE L'ANALYSE STA'FISTIQUE DU CORPUS DE TEXTES DU PRO JET &quot;BREF&quot; - LE LEXIQUE &quot;BDLEX&quot; DU FRANCAIS ECRIT ET ORAL. </SectionTitle> <Paragraph position="0"> 1. FERRANE, M. de CALMES, D. CO'lq'O, .I.M. PECA'ITE, G. PERENNOU.</Paragraph> <Paragraph position="1"> IRIT - UniversitY! Paul Sabatier 118, route de Narbonne</Paragraph> </Section> <Section position="2" start_page="0" end_page="0" type="metho"> <SectionTitle> 31062 TOULOUSE Cedex - FRANCE ABSTRACT </SectionTitle> <Paragraph position="0"> In this paper, we describe lexical needs for spoken and written French surface processing, like automatic text correction, speech recognition and synthesis.</Paragraph> <Paragraph position="1"> We present statistical observations made on a vocabulary compiled from real texts like articles. These texts have been used for building a recorded speech database called BREF.</Paragraph> <Paragraph position="2"> Machine Communication), this database is intended for dictation machine development and assessment.</Paragraph> <Paragraph position="3"> In this study, the informations available in our lexical database BDLEX (Base de DonnEes LEXicales - Lexical Database) are used as reference materials. Belonging to the same research group than BREF, BDLEX has been developed for spoken and written French. Its purpose is to create, organize and provide lexical materials intended for automatic speech and text processing.</Paragraph> <Paragraph position="4"> Lexical covering takes an important part in such system assessment. Our fn'st purpose is to value the rate of lexical covering that a 50,000 word lexicon can reach.</Paragraph> <Paragraph position="5"> By comparison between the vocabulary provided (LexBref, composed of 84,900 items, mainly distinct inflected forms) and the forms generated from BDLEX, we obtain about 62% of known forms, taking in account some acronyms and abbreviations.</Paragraph> <Paragraph position="6"> Then, we approach tile unexpected word question looking into the 38% of left tbrms. Among them we can find numeration, neologisms, foreign words and proper names, as well as other acronyms and abbreviations. So, to obtain a large text covering, a lexical component must take in account all these kinds of words and must be fault tolerant, particularly with typographic faults.</Paragraph> <Paragraph position="7"> Last, we give a general description of the BDLEX project, specially of its lexical content. We describe sotoe lexical data recently inserted in BDLEX according to the observations made on real texts. It concerns more particularly the lexical item representation using phonograms (i.e. letters/sounds associations), inlbrnuttions about acronyms and abbreviations as well as morphological knowledge about derivative words. We also present a set of linguistic tools connected to BDLEX and working on tile phonological, orthographical and morphosyntactical levels.</Paragraph> </Section> <Section position="3" start_page="0" end_page="0" type="metho"> <SectionTitle> ACIES DE COL1NG-92, NANTES, 23-28 AO(rr 1992 1 2 0 3 I)I~o(:. OF C()LIN(;..92, NANTES. AUG. 23-28, 1992 1. Introduction </SectionTitle> <Paragraph position="0"> Darts le domalne des Industries de la Langue les lexiques 61ectroniques occupent une place importante. Dictionnaires et encyclop6dies sont maintenant disponibles sous DOC ; pour le fran~ais, on peut citer entre autres le dictionnaire Zyzomis d'Hachette et le Robert 61ecu'onique.</Paragraph> <Paragraph position="1"> Les syst~mes de traitement de texte actuels disposent dans leur environnement, de lexiques pouvant 8tre consult6s pour v6rifier l'orthographe ou la conjugaison d'un mot, pour la recherche de synonymes, etc. Les correcteurs automatiques font aussi appel/t des lexiques.</Paragraph> <Paragraph position="2"> Actuellement, tous ces mat6riaux lexicaux sont encore loin de satisfaire les besoins du traitement automatique de la parole et des textes. lls sont insuffisants lorsqu'on aborde des traitements linguistiques mettant en jeu une analyse s6mantique et syntaxique approfondie.</Paragraph> <Paragraph position="3"> Ils sont 6galement inadapt6s pour des traitements de surface tels que ceux qui interviennent dans la correction orthographique, la synth~se de la parole/t partir de texte, et la developper leurs propres lexiques.</Paragraph> <Paragraph position="4"> Dans eet article, nous d6crivons les observations statistiques faites sur le vocabulaire extrait d'un corpus de textes r6els constitu6s d'articles de journaux. Ceux-ci sont utilis6s dans la base de donn6es BREF destin6e au d6veloppement et/i l'6valuation des machines d dieter.</Paragraph> <Paragraph position="5"> Cette 6tude met en 6vidence diff6rents besoins en mat6riaux lexicaux. Elle montre aussi la n6cessit6 de d6velopper tout un ensemble de proc&:lures pour traiter les inattendus qui, quelle que soit l'6tendue des mat6riaux lexicaux utilis6s, surviennent tr~s fr&luemment dans les textes usuels.</Paragraph> <Paragraph position="6"> Nous donnons ensuite une description de la base de donn6es lexicales du franqais 6crit et oral, BDLEX, dont l'objectif est de cr6er, d'organiser et de distribuer des mat6riaux lexicaux destin6s au traitement automatique de la parole et des textes \[P6rennou, 91\].</Paragraph> <Paragraph position="7"> Les projets BREF et BDLEX sont d6velopp6s dans le cadre du GDR-PRC Communication L'acc~s au lexique joue un r61e crucial dans des applications comme la correction automatique, et le traitement automatique de la parole. Si un mot est inconnu du lexique, le syst~me est mis en 6chec sans qu'il le sache toujours. En effet, l'acc~s 6tant tol6rant aux fautes ou aux impr6cisions de reconnaissance, il se trouvera toujours un mot plus ou moins proche pour remplacer celui qui est observ6.</Paragraph> <Paragraph position="8"> Le taux de couverture lexicale, ou proportion des mots d'un texte connus du lexique, est donc un des crit~res importants pour l'6valuation du niveau de performance des syst~mes de ce type.</Paragraph> </Section> <Section position="4" start_page="0" end_page="0" type="metho"> <SectionTitle> 2.1. R~sultats classiques </SectionTitle> <Paragraph position="0"> Diff6rentes 6tudes statistiques ont dej~t 6t6 effectu6es sur ce point. On peut citer pour illustration les r6sultats obtenus par P. Guiraud \[Guiraud, 59\]. Ceux-ci 6tablissent que 100 roots bien choisis assurent un taux de couverture d'environ 60%, tandis que 1 000 mots couvrent 85% et 4 000 roots 97,5%. La couverture des 2,5% restant peut 6tre assur6e par un corpus de 40 000 roots. Pour un compl6ment sur ce type d'6tude, on peut se reporter ~ \[Catach, 84\].</Paragraph> <Paragraph position="1"> En terme de formes de mots le taux de couverture est d6pendant de la langue consid6r6e. En effet, des statistiques bas6es sur l'6tude de corpus consdtu6s ~t partir de lettres d'affaire et 6tablies par Averbuch pour ranglais \[Averbuch, 87\] et M6rialdo pour le fran~ais \[M6rialdo, 88\], il ressort que le taux de couverture assur6 en anglais par un lexique de lexique 10 lois plus important \[P6rennou, 90\]. Ces taux de couverture relativement 61ev6s sont obtenus ~t partir de corpus oh chaque forme est pond6r6e par sa fr6quence d'apparition darts les textes consider6s. Ainsi, le pourcentage des formes rejet6es, g6n6ralement des formes rares ou tr~s SlX~cialis~es, reste tr~s falble.</Paragraph> <Paragraph position="2"> 2.2. Le corpus BREF Les r6sultats ci-dessus sont fauss6s d~s que le corpus 6tudi6 n'est pond6r6 d'aucune information fr6quentielle et qu'il aborde des domaines aussi vastes que vari6s :finance, politique, gdographie, culture, spectacle .... Tel est le cas du corpus BREF, 6tabli ~t partir d'articles de journaux.</Paragraph> <Paragraph position="3"> ACRES DE COL1NG-92, NANTES. 23-28 AO~ 1992 I 2 0 4 PROC. OV COLING-92. NANTES, AUG. 23-28, 1992 2.2.1. Etat des mat~riaux dtudi~s Nous donnons ici des statistiques portant sur le lexique des formes fl6chies extraites d'un corpus de textes constitu6 en vue de la crdafiou d'une base de donn6es de parole enregislrEe : la base de donn6es BREF. Celle-ci est destinEe ~t l'dvaluation de syst~mes de reconnaissance de grands vocabulaires. Cette base est d6velopp~ au LIMSI dans le cadre du GDR-PRC Communication Homme-Machine lLamel, 91\].</Paragraph> <Paragraph position="4"> Nous nous int6resserons plus particuli~rement, la composition du vocabulaire apparaissant dans les textes du corpus BREF. Celui-ci nous a 6t6 communiqu6 sous la Ji~nne d'une liste de 84 900 roots, que nous appelherons par la suite LexBref. Chaque forme est rcpr6sent6e en lettres minuscules ; la distinction entre nora propre et nora commun est done comph~tement perdue. I1 en va de m6me pour les rep6rages typographiques conventionnels des sigles, des abr6viations et de certains roots compos6s, les signes non alphanum6riques ayant 6t6 effaces.</Paragraph> <Paragraph position="5"> 2.2.2. Taux de eouverture lexieahe Nous avons procgd6 h la comparaison des formes de LexBref avec celhes que nous avons g6n6rges ~t partir de notre base de donn6es hexicales BDLEX.</Paragraph> <Paragraph position="6"> La version BDLEX-1 comporte 23 000 entrees et permet d'acc6der ,h un corpus comptant environ 270 00{I formes fldchies. L'extension de ce lexique ~ 50 000 entrges constitue la version BDLEX-2.</Paragraph> <Paragraph position="7"> Dans la figure 1 nous avons repr6sent6 he pourcentage de formes de 1 ,exBref qui ont 6t6 trouv6es dans BDLEX- 1 et BDLEX-2.</Paragraph> <Paragraph position="9"> Fig.l- Rdsultats obtenu.~ par comparaison de LexBref aux formes g~n&~es d partir de BDLEX-I et BDLEX.2.</Paragraph> <Paragraph position="10"> La cohoune (1) donne les rEsuhtats obtenus partir d'une recherche di~cte qui a permis de reconnaltre le plus grand nombre de formes.</Paragraph> <Paragraph position="11"> Nous avons ensuite supposg que d'autres fi~rmes pouvaient 5tre trouvEes, moyennant ha correction d'une faute d'accent.</Paragraph> <Paragraph position="12"> Les r6sultats port6s en colonne (2) de ce tableau ont 6t6 obtenus en utilisant le correcteur orthographique et typographique VORTEX \[P6rennou, 86, 91\], \[P6catte, 90\].</Paragraph> <Paragraph position="13"> Pour affiner l'analyse, nous nous sommes int6ress6s aux sigles et aux abr6viations qui pouvaient figurer dans ce corpus. Pour cela nous l'avons comparg ~ une liste de sigles, fournie pat M. P16nat dans le cadre du GDR-PRC CHM, et 'A une liste d'abrdviations. Les rgsultats de cette recherche sont port6s dans la figure 2 ci-dessous.</Paragraph> <Paragraph position="14"> une liste de sigles et une liste d'abrdviations. En observant les figures 1 et 2, on constate qu'un ensemble important de formes de LexBref, environ 38%, n'ont pas 6t6 identifi6es.</Paragraph> <Paragraph position="15"> L'6tude de |a structure de ce lexique r6siduel, LexR, peut ~,tre un moyen de pr6ciser les besoins eu mat6riaux et oufils lexicaux en vue d'augmenter ha proportion de formes reconnues. 2.2.3. Analyse du corpus r~siduel LexR Pour d6terminer les diff6rents types de mots inattendus et leur propot~tion dans he corpus initial LexBref, nous avons appliqu6 diverses proc6dures que l'on peut qualifier de non hexicales puisqu'elhes ne font intervenir aucune consultation de lexique.</Paragraph> <Paragraph position="16"> (r) Formes mandriques Dans le corpus de BREF figurent des nombres cardinaux et ordinaux, exprim6s en chiffres arabes (1991, 200e,...), ou en chiffres romains quotidien et la portde internationale des faits relatds font que de nombreux mots dtrangers apparaissent dans les textes (amnesty, congress, perestroi'ka, glasnost. . . ).</Paragraph> <Paragraph position="17"> Une analyse basde sur des critSres particuliers, eomme l'dtude des finales de roots n'appartenant pas/t la langue franqaise, mais frdquentes dans d'antres langues ou encore caractdristiques de noms propres ( -y, ~ss, -ski, -nn, -ff, -v, ~oux ...), nous a permis de distinguer un premier groupe de roots d'origine groupuscularisation, zapping .... Beaucoup de roots sont cr66s h partir de noms propres issus des milieux polifique, artistique ou littdraire : antigaulliste, mitterrandien, maccarthysme, hitchcockien, nabokovien ....</Paragraph> <Paragraph position="18"> La plupart sont produits par ddrivafion mais il existe de nombreux exemples obtenus par composition, comme par exemple vrai-faux (vraie-fausse facture, vrai-faux passeport, ...). Quelques ndologismes sont obtenus selon des procddds plus marginaux comme le veflan (ripoux, chdbran ...) et les roots-valises (motel, confipote .. . ).</Paragraph> <Paragraph position="19"> Nous avons examind les ndologismes ddrivafionnels construits de mani~re rdguli6re, par application de r6gles d6rivationnelles sur un mot de la langue ou un nom propre --\[Ferrand, 91\] pour le traitement morphologique dans BDLEX.</Paragraph> <Paragraph position="20"> A partir d'une liste d'affixes productifs comme les prdfixes anti-, dd.., inter-, ndo-, sur-,.., et les suffixes -ation, -ien,-isme,-iste,-is(er), o itd,-ment ..... nous avons procdd6 h une recherche dans LexR qui nous a permis d'estimer respectivement /t 0,5% et 5,5% les roots de LexBref initialement rejetds et susceptibles d'etre analysds dans un deuxi~me temps comme prdfixds ou bien suffixds --lors du traitement des suffixes nous avons pris en compte les variations flexionnelles (par exemple les nx)ts comme hitchcockiennes sont ddtectds). La figure 3 ci-dessous reprend les diffdrentes estimations faites dans cette seconde phase d'dtude du corpus LexBref.</Paragraph> <Paragraph position="21"> des sigles qui n'ont pas dtd rdpertorids dans la liste de rdf6rence que nous avions ~ notre dislx~sition (TF1, ADN,...).</Paragraph> <Paragraph position="22"> On trouve encore des ndologismes, des noms propres et des mots dtrangers d'emprunt pour lesquels aucune procddure non lexicale n'a pu &re appliqude.</Paragraph> <Paragraph position="23"> Enfin, on rencontre des mots incorrectement dcrits (le plus souvent h la suite d'une faute typographique) et d'autres qui seraient reconnus par un lexique plus dtendu que BDLEX-2.</Paragraph> <Paragraph position="24"> concerne les informations graphiques et morphosyntaxiques. BDLEX a d6ja 6t6 d6crit dans \[P6rennou, 90\] et \[Ferrau6, 911.</Paragraph> <Paragraph position="25"> Nous ne d6taillons ici que les informations introduites plus r6cemment eu fonction des observations effectu6es sur des textes reels, tels que le corpus de BREF ddcrit dans le paragraphe 2. 11 s'agit notamment de la reprdsentation en phonogrammes des entrees lexicales, des informations relatives aux sigles et aux abrdviations ainsi qu',~ la morphologie d6rivationnelle P honogramraes Ce sont des associations 616mentaires de lettres et de sons --voir par exemple \[Catach, 781\]. lls jouent un rfle important en correction automatique et en synth~ de la parole it partir de texte.</Paragraph> <Paragraph position="26"> Chaque entr6e lexicale de BDLEX dispose d'une representation en phonogrammes, comme cela est illustr6 dans le figure 4. Les associations lettres/sons ont 6t6 obtenues par un alignement entre la graphic accentu6e et la repr6sentation phonologique de l'entr6e.</Paragraph> <Paragraph position="27"> GR_AC I)HS F CS PHONOGRAMMES axe t~s o N (~,A)(x,ks)(o,o) bahut /bA/tJ N (b,b)(a,A)(h,E)(tl,y) (t,PS) hache /*AI' e N (h,*)(a,A)(ch,f) (e,el skate /skEJt O N (S,s)(k,k)(~,EJ)(t,t)(o,o) Fig.4 - Extrait de BDLEX. : reprdsentation en phonogrammes --A : lettre ne correspondant d aucun son; * : h aspird ; / : fi'ontidre syllabique. On compte, en franqais, uue centaine de phonogrammes de base. Cependant, lorsqu'on prend en compte des roots d'emprunt 6trangers, ce uombre augmente consid6rablement : 450 phonogrammes recens6s pour les 23 000 enti6es de BDLEX-I.</Paragraph> <Paragraph position="28"> Sigles et abr~viatiotL~&quot; Des travaux, ~t I'IRIT, portant sur le d6veloppement d'outils linguistiques out d6j~t donn6 lieu ~t la conception d'un noyau lexical de sigles et d'abrEviations.</Paragraph> <Paragraph position="29"> Co~mne cela est represent6 clans la figure 5, un sigle dispose d'informations concernant la graphic, la phonologie etla morphosyntaxe.</Paragraph> <Paragraph position="30"> dolt permettre non-seulement de lier entre elles ceitaines entI@s de BDLEX, mais 6galement de proc6dcr ~ l'analyse morphologique de n6ologismes ddi ivafionnels.</Paragraph> <Paragraph position="31"> En effet, bon nombre de ceux qui apparaissent darts its textes reels sont inconnus du lexique. Ccpendant, ils peuvent g6n6ralement ~tre rattach6s h uue entree lexicale : l'entrEe dont ils ddfivent (ou base). Ainsi, en appliquant la r~gle associde au suffixe -ment, forrnateur de noms masculin ~ partir d'une base verbate, on peut lier la forme aboutissement, trouv6e daus LexBref et non rdpertori6e dans BDLEX-2, ,5 l'eutr6e aboutir, verbe connu du lexique.</Paragraph> <Paragraph position="32"> A l'heure actuelle 68 pr6fixes et 107 suffixes, essentiellement des suffixes ~ base verbale ou bien tormateurs de verbes, ont 6t6 rEpertorids dans BDLEX IFerran6, 91\].</Paragraph> <Paragraph position="33"> 3.20utils linguistiques Dans le cadre de BDLEX, nous avons d6velopp~ diffdrcnts outils linguistiques utiles pour la creation et l'utilisation des mat6riaux lexicaux. Ceux-ci op6rent aux diff6rents niveaux de la structure textuelle ou du message vocal.</Paragraph> <Paragraph position="34"> Sont disponibles actuellement : (r) G~ner, le g6n6rateur de formes fl6chies, , Amflex, l'analyseur morphologique flexionnel, VortexPlus, le correcteur orthographique qui peut 6galement fitre employ6 comme lemmatiseur tol6rant aux fautes (utilisable avec BDLEX-1 ou BDLFX-2),</Paragraph> </Section> class="xml-element"></Paper>