File Information
File: 05-lr/acl_arc_1_sum/cleansed_text/xml_by_section/metho/82/c82-2002_metho.xml
Size: 10,158 bytes
Last Modified: 2025-10-06 14:11:31
<?xml version="1.0" standalone="yes"?> <Paper uid="C82-2002"> <Title>METHODES D'APPRENTISSAGE POUR L &quot;ANALYSE AUTOMATIQUE MORPHOSYNTAXIQUE ET LEXICALE-SENANTIQUE DE LA LANGUE ESPAGNOLE</Title> <Section position="1" start_page="0" end_page="0" type="metho"> <SectionTitle> METHODES D'APPRENTISSAGE POUR L &quot;ANALYSE AUTOMATIQUE MORPHOSYNTAXIQUE ET LEXICALE-SENANTIQUE DE LA LANGUE ESPAGNOLE </SectionTitle> <Paragraph position="0"> A.Andreewsky +, M.Desi, C.Pluhr +LIMSI -CNRS, B.P.30, 91406 Orsay, Prance S,m.ary: TRAINING I~ETHODS YOR THE AUTONATIC MORPHOSTNTACTIC AND LEXICO-SmIANTIC ANALYHIS OP SPANISH We describe herein the setting up of an automatic morpho- syntactic and lexico-semantlc analysis system for Spanish. This system uses learning methods analogous to those used for French (of. Andreewski etal.: 1973, Dunod, 1974 and 1977 IFIP proceedings). The learning is going on step by step (I.000 words each) a~d a syntactical parsing (specific to Spanish) attributes ~ammatical labels to specific words and suffixes, chosen for their low rate of grammatical ambiguities. An ambiguity accumulation dictionary and morphosyntactic rules allowing for the resolution of these ambiguities are ob- tained aut~natically. They are progressively stabilized with the growing of the corpus. The method is discussed: - first, how to obtain lexico-semantic relations by filtering methods ! - second, how to handle the linguistic processing in Spanish with the nSPIRIT&quot; automatic system (indexing and retrieval in natural language ).</Paragraph> <Paragraph position="1"> INTHODUCTION I~opos6e en 1971-72 dans le but de r~soudre un certain niveau d'smbigu~t~8 du lsngage, la m~thode d'apprentissage que nous appliquons ici ~ la langue espagnole est tr~s analogue cells utilis6e pour la langue fran~aise et pour laquelle de tr~s bons r~sultats ont ~t~ obtenus (1).</Paragraph> <Paragraph position="2"> Rappelons qus le concept d'apprentissage auquel nous faisons appel repose su~r le fair que dang route chains lexicale des ambigu~t6s apparaissent constamment, st que l'on dolt supposer (pour l'hc~ne) qudeg~ chaqus fois dee procedures de d6sambiguation sont dynamiquement raises en oeuvre pour lee traiter.</Paragraph> <Paragraph position="3"> - 11 L'smbigu~t6 que l'on traite est celle qui provient de la ~utilisation d'un m~e mot ou ~oupe de mote aveo des valeurs syntaxiquee (cat~gorieation ~ammaticale) ou s~mantiquee diff6rentes. Pou~ un traitement satiefaisant de cos smbigu'~t~s dane lee applications ~ 1 deglndexation autcmatique et l'interrogation de bases de donn~es en langage naturel, on a ~tg smen~ ~ formuler deux hypotheses eseentielles- le oontexte limitg aux termes voisins dolt pemettre de lever un nomb~ tr~s important d'ambigu~t6s syntsxiques; - ldeg6tiquetage g~a~.natical du texte dolt permettre d'obtenir pa~ &quot;flltrage&quot; d~s relations ditee &quot;lexicales s~mantiques&quot; et de traiter lee ambigu\[t~s 86mantiques. (Hypotheses qui su~ le frangai8 ont donn~ de bone r~sultats.) D'autre part le texts d'apprentise~e espaF~ol est aeeumpagn6 de la traduction correspondante frangaise, afin de sioux 6tudier et pr~cieer lee probl~nes de la micro-idi~.atique dane le prooessus de la traduotion (pas n~oessairement automatique).</Paragraph> </Section> <Section position="2" start_page="0" end_page="0" type="metho"> <SectionTitle> LA METHODE D &quot;APPRENTISSAG~ </SectionTitle> <Paragraph position="0"> Le principe de la m~thode d'apprentlssaEe , largement d~orit dan- (I), est le suivant: on analyse manuellement un taxte T dit d*&quot;apprentiesage&quot; aocompagn6 de sa traduction, d'une analyse de te~minaison et &quot;d'une analyse grammaticale, comae eels est indiqu~ dane l'exemple ei-deeeous o~ l'on trouve: dane la p~emi~e eolonne le texte T lui-meme, dane la deuxi~me colonne ls traduotion, dang la t~oisi~me colonne la tezminaison ~ventuelle du mot espagnol, et dane la quatri~ne eollone le cat~gorie ETammatlcale r~alis~e dane le texte.</Paragraph> <Paragraph position="1"> a emarq ue,9: 1. On s'efforcs de fairs use traduo~ion aussi proohe que possible du texts, maim intelligible. Lee mote indispensables l'intelliglbilit~ et qui ne sent pae dane le texts espagnol, sent mis entre parentheses en frangale.</Paragraph> <Paragraph position="2"> 2. Lee terminaisons sent ehoisies en fonction de leu~ ca~actore diecrimiDant, c &quot;est-a-di~e qu'elles ne sent caraotdristiques que d deguse seule ear,Eerie ~smmaticale en g~n~ral, - 12 3. null de~x au plus. Si elles ont deux catSgories gra~naticales, il eat euppoa~ que le contexte voisin permettra de lever ldegambigu~t~, oe qua. set v~rifi~ dane l'autocoh6rence. Des rar~ements par ordre elphab~tiqae de chaoune des quatre oolonnes, pe~ettent au tours de l'apprentissage de v~rifier la qualit~ du codage ~ savoir: correction des erreurs ortho~aphiques, inooh~rences dane lee codes grammatioaax dane la terminaison (deux tre~n~naisons diff~rentes pour unmeme mot) dane la traduotion.</Paragraph> <Paragraph position="3"> como comma ~ conjonction subordination son (iIs) sont ~ verbe d'~tat indicatif interesantes int~ressants antes attribut Un grand nanbre de mote de oette phrase sont ambigus, comme on psut le constater en examinant lee phrases qv~t suivent: ba~lar al son de guitarra; como una naranJa; el tiempo se para y mi sino se Juega abora; los heohos ~nportantes son los de la exper~nentac~on; la ouenta est~ en el sobre; el la y el mt de mi p~ano suenan ~l.</Paragraph> <Paragraph position="4"> Si ensuite, ~ partir du texte ddegapprentissage, on oonstitue un dictionaire de C/~nul, il aura la forms (loi ne figurent qua lea mote mnbigue): como : conjonction de subordination, verbe indicatif, ... \]a : article d~fini, substantif, ...</Paragraph> <Paragraph position="5"> \]os : article d~fini, pronom attribut, ...</Paragraph> <Paragraph position="6"> para : pr~position, verbe conjugu~, ...</Paragraph> <Paragraph position="7"> sino : pr~position, substantif ....</Paragraph> <Paragraph position="8"> sobre : pr~position, substantif ....</Paragraph> <Paragraph position="9"> son : verbe ~tat indicatif, substantif, ...</Paragraph> <Paragraph position="10"> - 13 -De meme, eet oonstttu~ un dlottonatre de o~ul dee tezmtnateons, par exemple= antes : attribut, adjectif post~rieur, substantif mentos . : substantif teca : substantif D6s que le texte devPSent aeeez long, 1el 1tome lexloa~x ee renoontrent aveo des 6ttquettes eyntaxtquee et des aooepttons dtff~rentee, male pour lee termtnaleons cola ee product aeeez ritedeg C &quot;est po~luo$ on a effeotu6 un apprentleeaEe m~te qu~ porte ~ la lots tur lee mote pletns sans te~nfnalson, lee terminaleons et lee mote relatlonnele.</Paragraph> <Paragraph position="11"> A partir du tezte t~Lttal Tet du dlotlo~atre de oumul, un texte ambtgu T A eet or~ (leeterminateons eont pr6o~d~ee Et la comparateon de Tet T~ permet d'obte~t~ des r~gles de r6eolutlon qut par exemple ~ l'ordre trois ~veo le texte choet auront la PSo~ne(oon~ sub, verb tnd) w (verb 6tat tnd, eubetanttf) zt (attrtbut, ad~ p,eubetanttf) oh ldegaet~rteque ~ se lit: eatvt de, et oh noue avons eurltgn~ lee ~eoluttons obtenuee pa~ C/omparaieon de T A aveo T. On remarque que (attrfbut, adJ p, cuber) eet une amblg~t~ o~ul~e par une termtnaison.</Paragraph> <Paragraph position="12"> - 14 -</Paragraph> </Section> <Section position="3" start_page="0" end_page="0" type="metho"> <SectionTitle> RESULTATS ET CONCLUSIONS </SectionTitle> <Paragraph position="0"> Le corpus d &quot;apprentissage a ~t6 cons#itu6 ~ partlr de textes varies lltt~raires ou soientifiques. II eat actuellement de olnq mille mote, se qua nousa amen~ ~ effec~uer, une oat~gorisation grsmmaticale assez complete (120 categories aotuellement) et hOe a permis d'obtenir une diversit~ syntaxique suffieante pour lee applloations envlsag~es.</Paragraph> <Paragraph position="1"> Cee dernl~res sont essentlellement orlent~es vers 1 &quot;Indexatlon autometlque et 1 &quot;interrogation en langage naturel dane le cadre du syst~m~SPIHIT qul impose tout d'abord une normalleatlon oorreote dee mote du texts afin d &quot;en feire des oomptages ooh~rents, Pour obtenir cette normalisation, on suppose que sont identlfi~s les elnguliers et plurlels dee substantifs, lee flexions de la conJugalson, eto.o, ce qui dolt A ~tre fair en relation aveo l'analyse syntaxique, grace ~.~ A dio~ionnaire en formes completes du meme type que le diction--ire de ou~ul d~crit plus haut, La normalisation ee fait alors euivant le schema: tsxte+ lexique en formee o0mpl~tes -~ texte embigu -~ eyntaxe -> &quot;F normalisatlon D'autrs part t Is syst~me SPIRIT prend en compte lee mote compOS~S qui, grace ala syntexe d~crlte, peuvent e~re obtenue par filtrage. Ce problems a 6t6 ~tudi6 par ocmparaieon aveo lem m~thodee ~tudi~ee en fran@ale.</Paragraph> <Paragraph position="2"> Rappelons que (2) le filtrable ooneiste ~ trier aut~natiquement l'ensemble des oba~nes du corpus de structure grammatioale dorm, s: par exemple : substantif ~ ad~sotif * sstudlos metalogr~fioos eubstantif ~ del ~ eubetantif: energla dsl ~tomo subetantif ~ adJectif ~ de la ~ eubetantif: control conetente de la radiactividad inflnitif ~ lee ~ eubstantif a edJectif: absorber las radiaolonee peligroeas - 15 Par allle~rs la structure donn6e peut, selon le contexte, representer ou non un concept. En consequence, la structure du contexte dolt ~tre pr~cis~e: par exemple la structure: substantif q de un ~ subetantif set un concept dane: fiJacion al ayuntsmiento de un aviso et n'en est pas un dan-: fiJacion al ayunte~tento de un pueblo. Par contre, pr~c~d~e d'm~ point st un article et suivie d'un verbs tortugaS, cette structure n'est plus ambigu~.</Paragraph> <Paragraph position="3"> Lee filtres obtenus en fran~ais semblent s'appliquer l'espagnol aveo toutefois certaines modifications dues aux diff6rencss par rapport au frangais (pronoms agglutin~s au verbs, absence fr@quente du pronom personnel, de l'article ind4finl au pluriel, de l'Inverslon de su~et par rapport au verbe, etOo.o).</Paragraph> </Section> class="xml-element"></Paper>