Deambiguizare în lingvistică și lingvistică computational

În lingvistică, dezambiguizarea este procesul de a determina ce sens al unui cuvânt este folosit într-un anumit context. Cunoscut și sub denumirea de dezambiguizare lexicală.

În lingvistica de calcul, acest proces discriminatoriu este denumit dezambiguizare în sensul cuvântului (WSD).

Exemple și observații

"Se întâmplă astfel că comunicarea noastră, în limbi diferite, deopotrivă, permite aceeași formă de cuvânt să fie folosită pentru a însemna lucruri diferite în tranzacțiile comunicative individuale. Consecința este că trebuie să ne dăm seama, într-o anumită tranzacție, sensul intenționat al unei dat un cuvânt printre simțurile sale potențial asociate. În timp ce ambiguități care provin din astfel de asocieri multiple cu sensuri de formă sunt la nivel lexical, ele trebuie adesea rezolvate cu ajutorul unui context mai larg din discursul care înglobează cuvântul. Prin urmare, diferitele simțuri ale cuvântului „serviciu” nu ar putea fi diferențiate decât dacă s-ar putea privi dincolo de cuvântul în sine, ca în contrastul „serviciul jucătorului de la Wimbledon” cu „serviciul chelnerului din Sheraton”. Acest proces de identificare a semnificațiilor cuvintelor dintr-un discurs este cunoscut în general ca sensul cuvântului dezambiguizare (WSD). "(Oi Yee Kwong, Noi perspective asupra strategiilor de calcul și cognitive pentru dezambiguizarea sensului cuvântului. Springer, 2013)

Deambiguizare Lexicală și Dezambiguizare cu Semnale (WSD)

"Lexical dezambiguizare în definiția sa cea mai largă nu este altceva decât să determinăm sensul fiecărui cuvânt în context, care pare a fi un proces în mare măsură inconștient la oameni. Ca o problemă de calcul, este adesea descrisă ca „AI-completă”, adică o problemă a cărei soluție presupune o soluție pentru a înțelege limbajul natural sau raționamentul de bun-simț (Ide și Véronis 1998).

"În domeniul lingvisticii computaționale, problema se numește, în general, dezambiguarea sensului cuvântului (WSD) și este definită ca fiind problema de a determina calcul care este„ sensul "unui cuvânt activat prin utilizarea cuvântului într-un anumit context. WSD este în esență, o sarcină de clasificare: simțurile cuvintelor sunt clasele, contextul furnizează dovezile și fiecare apariție a unui cuvânt este atribuită uneia sau mai multor clase posibile pe baza probelor. Aceasta este caracterizarea tradițională și comună a WSD. acesta este un proces explicit de dezambiguizare în ceea ce privește un inventar fix al simțurilor cuvintelor. Se presupune că cuvintele au un set finit și discret de simțuri dintr-un dicționar, o bază de cunoștințe lexicale sau o ontologie (în ultimul sens, simțurile corespund conceptelor. că un cuvânt lexicalizează). Inventare specifice aplicației pot fi, de asemenea, utilizate. De exemplu, într-o setare de traducere automată (MT), se poate trata traducerile de cuvinte ca simțuri de cuvinte, o abordare care este beco este din ce în ce mai posibil, datorită disponibilității corporale paralele multilingve mari care pot servi drept date de formare. Inventarul fix al WSD tradițional reduce complexitatea problemei, dar există câmpuri alternative ... "(Eneko Agirre și Philip Edmonds,„ Introducere ". Disambiguirea sensului cuvântului: algoritmi și aplicații. Springer, 2007)

Omonimie și dezambiguire

"Lexical dezambiguizare este potrivită în special pentru cazurile de omonimie, de exemplu, apariția bas trebuie mapat pe oricare dintre elementele lexicale bas₁ sau bas₂, în funcție de sensul dorit.

"Deambiguizarea lexicală implică o alegere cognitivă și este o sarcină care inhibă procesele de înțelegere. Ar trebui să se distingă de procesele care duc la o diferențiere a simțurilor cuvintelor. Prima sarcină se realizează destul de fiabil, de asemenea, fără prea multe informații contextuale, în timp ce cea din urmă nu este (cf. Veronis 1998, 2001). S-a arătat, de asemenea, că cuvintele omonime, care necesită dezambiguizare, încetinesc accesul lexical, în timp ce cuvintele polisemice, care activează o multiplicitate de simțuri de cuvinte, grăbesc accesul lexical (Rodd ea 2002).

"Cu toate acestea, atât modificarea productivă a valorilor semantice, cât și alegerea simplă între elemente lexical diferite au în comun că acestea necesită informații suplimentare non-lexical." (Peter Bosch, „Productivitate, polisemie și indexicitate predicată”. Logică, limbă și calcul: al 6-lea simpozion internațional Tbilisi privind logica, limbajul și calculul, ed. de Balder D. ten Cate și Henk W. Zeevat. Springer, 2007)

Categorie lexicală Dezambiguizare și principiul probabilității

„Corley and Crocker (2000) prezintă un model cu acoperire largă a categoriei lexicale dezambiguizare bazat pe Principiul probabilității. Mai exact, ei sugerează că pentru o propoziție formată din cuvinte w₀... w_n, procesorul de propoziții adoptă cea mai probabilă secvență de vorbire T₀... t_n. Mai precis, modelul lor exploatează două probabilități simple: (eu) probabilitatea condiționată a cuvântului w_eu dată o anumită parte a vorbirii T_eu, și (ii) probabilitatea de T_eu având în vedere partea anterioară a discursului T_i-1. Pe măsură ce fiecare cuvânt al propoziției este întâlnit, sistemul îi atribuie acea parte din vorbire T_eu, ceea ce maximizează produsul acestor două probabilități. Acest model valorifică ideea că multe ambiguități sintactice au o bază lexicală (MacDonald și colab., 1994), ca în (3):

(3) Prețurile / mărcile din depozit sunt mai ieftine decât restul.

„Aceste propoziții sunt temporar ambigue între o lectură în care prețurile sau mărci este verbul principal sau o parte dintr-un substantiv compus. După ce a fost instruit pe un corpus mare, modelul prezice cea mai probabilă parte a vorbirii prețurile, contabilizarea corectă a faptului că oamenii înțeleg Preț ca substantiv, dar mărci ca verb (a se vedea Crocker & Corley, 2002 și referințele citate). Nu numai că modelul ține cont de o serie de preferințe de dezambiguizare înrădăcinate în ambiguitatea categoriei lexicale, ci explică și de ce, în general, oamenii sunt extrem de exacti în rezolvarea unor astfel de ambiguități. "(Matthew W. Crocker," Modele raționale de înțelegere: abordarea Paradoxul performanței. " Psiholinguistica secolului XXI: Patru pietre de temelie, ed. de Anne Cutler. Lawrence Erlbaum, 2005)

umanistică