Pagini recente » Monitorul de evaluare | Atasamentele paginii Profil marta_dianna | Diferente pentru utilizator/priestnoob intre reviziile 1 si 8 | Profil EugenStoica | Diferente pentru blog/dexonline intre reviziile 1 si 6

Diferente pentru blog/dexonline intre reviziile #1 si #6

Nu exista diferente intre titluri.

Diferente intre continut:

* *lexem*: unitate lexicală; suport minim al semnificaţiei; pentru toate scopurile practice, este cam totuna cu „cuvânt”.
* *formă flexionară*: formă modificată a unui cuvânt pentru a exprima un raport gramatical (număr, gen, timp etc.). De exemplu, copilul este o formă flexionară a lexemului copil.
* *paradigmă*: totalitatea formelor flexionare ale unui cuvânt.

* *model de flexiune*: paradigmă comună tuturor lexemelor care se flexionează la fel (de exemplu, a lucra, a forma şi a cresta au toate acelaşi model de flexiune). Este practic o clasă de echivalenţă.

* *model de flexiune*: paradigmă comună tuturor lexemelor care se flexionează la fel (de exemplu, _a lucra_, _a forma_ şi _a cresta_ au toate acelaşi model de flexiune). Este practic o clasă de echivalenţă.

În 2006 am început să ne gândim serios să adăugăm flexiuni la cuvintele din DEX online. Cel mai complex aspect este reprezentarea diferitelor transformări pe care le suferă un cuvânt. Flexionarea în limba română se face, în general, prin adăugarea unor sufixe, dar aceste sufixe pot fi foarte variate. Ca exemplu, pluralul substantivelor feminine poate fi format cu -e (case), cu -i (inimi), cu -uri (ierburi), cu -ele (acadele), cu -ale (macarale) etc. În plus, Limba română abundă în fenomene morfologice care transformă un sunet într-altul la aplicarea unei flexiuni. Exemple de transformări comune sunt t → ţ (bărbat → bărbaţi) sau o → oa (uşor → uşoară). Unele flexiuni suferă mai multe transformări (sămânţă → seminţe). În plus, dorim să stocăm şi informaţii despre accentul fiecărui lexem şi cum se mută el în timpul flexionării (a împrumutá → eu împrumút), ceea ce duce la o varietate exponenţială de modele de flexiune.

În 2006 am început să ne gândim serios să adăugăm flexiuni la cuvintele din DEX online. Cel mai complex aspect este reprezentarea diferitelor transformări pe care le suferă un cuvânt. Flexionarea în limba română se face, în general, prin adăugarea unor sufixe, dar aceste sufixe pot fi foarte variate. Ca exemplu, pluralul substantivelor feminine poate fi format cu _-e (case)_, cu _-i (inimi)_, cu _-uri (ierburi)_, cu _-ele (acadele)_, cu _-ale (macarale)_ etc. În plus, Limba română abundă în fenomene morfologice care transformă un sunet într-altul la aplicarea unei flexiuni. Exemple de transformări comune sunt _t → ţ (bărbat → bărbaţi)_ sau _o → oa (uşor → uşoară)_. Unele flexiuni suferă mai multe transformări _(sămânţă → seminţe)_. În plus, dorim să stocăm şi informaţii despre accentul fiecărui lexem şi cum se mută el în timpul flexionării _(a împrumutá → eu împrumút)_, ceea ce duce la o varietate exponenţială de modele de flexiune.

Prima versiune a generatorului de flexiuni, pe care am implementat-o fără să mă consult cu nimeni (şi rău am făcut), indica în forma de bază a cuvântului fenomenele morfologice care apar la flexionare. De exemplu, pentru bărbat stocam forma de bază bărbaT, unde T indică transformarea t →ţ. Pentru băiat stocam forma de bază băiAT pentru a indica transformările a → e şi t → ţ (băieţi). Această informaţie referitoare la fiecare cuvânt trebuia cuplată cu nişte meta-cunoştinţe referitoare la partea de vorbire. De exemplu, transformarea t → ţ nu se aplică decât la pluralul substantivelor (forma de singular articulat este tot bărbatul, nu bărbaţul).

Prima versiune a generatorului de flexiuni, pe care am implementat-o fără să mă consult cu nimeni (şi rău am făcut), indica în forma de bază a cuvântului fenomenele morfologice care apar la flexionare. De exemplu, pentru _bărbat_ stocam forma de bază _bărbaT_, unde _T_ indică transformarea _t →ţ_. Pentru _băiat_ stocam forma de bază _băiAT_ pentru a indica transformările _a → e_ şi _t → ţ (băieţi)_. Această informaţie referitoare la fiecare cuvânt trebuia cuplată cu nişte meta-cunoştinţe referitoare la partea de vorbire. De exemplu, transformarea _t → ţ_ nu se aplică decât la pluralul substantivelor (forma de singular articulat este tot _bărbatul_, nu _bărbaţul_).

Implementarea acestui sistem a fost relativ uşoară, dar concepţia a fost greşită. Cineva ar fi trebuit să treacă prin toate cuvintele limbii române şi să indice aceste fenomene morfologice. Volumul de muncă ar fi fost mic comparabil cu tastarea unui dicţionar întreg, dar ar fi fost oricum considerabil. Argumentul care a demolat complet această implementare a fost că ea nu putea reprezenta toate modelele de flexiune. În primul rând, numărul de fenomene morfologice depăşeşte cu mult numărul de litere şi simboluri Unicode convenabile pentru notaţie, iar în al doilea rând, flexionarea bazată pe sufixe este inerent ambiguă. De exemplu, roditor şi chior au acelaşi sufix -or, dar se flexionează diferit (roditoare, respectiv chioară).

Implementarea acestui sistem a fost relativ uşoară, dar concepţia a fost greşită. Cineva ar fi trebuit să treacă prin toate cuvintele limbii române şi să indice aceste fenomene morfologice. Volumul de muncă ar fi fost mic comparabil cu tastarea unui dicţionar întreg, dar ar fi fost oricum considerabil. Argumentul care a demolat complet această implementare a fost că ea nu putea reprezenta toate modelele de flexiune. În primul rând, numărul de fenomene morfologice depăşeşte cu mult numărul de litere şi simboluri Unicode convenabile pentru notaţie, iar în al doilea rând, flexionarea bazată pe sufixe este inerent ambiguă. De exemplu, _roditor_ şi _chior_ au acelaşi sufix _-or_, dar se flexionează diferit ( _roditoare_, respectiv _chioară_).

De-abia în acest moment am început să caut alte soluţii. Astfel am aflat că lista de forme flexionare exista deja de zeci de ani. Alf Lombard (1902-1996), un lingvist suedez, a prins drag de limba română şi i-a studiat gramatica în amănunt. După care a creat nişte aşa-numite „modele de flexiune”. Adică a împărţit cuvintele limbii române în clase de echivalenţă cu flexionare identică, atâtea câte a putut identifica. Pentru fiecare clasă, a ales un cuvânt-exponent căruia i-a înşirat explicit paradigma. Prin studierea transformărilor exponentului, se poate deduce paradigma altui cuvânt cu acelaşi model de flexiune. De exemplu, ceapă şi damigeană au acelaşi model de flexionare. Ceapă este exponent şi pluralul lui, definit explicit, este cepe. Observăm transformările ea → e şi ă → e. Prin analogie, pluralul lui damigeană este damigene. În final, s-a dovedit că limba română are cam 800 de modele de flexiune (circa 280 pentru verbe, 320 pentru substantive, 120 pentru adjective şi altele). Aceste modele au fost publicate în Dictionnaire morphologique de la langue roumaine, apărut în 1981.

De-abia în acest moment am început să caut alte soluţii. Astfel am aflat că lista de forme flexionare exista deja de zeci de ani. Alf Lombard (1902-1996), un lingvist suedez, a prins drag de limba română şi i-a studiat gramatica în amănunt. După care a creat nişte aşa-numite „modele de flexiune”. Adică a împărţit cuvintele limbii române în clase de echivalenţă cu flexionare identică, atâtea câte a putut identifica. Pentru fiecare clasă, a ales un cuvânt-exponent căruia i-a înşirat explicit paradigma. Prin studierea transformărilor exponentului, se poate deduce paradigma altui cuvânt cu acelaşi model de flexiune. De exemplu, _ceapă_ şi _damigeană_ au acelaşi model de flexionare. _Ceapă_ este exponent şi pluralul lui, definit explicit, este _cepe_. Observăm transformările _ea → e_ şi _ă → e_. Prin analogie, pluralul lui _damigeană_ este _damigene_. În final, s-a dovedit că limba română are cam 800 de modele de flexiune (circa 280 pentru verbe, 320 pentru substantive, 120 pentru adjective şi altele). Aceste modele au fost publicate în Dictionnaire morphologique de la langue roumaine, apărut în 1981.

De aici datele au fost preluate de F.R.Sc. Ei aveau nevoie de lista flexiunilor pentru a stabili dacă un cuvânt depus în timpul jocului de scrabble este corect. Au adus deci lista de modele de flexiune la zi, conform cu ultimele norme ortografice, şi au etichetat toate cuvintele nou intrate în limbă cu modelul corespunzător. Această listă exista în format digital, dar era menţinută manual, într-un fişier Word. Pentru concursurile de scrabble, arbitrul dispunea de două cărţulii tipărite: una cu cuvintele acceptate, etichetate cu modelul de flexiune, şi una cu modelele de flexiune desfăşurate explicit.

În prezent, lista de flexiuni are foarte multe aplicaţii utile:

Pe baza ei am generat un corector ortografic.
Ea permite căutarea „full-text”, care altfel nu ar putea funcţiona prea bine. În absenţa listei de flexiuni, am putea căuta „carte” prin tot textul definiţiilor, dar căutarea nu ar înapoia definiţiile care conţin textul „cărţi” sau „cărţilor”.
Ea ne permite să răspundem la un click pe orice cuvânt dintr-o definiţie, trimiţând la definiţia acelui cuvânt. Din nou, fără această listă nu am şti ce să facem când utilizatorul ar da click pe cuvântul „cărţi”, pentru că nu am şti care este forma de bază a cuvântului.

* Pe baza ei am generat un corector ortografic.
* Ea permite căutarea „full-text”, care altfel nu ar putea funcţiona prea bine. În absenţa listei de flexiuni, am putea căuta „carte” prin tot textul definiţiilor, dar căutarea nu ar înapoia definiţiile care conţin textul „cărţi” sau „cărţilor”.
* Ea ne permite să răspundem la un click pe orice cuvânt dintr-o definiţie, trimiţând la definiţia acelui cuvânt. Din nou, fără această listă nu am şti ce să facem când utilizatorul ar da click pe cuvântul „cărţi”, pentru că nu am şti care este forma de bază a cuvântului.

Pentru a ne revanşa faţă de F.R.Sc., am decis să creăm un subsistem al DEX online (numit intern Flex online) în care F.R.Sc. să poată gestiona, mai bine decât într-un fişier Word, lista de cuvinte acceptate. De exemplu, dacă se dovedeşte că două lexeme nu se flexionează chiar identic, sistemul permite spargerea unui model de flexiune în două, modificarea clonei şi reasignarea lexemelor într-unul din cele două modele. Când F.R.Sc. emite o versiune nouă a listei de cuvinte (la fiecare câţiva ani), sistemul Flex online le permite să compare cele două versiuni, ceea ce ajută la eliminarea erorilor.

Diferente intre securitate:

private

protected

infoarena informatica de performanta

Diferente pentru blog/dexonline intre reviziile #1 si #6

Nu exista diferente intre titluri.

Diferente intre continut:

Diferente intre securitate:

Diferente intre topic forum: