OJI - Text

Da, recunosc È™i eu cÄƒ soluÈ›iile oficiale de la problemele de la olimpiade È™i implementarea lor lasÄƒ de dorit uneori.

LuÃ¢nd Ã®n calcul cÄƒ problema s-a mai dat la olimpiadÄƒ, È™i o soluÈ›ie este deja existentÄƒ pe internet, o sÄƒ-mi iau libertatea sÄƒ dau È™i eu o descriere a aceleiaÈ™i soluÈ›ie. Cu toate astea, ca sÄƒ nu se supere lumea pe mine, o sÄƒ dau È™i ceva lucruri mai generale, poate Ã®nvÄƒÈ›Äƒm cu toÈ›ii din asta.

TrecÃ¢nd peste partea cu determinarea numÄƒrului de cuvinte din datele de intrare, avem Ã®n faÈ›Äƒ o problemÄƒ clasicÄƒ de programare dinamicÄƒ, dar puÈ›in deghizatÄƒ, ce-i drept.

Acum probabil Ã®ntrebarea este ce este programarea dinamicÄƒ È™i de unde vine ea?

Un lucru este sigur, nu are legÄƒturÄƒ cu alocarea dinamicÄƒ sau alte chestii legate de limbajul de programare. Zic asta pentru cÄƒ am vÄƒzut cÄƒ mai existÄƒ confuzii pe alocuri cÃ¢nd se aude prima datÄƒ de acest termen. Termenul de programare dinamicÄƒ a fost folosit prima datÄƒ de cÄƒtre Richard Bellman Ã®n 1953. Pe atunci nu se prea scria cod, iar termenul de programare era mai degrabÄƒ folosit cu sensul de plÄƒnuire. Programarea dinamicÄƒ este doar o metodÄƒ de rezolvare a unor probleme.

Ideea e cam aÈ™a â€“ dÃ¢ndu-ni-se o problemÄƒ, am putea da soluÈ›ia corectÄƒ dacÄƒ am È™ti de dinainte soluÈ›ia pentru una sau mai multe probleme mai mici?

De exemplu, problema ar putea fi: sÄƒ se determine f₂₀ , al 20-lea termen al È™irului lui Fibonacci. Am putea da pe loc soluÈ›ia problemei dacÄƒ am È™ti al 18-lea È™i al 19-lea termen, f₂₀ = f₁₈ + f₁₉ . Pentru cÄƒ suntem programatori, sÄƒ facem deja È™i un program pentru determinarea unui asemenea termen Evident, nu o sÄƒ facem un program care doar ne afiÈ™eazÄƒ al 20-lea termen, sau doar al x-lea termen, ci o sÄƒ facem un program care ne dÄƒ al n-lea termen, pentru un n luat cumva din niÈ™te date de intrare. È˜tim cÄƒ, Ã®n general, pentru determinarea unui termen al È™irului lui Fibonacci ne este de ajuns sÄƒ cunoaÈ™tem cei doi termeni precedenÈ›i ai È™irului. DacÄƒ Ã®i cunoaÈ™tem, putem folosi imediat formula f_n = f_n-2 + f_n-1 È™i sÄƒ obÈ›inem rezultatul. DacÄƒ nu Ã®i cunoaÈ™tem, atunci vrem sÄƒ Ã®i calculÄƒm. ObservÄƒm cÄƒ am obÈ›inut acum alte douÄƒ probleme, dar care sunt mai mici decÃ¢t cea iniÈ›ialÄƒ. Putem folosi iar formula de recurenÈ›Äƒ a È™irului lui Fibonacci ca sÄƒ obÈ›inem cÃ¢te alte douÄƒ probleme pentru fiecare din cele douÄƒ obÈ›inute precedent, mai exact f_n-1 = f_n-3 + f_n-2 È™i f_n-2 = f_n-4 + f_n-3. Putem continua Ã®n aceasÄƒ manierÄƒ pÃ¢nÄƒ cÃ¢nd ajungem la o problemÄƒ pe care o putem rezolva trivial, aceea se va numi cazul de bazÄƒ (pot fi È™i mai multe). ÃŽn situaÈ›ia noastrÄƒ, cazurile de bazÄƒ sunt f₁ = f₂ = 1. Am obÈ›inut deci un algoritm recursiv care ne rezolvÄƒ problema determinÄƒrii unui termen de indice n al È™irului lui Fibonacci pentru un n arbitrar. SÄƒ vedem È™i codul Ã®n C++ pentru un astfel de algoritm.

Cod:

int fibonacci(int n) {

  if (n == 1 || n == 2) {
    return 1;
  }

  return fibonacci(n - 2) + fibonacci(n - 1);
}

Cu toate cÄƒ folosind acest algoritm recursiv obÈ›inem soluÈ›ia corectÄƒ, algoritmul este ineficient. DezvoltÃ¢nd dupÄƒ formula de recurenÈ›Äƒ, putem observa cÄƒ recalculÄƒm inutil unii termeni ai È™irului.

(arbore de recurenÈ›Äƒ de adÃ¢ncime 3 pentru formula generalÄƒ f_n = f_n-2 + f_n-1 a unui numÄƒr Fibonacci, figurÄƒ realizatÄƒ cu yEd)

ÃŽn arborele de recurenÈ›Äƒ de mai sus se observÄƒ cÄƒ f_n-4 este calculat deja de 4 ori. DacÄƒ am extinde arborele, am observa cÄƒ f_n-4 este calculat chiar de mai multe ori. Ca exemplu, urmÄƒtorul tabel ne aratÄƒ de cÃ¢te ori calculÄƒm fiecare din primii 5 termeni ai È™irului, dacÄƒ folosim algoritmul de mai sus pentru a calcula f₂₀.

termen	count
f₁	2584
f₂	4181
f₃	2584
f₄	1597
f₅	987

Clar nu vrem sÄƒ calculÄƒm f₂ de 4181 ori, pÃ¢nÄƒ È™i pe hÃ¢rtie putem face mult mai bine de atÃ¢t.

Acest fapt ne conduce la o optimizare naturalÄƒ, care este È™i o tehnicÄƒ foarte folositoare la olimpiade È™i alte concursuri. Aceasta se numeÈ™te memoizare (englezÄƒ - memoization). Termenul a fost folosit prima datÄƒ Ã®n 1968 de cÄƒtre Donald Michie, care, ca È™i Alan Turing, a lucrat la Bletchley Park Ã®n timpul celui de-Al Doilea RÄƒzboi Mondial. Memoizarea nu este decÃ¢t faptul de a memora anumite rezultate pentru a nu le recalcula.

ÃŽn exemplul de faÈ›Äƒ, este uÈ™or sÄƒ facem acest lucru. Concret, vom menÈ›ine un vector de n elemente Ã®n care vom memora dacÄƒ am mai calculat sau nu Ã®nainte un termen È™i, dacÄƒ da, care a fost rezultatul. Pentru a vedea dacÄƒ am mai calculat sau nu termenul Ã®n cauzÄƒ, vom iniÈ›ializa vectorul cu -1, folosindu-ne de faptul cÄƒ un termen al È™irului lui Fibonacci este mereu pozitiv, deci dacÄƒ vectorul la indicele termenului pe care vrem sÄƒ Ã®l calculÄƒm este mai mare decÃ¢t -1 atunci Ã®nseamnÄƒ cÄƒ am mai calculat termenul Ã®nainte. Codul Ã®n C++ este mai jos.

Cod:

int mem[100];

int fibonacci(int n) {

  if (mem[n] == -1) {
    if (n == 1 || n == 2) {
      mem[n] = 1;
    } else {
      mem[n] = fibonacci(n - 2) + fibonacci(n - 1);
    }
  }

  return mem[n];
}

Folosind memoizare, tabelul de mai sus devine

termen	count
f₁	1
f₂	1
f₃	1
f₄	1
f₅	1

È™i, mai mult, continuÄƒ cu 1 pÃ¢nÄƒ la f₂₀.

AcestÄƒ tehnicÄƒ este foarte utilÄƒ, dar putem mai bine de atÃ¢t! Putem chiar sÄƒ scÄƒpÄƒm de recursivitate È™i sÄƒ creÄƒm un algoritm iterativ. Ce am fÄƒcut mai sus se numeÈ™te o abordare top-down. Ce urmeazÄƒ sÄƒ facem se numeÈ™te, intuitiv, bottom-up.

ÃŽn cazul È™irului lui Fibonacci ne este uÈ™or sÄƒ trecem la abordarea doritÄƒ. Ne este uÈ™or din douÄƒ puncte de vedere. Primul este cÄƒ un termen al È™irului lui Fibonacci depinde doar de indicile sÄƒu, este o funcÈ›ie de o singurÄƒ variabilÄƒ. Al doilea este cÄƒ formula de recurenÈ›Äƒ este simplÄƒ, nu depinde decÃ¢t de douÄƒ rezultate precedente.

ÃŽntrebarea mai clarÄƒ aici este am putea calcula valorile vectorului mem Ã®n timp liniar, fÄƒrÄƒ a folosi un algoritm recursiv? (partea cu liniar este specificÄƒ probleme pe care o rezolvÄƒm acum)

Primul pas ar fi sÄƒ punem cazurile de bazÄƒ, mem[1]=1 È™i mem[2]=1. UrmÄƒtorul pas ar fi sÄƒ observÄƒm cÄƒ putem calcula acum mem[3], care este mem[1]+mem[2]. ContinuÃ¢nd tot aÈ™a pentru mem[4], mem[5], mem[6], etc, obÈ›inem un simplu algoritm iterativ pentru a calcula valorile vectorului.

Cod:

mem[1] = 1;
mem[2] = 2;

for (int i = 3; i < n; ++i) {
  mem[i] = mem[i - 2] + mem[i - 1];
}

Acum putem spune oficial cÄƒ am folosit programare dinamicÄƒ. Codul de mai sus mai poate fi optimizat, dar optimizarea nu aduce nimic Ã®n plus ideii Ã®n discuÈ›ie.

___________________________________________________________

SÄƒ Ã®ncercÄƒm acum sÄƒ ne Ã®ndreptÄƒm acum spre problema Text, de la care a pornit cam toatÄƒ discuÈ›ia. Problema ne cere mai exact, cum am zis Ã®n postÄƒrile anterioare, secvenÈ›a maximalÄƒ de cuvinte (nu neapÄƒrat consecutive Ã®n datele de intrare) care are proprietatea cÄƒ oricare douÄƒ cuvinte consecutive din secvenÈ›Äƒ Ã®ndeplinesc proprietatea cerutÄƒ. O pereche de cuvinte Ã®ndeplineÈ™te proprietatea dacÄƒ È™i numai dacÄƒ ultima literÄƒ a primului cuvÃ¢nt este aceeaÈ™i cu prima literÄƒ a celui de-al doilea. SÄƒ ne luÄƒm un exemplu mai uÈ™or:

ana are caini andrei are iepuri

Putem reprezenta grafic exemplul cu diagrama de mai jos.

(reprezentarea graficÄƒ a exemplului de mai sus, figurÄƒ realizatÄƒ cu yEd)

Am pus o sÄƒgeatÄƒ de la un cuvÃ¢nt la altul dacÄƒ ce de-al doilea vine dupÄƒ primul Ã®n datele de intrare È™i ultima literÄƒ a primului este prima literÄƒ de celui de-al doilea.

Acum problema este mai uÈ™or de vÄƒzut, ni se cere sÄƒ gÄƒsim un drum de lungime maximÄƒ. Prin drum Ã®nÈ›elegem o secvenÈ›Äƒ de cuvinte legate prin sÄƒgeÈ›i ca Ã®n diagrama de mai sus. Evident, sÄƒgeÈ›ile trebuie sÄƒ fie orientate Ã®nspre dreapta, nu puteam schimba ordinea cuvintelor. Pentru asta, vom rezolva probleme similare cu cele Ã®n care gÄƒseam un termen al È™irului lui Fibonacci, dar de data aceasta vom folosi o altÄƒ formulÄƒ de recurenÈ›Äƒ. Mai exact, problemele pe care vrem sÄƒ le rezolvÄƒm sunt de tipul care este lungimea maximÄƒ a unei secvenÈ›e care se terminÄƒ la al n-lea cuvÃ¢nt din datele de intrare È™i corespunde cu cerinÈ›a problemei? Nu prea sunÄƒ la fel, dar Ã®n realitate este. O sÄƒ notÄƒm rÄƒspunsul la Ã®ntrebÄƒri de genul acesteia cu g_n.

Spre exemplu, cum am putea gÄƒsi g₆? Ei bine, lungimea secvenÈ›ei care se terinÄƒ la cuvÃ¢ntul iepuri este cel puÈ›in 1 pentru cÄƒ, evident, secvenÈ›a include cel puÈ›in cuvÃ¢ntul iepuri. Desigur, rÄƒspunsul nu este chiar 1, dar deja Ã®ncepem sÄƒ construim o formulÄƒ, g₆ = 1 + (ceva) . ObservÄƒm acum uÈ™or pe diagramÄƒ cÄƒ singura modalitate de a ajunge la cuvÃ¢ntul iepuri, Ã®n caz cÄƒ nu am plecasem chiar de acolo, este ori prin cuvÃ¢ntul andrei (indice 4), ori prin cuvÃ¢ntul cÃ¢ini (indice 3). Dar nu le putem adÄƒuga pe ambele. Trebuie sÄƒ alegem una dintre cele douÄƒ modalitÄƒÈ›i. ÈšinÃ¢nd cont cÄƒ vrem sÄƒ aflÄƒm lungimea maximÄƒ, ar trebui sÄƒ o adÄƒugÄƒm pe cea cu valoarea g mai mare. Deci, obÈ›inem formula pentru g₆, g₆ = 1 + max(g₃, g₄) . Este indicat sÄƒ vedem prin aceastÄƒ formulÄƒ. Practic ea zice cÄƒ dintre cele douÄƒ modalitÄƒÈ›i de a ajunge la cuvÃ¢ntul 6, noi o vrem pe cea mai bunÄƒ, mai bunÄƒ Ã®n acest caz Ã®nseamnÄƒ mai lungÄƒ.

Putem generaliza acum uÈ™or aceastÄƒ formulÄƒ recurentÄƒ. De la un cuvÃ¢nt de indice n vrem sÄƒ alegem cel mai lung drum care ajunge la cuvÃ¢ntul n. Deci, mai concis g_n = 1 + max(g_a₁, g_a₂, ... , g_{a_m}) unde cuvintele de indici a₁, a₂, ... , a_n au ca ultimÄƒ literÄƒ prima literÄƒ a cuvÃ¢ntului de indice n.

Acum cÄƒ È™tim formula, povestea este aceeaÈ™i ca la È™irul lui Fibonacci, putem rezolva problema recursiv top-down, unde putem optimiza folosind memoizare, sau o putem rezolva iterativ bottom-up. Ar fi cÃ¢teva lucruri de menÈ›ionat. Primul este cÄƒ rÄƒspunsul nu va mai gÄƒsit chiar Ã®n acelaÈ™i loc ca la Fibonacci, ci vor mai fi de fÄƒcut cÃ¢teva mici calcule. Al doilea este cÄƒ nu suntem mulÈ›umiÈ›i doar cu gÄƒsirea lungimii secvenÈ›ei care trebuie eliminatÄƒ, ci vrem È™i secvenÈ›a Ã®n sine, lucru care se face uÈ™or dacÄƒ È›inem minte cumva la fiecare utilizare a formulei g_n = 1 + max(g_a₁, g_a₂, ... , g_{a_m}) ce indice a_k a ales funcÈ›ia max. ÃŽn exemplul de mai sus, pentru iepuri am fi È›inut minte andrei, pentru cÄƒ la andrei aveam g₄ = 2 iar la cÃ¢ini g₃ = 1, deci era de preferat sÄƒ fi venit de la cuvÃ¢ntul andrei pentru cÄƒ drumul era mai lung. Mai exact, È›inem minte de unde am venit. Acest lucru (gÄƒsirea subsecvenÈ›ei Ã®n sine) nu È›ine direct de programare dinamicÄƒ, aÈ™a cÄƒ nu o sÄƒ Ã®l descriu Ã®n detaliu.

Astea fiind zise, avem acum o direcÈ›ie destul de bunÄƒ ca sÄƒ Ã®ncepem sÄƒ implementÄƒm problema. Din diferite motive, am ales sÄƒ nu pun aici codul, dar problema se rezolvÄƒ, cum am zis mai sus, aproximativ la fel ca cea a È™irului lui Fibonacci.

___________________________________________________________

Mai jos sunt cÃ¢teva chestii puÈ›in mai avansate È™i care deviazÄƒ de la subiect.

Este interesant de vÄƒzut, pentru cei care sunt la Ã®nceput È™i deja au Ã®nvÄƒÈ›at despre grafuri, cÄƒ sub orice problemÄƒ de dinamicÄƒ (i.e. care poate fi rezolvatÄƒ folosind metoda programÄƒrii dinamice) stÄƒ de fapt un graf aciclic orientat, sau DAG (directed acyclic graph). Chiar dacÄƒ problema pare cÄƒ nu are absolut nicio legÄƒturÄƒ cu grafurile, ea se poate modela ca o problemÄƒ pe un DAG Ã®n mod natural. Nodurile DAG-ului sunt subproblemele pe care vrem sÄƒ le rezolvÄƒm, iar muchiile sunt dependenÈ›ele Ã®ntre probleme. DacÄƒ alegem aceastÄƒ reprezentare, este evident de ce vrem ca graful sÄƒ fie aciclic â€“ nu vrem dependenÈ›e circulare. ÃŽn problema de mai sus se vede clar acest lucru. Diagrama aceea era de fapt un DAG, iar Ã®n formulÄƒ foloseam acel max(g_a₁, g_a₂, ... , g_{a_m}) pentru indicii de forma a_k dacÄƒ aveam o muchie care pleca de la cuvÃ¢ntul (nodul) de indice a_k È™i ajungea Ã®n nodul pentru care fÄƒceam calculul. GÄƒsirea celui mai lung subÈ™ir crescÄƒtor, este exact aceeaÈ™i problemÄƒ ca cea de mai sus, deci acesta este Ã®ncÄƒ un exemplu. Alt exemplu â€“ gÄƒsirea celui mai lung subÈ™ir comun, graful aratÄƒ frumos dacÄƒ Ã®l aranjÄƒm ca o pÃ¢nzÄƒ, adicÄƒ nodurile puse ca Ã®ntr-un tablou dibimensional, soluÈ›ia ar fi atunci pe o plimbare dintr-un colÈ› al grafului Ã®n colÈ›ul opus, fÄƒrÄƒ sÄƒ schimbÄƒm sensul, soluÈ›ia Ã®n sine ar fi ce obÈ›inem dacÄƒ selectÄƒm din acea plimbare doar acele miÈ™cÄƒri pe diagonalÄƒ. Aceste grafuri ne oferÄƒ, printre altele, o posibilitate de a vizualiza mai clar problemele, scÄƒpÃ¢nd de cea a tablourilor 1-, 2-, 3- sau mai È™tiu cu cÃ¢t-dimensionale unde mai toate problemele aratÄƒ la fel â€“ un tablou È™i-o formulÄƒ.

	Ajutor	Subiect: OJI - Text (Citit de 10257 ori)
0 Utilizatori şi 1 Vizitator pe acest subiect.

infoarena informatica de performanta