Rotatie lexicografic minima

(Categoria Algoritmi, autor(i) Mircea Pasoi)

Acest articol reprezinta un studiu de caz al unei probleme care poate fi considerata "clasica", fiind studiata inclusiv de cunoscutul profesor Edsger Wybe Dijkstra. Deoarece problema a apaput recent la diverse concursuri de informatica, prezinta interes pentru cei care se pregatesc pentru participarea la acestea.

Enunt

In continuare vom prezenta doua formulari ale acestei probleme care au aparut recent la concursuri:

Cateodata programatorii au metode din cele mai diverse pentru a-ai ascunde parolele. De exemplu, sa vedem cum Billy "Hacker" Geits isi ascunde propriile parole. Billy isi alege un sir de caractere de lungime L < 100.000 format din litere mici ale alfabetului latin. Pentru acest sir de caractere Billy face toate cele L-1 deplasari circulare la stanga cu o pozitie si le pune unele sub altele. Dintre aceste L-1 siruri astfel obtinute, inaintea carora se trece sirul initial, se alege cel care este primul in ordine lexicografica, parola constituind-o un prefix al acestuia.
Scrieti un program care pentru un sir S dat determina pozitia celei "mai mici"(primei) deplasari in ordine lexicografica. Daca cel mai mic sir de caractere apare de mai multe ori, se se cere cea mai mica pozitie pe care acesta incepe.
(ACM 2003-2004, regionala Europei de sud-est)

Intr-un seif se afla niste documente pe care trebuie sa le extrageti. Problema este ca seiful este prevazut cu un terminal care necesita introducerea unei parole pentru a putea deschide seiful. La accesarea seifului, pe ecranul terminalului este afisat un cuvant cheie format din litere mici ale alfabetului englezesc. Parola este data de cea mai mica rotatie la stanga (in ordine lexicografica) a cuvantului cheie.
Fisierul de intrare password.in contine pe prima linie un sir de caractere format din litere mici ale alfabetului englezesc. Lungimea sirului din fisierul de intrare este un numar intreg cuprins intre 1 si 100.000.
Fisierul de iesire password.out trebuie sa contina un singur numar care reprezinta numarul de deplasari circulare la stanga ale sirului din fisierul de intrare necesare pentru a obtine parola de acces ceruta. Daca exista mai multe solutii va fi aleasa cea care necesita un numar minim de deplasari circulare la stanga.
(Bursele Agora 2003-2004, Runda 44)

Solutia naiva

O solutie triviala de complexitate O(N²) poate fi obtinuta parcurgand succesiv rotatiile si tinand cont de faptul ca compararea a doua siruri are complexitatea O(N) in cel mai defavorabil caz. Prezentam in continuare pseudocodul:

min <- 0; R0 <- S;

pentru i = 1, N-1 executa
    construieste Ri in functie de Ri-1
    daca Rmin > Ri atunci min <-i;
sfarsit pentru
scrie min

Solutia O(N*logN)

Precizam intai ca atat o solutie O(N*lg²N) cat si una O(N*lgN) pot fi obtinute folosind structura de date "siruri de sufixe" [1]. Din pacate aceste solutii nu sunt foarte usor de implementat, iar constanta din notatia O este destul de mare cat sa merite cautarea unei solutii alternative. Vom prezenta in continuare o solutie de complexitate O(N*lgN), mult mai usor de implementat odata ce este inteleasa.

Primul pas pentru obtinerea acestei solutii este folosirea unei strategii de tip "turneu", si anume la fiecare iteratie se pastreaza o lista cu rotatiile care ar putea fi minime. Initial lista va avea toate cele N rotatii, iar de fiecare data se iau rotatiile doua cate doua din lista si se elimina cea mai mare dintre cele doua din punct de vedere lexicografic. Procesul se reia pana cand se obtine o lista cu un singur element, reprezentand rotatia minima. Cum la fiecare pas numarul de elemente din lista se injumateste, este usor de vazut ca procesul nu se va repeta de mai mult de [log2 N] ori. Desi la prima vedere acest algoritm are timpul de rulare O(N²*lg N), vom arata in continuare ca sunt suficiente O(N) comparatii de caractere per total la fiecare repetare:
Fie R _i si R _j doua rotatii (presupunem fara a restrange generalitatea ca i < j) aflate pe pozitii consecutive in lista, care urmeaza sa fie comparate, una din fiind aleasa pentru eliminare. Vom demonstra in continuare ca este suficienta compararea acestor rotatii folosindu-ne doar de primele j - i caractere.

i	...	j-1	j	...	2j-i-1	2j-i	...	`0`	...	i-1

A = i...j-1
B = j...2j-i-1
C = 2j-i...i-1 (indicii sunt considerati mod N )

Fie sirul R _i impartit in trei bucati A, B, C, ca in figura de mai sus. Conform figurii R _i = ABC, iar R _j = BCA, bucatile A si B avand fiecare j-i caractere. Comparand doar primele j-i caractere, vom compara bucatile A si B, astfel:

A < B -> R _i < R _j -> se elimina R _j
A > B -> R _i > R _j -> se elimina R _i
A = B -> se elimina R _j (se presupune ca R _i < R _j )

Este evident ca in primele doua cazuri decizia de eliminare este corecta. Daca A = B , iar decizia luata de eliminare a fost gresita, anume R _i > R _j, cum R _i = ABC = AAC si R _j = BCA = ACA, inseamna ca A > C (daca A ar fi fost egal cu C atunci R _i = R _j, si nu ar mai fi contat ce element se elimina), deci elementul pastrat va fi oricum eliminat de rotatia R _2j-i = CAA sau de o alta rotatie care s-a dovedit a fi mai mica decat CAA la pasii anteriori. La a i-a parcurgere a listei, distanta intre doua rotatii aflate pe pozitii consecutive in lista este maxim 2^(i-1), iar in lista sunt cel mult [ n / 2^(i-1) ] elemente, astfel facandu-se O(N) comparatii. In acest mod obtinem un algoritm corect de complexitate O(N * log N).

L <- {0,1,2,...,N-1};
cat timp |L|>1 executa
    pentru k <- 1, |L|-1, +2 executa
    i <- L[k]; j <- L[k+1];
    A <- S[i..j-1]; B <- S[j..2j-i-1];
    daca A <= B atunci elimina L[k+1];
        altfel elimina L[k];
    sfarsit pentru
sfarsit cat timp
scrie L[1]

Spre exemplu, pentru sirul S = ("m", "i", "s", "s", "i", "s", "s", "i", "p", "p", "i") lista va contine initial elementele {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
La primul pas se efectueaza (caracterele ingrosate sunt cele ce se vor compara):
R0 = mississippi > R1 = ississippim
R2 = ssissippimi = R3 = sissippimis
R4 = issippimiss < R5 = ssippimissi
R6 = sippimissis > R7 = ippimississ
R8 = ppimississi = R9 = pimississip
Lista va fi acum {1, 2, 4, 7, 8, 10}
Pasii urmatori sunt:
R1 = ississippim < R2 = ssissippimi
R4 = issippimiss > R7 = ippimississ
R8 = ppimississi > R10 = imississipp
L = {1, 7, 10}
R1 = ississippim > R7 = ippimississ
L = {7, 10}
R7 = ippimississ > R10 = imississipp
L = {10}

TODO : add image

Solutia O(N)

Vom incerca acum sa obtinem un algoritm de complexitate liniara folosind alte idei de rezolvare. Algoritmul pe care il vom propune in continuare functioneaza ca si algoritmul trivial mentionat mai sus, anume parcurgand rotatiile succesiv. La fiecare pas se vor pastra trei variabile min, p, l cu semnificatia ca rotatiile R ₀, R ₁, ... R _p-1 au fost parcurse pana acum, iar R _min este o rotatie dintre acestea care ar putea fi cea lexicografic minima (toate celelalte din cele parcurse sigur nu pot fi solutia finala). De asemenea, variabila l va semnifica ca primele l caractere din R _min sunt egale cu primele l caractere din R _p, R _p fiind urmatoarea rotatie ce va fi procesata. Cunoscand aceste informatii, la fiecare pas se va compara al l+1-lea caracter din R _min (S[min+l]) cu al l+1-lea din R _p (S[p+l]), iar in functie de rezultat se va lua o decizie:

S[min+l] = S[p+l] -> se va incrementa variabila l cu o unitate deoarece inca o pereche de caractere
se potrivesc
S[min+l] < S[p+l] -> putem trage imediat concluzia ca R _min < R _p , iar mai mult, din faptul ca primele l caractere se potrivesc putem spune ca R _min+i < R _p+i pentru 0 <= i <= l; cum R _min era rotatia "candidata" la solutia finala dintre R ₀, R ₁, ... R _p-1 si este mai mica ca R _p, iar pentru orice R _p+i (1 <= i <= l) exista R _min+i < R _p+i, despre care se stie ca nu poate fi solutia finala, R _min va repezenta in continuare rotatia candidata la solutie dintre R ₀, R ₁, ... R _p-1, R _p, R _p+1, ... R _p+l. Asadar p va deveni p+l+1, iar l va deveni 0 (deoarece nu se cunosc inca informatii despre R _min si R _p+l+1)
S[min+l] > S[p+l] -> asemanator cu cazul anterior putem concluziona ca R _min+i > R _p+i pentru 0 <= i <=
l; asadar putem face doua observatii:
1) R _min+i (0 <= i <= l) nu poate candida la solutie, si cum se stia dinainte ca nici R ₀, R ₁, ... R _min-1 nu pot, primul candidat posibil este R _min+l+1;
2) Cum R _min era candidatul pana in prezent, iar R _p < R _min, din R ₀, R ₁, ... R _p singurul candidat posibil este R _p.
Variabila min va deveni max(min+l+1, p), p va deveni max(min+l+1, p)+1, iar l va fi egal cu 0.

infoarena informatica de performanta

Rotatie lexicografic minima

Enunt

Solutia naiva

Solutia O(N*logN)

Solutia O(N)