Frecvența literelor în limba rusă. Analiza frecvenței textului liber online. Câte caractere sunt necesare pentru a decripta o înlocuire simplă?

Se știe că aspectul literelor de pe tastatura unei prese de tipar sau PC nu este compus la întâmplare, ci respectă anumite reguli. Astfel, cele mai frecvent utilizate litere sunt situate în partea centrală a tastaturii, iar cele mai puțin frecvente sunt situate la margini. De asemenea, se știe că vocalele sunt folosite mai des decât consoanele. Aceste informații au fost obținute folosind o formulă specială în Corpusul Național al Limbii Ruse.

Cele mai comune vocale

Destul de ciudat, litera „o” este liderul în numărul de utilizări în vorbirea scrisă, atât printre vocale, cât și printre consoane. Este urmat de „a” și „și”, iar după aceea încep consoanele. Potrivit experților, frecvența de utilizare a literei „o” este de o zecime de procent, în timp ce frecvența altor vocale variază de la șapte la opt sutimi de procent.

Cele mai populare consoane

Cea mai des folosită consoana este „n”. În plus, cel mai mare număr de cuvinte în limba rusă încep cu litera „p”. Dintre vocale, „o” este liderul pe această bază.

Cea mai rară consoană din vorbirea rusă este litera „f”, folosită în cuvintele care provin din limbi straine, precum și onomatopee, precum „snort”.

Astfel de statistici pot fi utile la compilarea tautogramelor. Esența acestui lucru joc de cuvinte este să compun o poveste coerentă, fiecare cuvânt în care trebuie să înceapă cu aceeași literă.

individualitate atât de dominatoare și fericită, încât Tinerețea este atrasă de el ca și musca către un bol de zahăr. (cm. ).

Foarte puțini oameni pot observa ceva neobișnuit în acest text, chiar și după ce au citit o parte mult mai mare din această carte, până când li se cere să o studieze cu mare atenție. Și chiar și după aceasta, majoritatea nu pot observa această caracteristică unică.

Frecvențele de apariție a literelor în alte limbi decât engleza

Pentru orice limbă cu notație alfabetică, cifrul de substituție simplu este rupt folosind metoda descrisă mai sus: numărarea frecvenței de apariție a caracterelor și apoi utilizarea informațiilor contextuale ale limbii. Este clar că pentru a face acest lucru, criptoanalistul trebuie să aibă cel puțin o bună stăpânire a limbajului, deși în cazul unui simplu cifr de substituție nu trebuie să fie fluent în el. Nu este mai puțin evident că numărarea frecvenței de apariție a caracterelor într-un pasaj tipic de text va da rezultate diferite pentru diferite limbi, deși pentru limbile cu bază comună, cum ar fi latina, această diferență va fi mai mică decât pentru limbile de origini diferite. Nu toate limbile folosesc un alfabet de 26 de litere; unele au mai puține litere - în italiană se folosesc de obicei doar 22; în altele, de exemplu, în rusă, există mai multe litere, iar în altele (de exemplu, în chineză), nu există deloc alfabet. Deoarece italienii nu folosesc de obicei literele K, W și Y, se presupune că frecvențele lor sunt zero, dar dacă un text italian menționează New York, atunci aceste litere vor apărea în el. În franceză și germană, este necesar să se facă distincția între vocalele cu diferite diacritice(accente și umlaut), dar de dragul simplității în tabelele de mai jos, toate formele aceleiași litere au fost numărate împreună. Astfel, pentru limba franceză, frecvențele literelor E, E, E și E se numără împreună în frecvența totală a literei E. Numerele sunt și ele excluse din numărare, cu excepția celor scrise în cuvinte; toate caracterele nealfabetice (spațiu, virgulă, punct, ghilimele, punct și virgulă etc.) sunt incluse în coloana „alte”. Literele mari și mici au fost considerate la fel. Tabelul 2.6 arată (sub rezerva rezervelor de mai sus) frecvența de apariție a literelor pentru patru limbi europene la 1000 de caractere. Pentru comoditate, repetăm ​​aici tabelul cu frecvențele de apariție a literelor în limba engleză.

Analiza statistică a acestor calcule arată că atunci când vine vorba de frecvențele de apariție a caracterelor individuale, apoi engleză, franceză, germană și, într-o măsură mai mică, limbi italiene destul de strâns, iar relația lor cu galeza este vizibil mai slabă. Acest lucru se datorează parțial pentru că Y este o literă foarte comună în galeză: este o vocală și are două

pronunții diferite. În engleză este mult mai puțin comun, iar în alte limbi este chiar foarte rar. De asemenea, calculele arată că litera N poate fi numită „cea mai constantă literă”, deoarece în toate cele cinci limbi frecvența sa de apariție este aproape aceeași - de la 6% la 7% din toate literele alfabetului latin. O explicație a testelor statistice utilizate în mod obișnuit pentru a compara frecvențe precum cele prezentate aici poate fi găsită în ; Comentarii suplimentare sunt furnizate în Anexa M20.

Tabelul 2.6

Engleză

limba franceza

limba germana

Italiană

galeză

Câte caractere sunt necesare pentru a descifra o înlocuire simplă?

În exemplul 2.2 de mai sus, aveam 265 de caractere disponibile, iar descifrarea unei înlocuiri simple nu a fost foarte dificilă. Am putea face față la fel de ușor dacă am avea, de exemplu, 120 de caractere? Și, în general (am pus deja această întrebare mai devreme), care este numărul minim de caractere care va fi cel mai probabil suficient pentru ca un criptoanalist să descifreze un astfel de cifr? Pe această întrebare Răspunsuri teoria informației: o estimare a acestui număr este dată de o formulă în funcție de frecvențele caracterelor individuale sau poligrafelor limbii. Este descrisă aplicarea acestei formule pentru o anumită aplicație. Dacă sunt folosite doar frecvențele caracterelor individuale, 200 de caractere pot fi suficiente pentru un cifr de substituție simplu, dar utilizarea digrafelor (cum ar fi ON, IN sau AT) sau trigrafelor (cum ar fi THE sau AND) îmbunătățește foarte mult capacitățile de decriptare. . Se crede că în acest caz doar 50 sau 60 de caractere pot fi suficiente.

Problema 2.1 A fost interceptat un text cifrat în limba engleză cu o lungime de 202 caractere.

Se știe că se folosește un cifr de substituție simplu și că spațiile din textul simplu sunt înlocuite cu litera Z și toate celelalte semne de punctuație sunt omise. Există motive să credem că autorul preferă să folosească forma învechită a pronumelui „al tău” în locul pronumelui „al tău”. Descifrează textul.

VHEOC WZIHC BUUCW HDWZB IRWDH TDOZH VIHVI YBWIU HQOWU HUFWH ZOXBI LHTBI LWDHG DBUWE HVIRH FVXBI LHGDB UHZOX WEHOI HIODH VCCHU FPHQB WUPHI ODHGB UHEFV CCHCN DWHBUY HSVYHVHVHVHVHHVHHVHVHHVHVHH VDE HGVEF HONUH VHGOD RHOTH BU

Exemplul 2.2 arată că, deși cifrurile simple de substituție sunt mult mai greu de spart decât cifrurile Iulius Caesar, ele sunt totuși prea ușor de decriptat și, prin urmare, nu au nici un folos. are mult sens. Pentru a sparge un astfel de cifru, criptoanalistul trebuie să aibă doar o cantitate suficientă de text cifrat (aceasta corespunde primei situații menționate în capitolul anterior). Dacă el cunoaște și textul clar corespunzător (ca în a doua situație), sarcina lui devine pur și simplu banală, cu excepția cazului în care „mesajul” constă dintr-un număr foarte mic de litere diferite. În a treia situație, când criptoanalistul are posibilitatea de a selecta textul de criptat, trebuie doar să seteze următorul „mesaj”:

ABCDEFGHIJKLMNOPQRSTUVWXYZ

iar munca lui este acum finalizată.

Cititorului ignorant i se poate părea că din moment ce numărul diverse opțiuni depășește 1026 (adică o sută de milioane de milioane de milioane de milioane), atunci sarcina de a sparge un cifr de substituție simplu folosind doar textul cifrat (care, după cum am menționat mai devreme, ar dura un calculator milioane de ani pentru a-l rezolva folosind metode de forță brută) este imposibilă. . Cu toate acestea, tocmai am văzut cum se poate face acest lucru manual într-o oră, folosind frecvențele inegale cunoscute de caractere și regulile gramaticale ale englezei sau orice limbă în care este scris mesajul, împreună cu orice informație contextuală disponibilă. Există o lecție foarte importantă din asta:

Este extrem de periculos să judeci puterea unui sistem de criptare numai după timpul necesar celui mai rapid computer imaginabil pentru a-l decripta folosind forța brută.

Deci, în pasul următor vom analiza modalități de a crește durabilitatea acestora metode simple criptare. Acest lucru se face în capitolul următor.

Cea mai comună literă din alfabetul rus poate fi numită în siguranță „o”. Nu „a”, deși toți copiii învață primele lor cuvinte cu această literă: „mamă”, „tată” sau „dau”. Nu „și”, deși poate părea că îl folosim adesea ca o conjuncție de legătură.

După cum arată datele, este litera „o” care are o frecvență care depășește 0,1%, în comparație cu alte litere vocale ale alfabetului, a căror frecvență este, de exemplu, 0,07-0,08%, ceea ce este destul de mult.

Dintre consoane, litera „n” este pe primul loc.

Astfel de date sunt obținute prin analiza frecvenței în CNRY - Corpusul Național al Limbii Ruse, folosind o formulă specială. NKRY este o arhivă electronică de texte scrise și vorbite, care constă din aproximativ 230 de milioane de cuvinte utilizate.

Având în vedere cea mai populară literă a alfabetului nostru, merită menționat un fenomen interesant numit „tautogramă”. Acesta este un fel de încălzire literară în care trebuie să compui o poveste sau o poezie începând cu aceeași literă. Apropo, litera cu care încep cele mai multe cuvinte din limba rusă (nu o confundați cu frecvența de utilizare) este „p”, dar printre vocale conducerea neîndoielnică aparține favoritului nostru actual.

"Singur. Foarte. Fragmentele de farmec au căzut în monotonia toamnei. Olimpul a rămas o priză îndepărtată. Foarte la distanță. Au rămas resentimente, definiții neplăcute ale dezghețului dezghețat, cauzate de focul atingerii. Restul s-a dovedit a fi negativ, respins, înșelat de societate. Odrasle de toamnă s-au împiedicat și au zburat cu rămășițele ochilor lacului. Unele ferestre au rămas deschise. Amprentele furioase ale omonimelor individuale sunt umbrite de hainele respinse ale personificării. Nuanțele portocalii de cătină sunt conturate de o reflectare uriașă a singurătății. Restul este osificarea, amorțeala fatalității. Insulele sunt pline de jurăminte din eseuri despre certitudine. Butașii de arin de răcire au format cercuri cu același nume, din cauza strigătelor răgușite. Oficialul s-a transformat într-o reflectare a generalului, eliminând certitudinile negative. Imaginile stabilite explicau cu resentimente prostiile de toamnă, numind contrariul o înșelăciune. Tinerii au conturat cu disperare toamna fermecată, negând o atitudine obiectivă... Toamna a zburat ca niște fragmente portocalii de cătină, lăsând disputele obosite la răspunsuri singuratice...”

E amuzant, nu-i așa? Pana la urma nu e asa prostie :)

Apropo, în engleză cea mai comună litera este „e”, iar consoana este „t”.

Ei bine, și tautograma în engleză:

Mary se mișcă maiestuoasă ca Minerva.

Drept, latină, libertate, a învățat că Lucy iubește.

Eleganța Elizei fiecare ochi o spionează.

Zâmbetele lui Susan, tăcută senină, surprind.

De la nebuni, proști, lingușiri, cea mai dreaptă Fanny zboară.

Plăcintă „Lasă-i să mănânce prăjitură”

Ingrediente:

2 uncii migdale măcinate,

6 uncii de făină auto-crescătoare,

2 lingurite praf de copt,

4 uncii de zahăr muscovado ușor

150 ml ulei de porumb,

200-250 ml lapte de soia,

coaja a două lămâi fără ceară,

suc de la două lămâi,

1 lingura de apa parfumata de floare de portocal,

1 lingurita extract natural de vanilie.


Preîncălziți cuptorul la 190 de grade sau mai puțin dacă cuptorul este ventilat.

Ungeți o tavă de plăcintă. O tigaie adâncă de șase inci este cea mai bună, dar orice tigaie va fi potrivită.

Puneti faina si praful de copt intr-un bol, apoi adaugati zaharul. Se amestecă migdalele măcinate și coaja de lămâie. Adăugați untul și laptele. Cu cât mai puțin lichid, cu atât vasul va arăta mai degrabă o plăcintă decât o budincă. Nu trebuie să măsurați lichidele cu o precizie de 100% pentru acest tort.

Acum adauga suc de lămâieși amestecați bine. Adăugați apă de flori și extract de vanilie, amestecați din nou. Rezultatul ar trebui să arate ca un aluat gros, fără drojdie.

Se toarnă în formă și se dă la cuptor pentru aproximativ patruzeci de minute. Crusta trebuie să fie maronie, iar umplutura foarte moale. Scoateți din tavă, răciți și decorați frunze proaspete mentă și căpșuni.

În acest articol vom începe foarte mult discuția subiect interesant- aplicarea statisticilor pentru analiza informațiilor text. Rețineți că utilizarea statisticilor pentru analiza textului este o sarcină tradițională.

Mai întâi vom da câteva Fapte interesanteîn ceea ce priveşte frecvenţa de apariţie a literelor şi combinaţiile acestora în limbi diferite(pentru mai multe detalii, vezi cartea). În articolele următoare vom arăta cum să folosiți mai mult metode complexe analiza si prezentarea grafica.

Caracteristicile frecvenței mesajelor text

Deci, textul este format din cuvinte, cuvinte din litere. Numărul de litere diferite în fiecare limbă este limitat și literele pot fi enumerate pur și simplu. Caracteristici importante text sunt repetarea literelor, perechi de litere (digrame) și în general m-BINE ( m-gramă), compatibilitatea literelor între ele, alternarea vocalelor și consoanelor și altele. Este remarcabil faptul că aceste caracteristici sunt destul de stabile. Lăsăm în culise întrebarea „de ce”.

Utilizarea sistemului STATISTICA Puteți verifica aceste modele, de exemplu, în textele de pe Internet.

Ideea este să numărăm numărul de apariții ale fiecăruia n m posibil m-gramă în texte clare suficient de lungi T=t 1 t 2 …t l, format din litere ale alfabetului ( a 1 , a 2 , ..., a n). În același timp, consecutiv m-grame de text:

t 1 t 2 ...t m , t 2 t 3 ... t m+1 , ..., t i-m+1 t l-m+2 ...t l.

Dacă – numărul de apariții m-grame a i1 a i2 ...a im in text T, A Lnumărul total numărat m-gram, atunci experiența arată că pentru suficient de mare L frecvente

pentru aceasta m-gramele diferă puțin unele de altele.

Din această cauză, frecvența relativă (1) este considerată a fi o aproximare a probabilității P (a i1 a i2 ...a im) aspectul acesteia m-grame într-un loc selectat aleatoriu în text (această abordare este adoptată în determinarea statistică a probabilității).

Mai jos sunt tabele cu frecvențele literelor (în procente) pentru o serie de limbi europene. Date preluate din carte.

Litera alfabetului limba franceza limba germana Limba engleză Spaniolă limba italiana
A 7.68 5.52 7.96 12.90 11.12
B 0.80 1.56 1.60 1.03 1.07
C 3.32 2.94 2.84 4.42 4.11
D 3.60 4.91 4.01 4.67 3.54
E 17.76 19.18 12.86 14.15 11.63
F 1.06 1.96 2.62 0.70 1.15
G 1.10 3.60 1.99 1.00 1.73
H 0.64 5.02 5.39 0.91 0.83
eu 7.23 8.21 7.77 7.01 12.04
J 0.19 0.16 0.16 0.24 -
K - 1.33 0.41 - -
L 5.89 3.48 3.51 5.52 5.95
M 2.72 1.69 2.43 2.55 2.65
N 7.61 10.20 7.51 6.20 7.68
O 5.34 2.14 6.62 8.84 8.92
P 3.24 0.54 1.81 3.26 2.66
Q 1.34 0.01 0.17 1.55 0.48
R 6.81 7.01 6.83 6.95 6.56
S 8.23 7.07 6.62 7.64 4.81
T 7.30 5.86 9.72 4.36 7.07
U 6.05 4.22 2.48 4.00 3.09
V 1.27 0.84 1.15 0.67 1.67
W - 1.38 1.80 - -
X 0.54 - 0.17 0.07 -
Y 0.21 - 1.52 1.05 -
Z 0.07 1.17 0.05 0.31 1.24

O anumită diferență în valorile frecvenței în tabelele date în diferite surse se explică prin faptul că frecvențele depind în mod semnificativ nu numai de lungimea textului, ci și de natura acestuia. De exemplu, în textele tehnice litera rara F poate deveni destul de comună datorită utilizării frecvente a unor cuvinte precum funcție, diferențială, difuzie, coeficient etc.

La unii se observă abateri și mai mari de la normă în frecvența de utilizare a literelor individuale opere de artă, mai ales în poezie. Prin urmare, pentru a determina în mod fiabil frecvența medie a literelor, este recomandabil să aveți un set de texte diferite împrumutate de la diverse surse. Cu toate acestea, de regulă, astfel de abateri sunt nesemnificative, iar la o primă aproximare pot fi neglijate.

O reprezentare vizuală a frecvențelor literelor este dată de diagrama de apariție. Deci, pentru limba engleză, în conformitate cu tabelul, o astfel de diagramă este prezentată în Fig. 1. Pentru a-l construi, am folosit sistemul STATISTICA.

Pentru limba rusă, frecvențele (în ordine descrescătoare) ale caracterelor alfabetului în care sunt identificate E c Eu, b Cu Kommersant, și există, de asemenea, un semn de spațiu (-) între cuvinte, sunt date în tabelul următor (vezi).

-
0.175
DESPRE
0.090
A EI
0.072
A
0.062
ȘI
0.062
T
0.053
N
0.053
CU
0.045
R
0.040
ÎN
0.038
L
0.035
LA
0.028
M
0.026
D
0.025
P
0.023
U
0.021
eu
0.018
Y
0.016
Z
0.016
b, b
0.014
B
0.014
G
0.013
H
0.012
Y
0.010
X
0.009
ȘI
0.007
YU
0.006
SH
0.006
C
0.004
SCH
0.003
E
0.003
F
0.002

Pe baza tabelului, obținem următoarea diagramă de frecvență (Fig. 2).

Există o regulă mnemonică pentru amintirea celor mai comune zece litere ale alfabetului rus. Aceste litere formează cuvântul ridicol FAN. De asemenea, puteți sugera un mod similar de memorare a literelor comune în limba engleză, de exemplu, folosind cuvântul TETRIS-HONDA (vezi tabelul).

Caracteristicile de frecvență ale bigramelor, trigramelor și patrugramelor textelor semnificative sunt, de asemenea, stabile.

Iată tabele cu frecvențele bigramelor pentru rusă și limbi engleze(tabele împrumutate din carte). Pentru comoditate, acestea sunt împărțite în patru părți conform următoarei scheme:

Partea 1 Partea 2
Partea 3 Partea 4

Partea 1

A B ÎN G D E ȘI Z ȘI Y LA L M N DESPRE P
A 2 12 35 8 14 7 6 15 7 7 19 27 19 45 5 11
B 5 9 1 6 6 2 21
ÎN 35 1 5 3 3 32 2 17 7 10 3 9 58 6
G 7 3 3 5 1 5 1 50
D 25 3 1 1 29 1 1 13 1 5 1 13 22 3
E 2 9 18 11 27 7 5 10 6 15 13 35 24 63 7 16
ȘI 5 1 6 12 5 6
Z 35 1 7 1 5 3 4 2 1 2 9 9 1
ȘI 4 6 22 5 10 21 2 23 19 11 19 21 20 32 8 13
Y 1 1 4 1 3 1 2 4 5 1 2 7 9 7
LA 24 1 4 1 4 1 1 26 1 4 1 2 66 2
L 25 1 1 1 1 33 2 1 36 1 2 1 8 30 2
M 18 2 4 1 1 21 1 2 23 3 1 3 7 19 5
N 54 1 2 3 3 34 58 3 1 24 67 2
DESPRE 1 28 84 32 47 15 7 18 12 29 19 41 38 30 9 18
P 7 15 4 9 1 46

Partea 2

R CU T U F X C H SH SCH Y b E YU eu
A 26 31 27 3 1 10 6 7 10 1 2 6 9
B 8 1 6 1 11 2
ÎN 6 19 6 7 1 1 2 4 1 18 1 2 3
G 7 2
D 6 8 1 10 1 1 1 5 1 1
E 39 37 33 3 1 8 3 7 3 3 1 1 2
ȘI 1
Z 3 1 2 4 4
ȘI 11 29 29 3 1 17 3 11 1 1 1 3 17
Y 3 10 2 1 3 2
LA 10 3 7 10 1
L 3 1 6 4 1 3 20 4 9
M 2 5 3 9 1 2 5 1 1 3
N 1 9 9 7 1 5 2 36 3 5
DESPRE 43 50 39 3 2 5 2 12 4 3 2 3 2
P 41 1 6 2 2

Partea 3

A B ÎN G D E ȘI Z ȘI Y LA L M N DESPRE P
R 55 1 4 4 3 37 3 1 24 3 1 3 7 56 2
CU 8 1 7 1 2 25 6 40 13 3 9 27 11
T 35 1 27 1 3 31 1 28 5 1 1 11 56 4
U 1 4 4 4 11 2 6 3 2 8 5 5 5 1 5
F 2 2 2 1
X 4 1 4 1 3 1 2 3 4 3 3 4 18 5
C 3 7 10 2 1
H 12 23 13 2 6
SH 5 11 14 1 2 2 2
SCH 3 8 6 1
Y 1 9 1 3 12 2 4 7 3 6 6 3 2 10
b 2 4 1 1 2 2 2 6 3 13 2 4
E 1 1
YU 2 1 2 1 3 1 1 1 1 1 3
eu 1 3 9 1 3 3 1 5 3 2 3 3 4 6 3 6

Partea 4

R CU T U F X C H SH SCH Y b E YU eu
R 1 5 9 16 1 1 1 2 8 3 5
CU 4 11 82 6 1 1 2 2 1 8 17
T 26 18 2 10 1 11 21 4
U 7 14 7 1 8 3 2 9 1
F 1 1
X 3 4 2 2 1 1
C 1 1
H 7 1 1 1
SH 1 1
SCH 1
Y 3 9 4 1 16 1 2
b 1 11 3 1 4 1 3 1
E 1 9
YU 1 1 7 1 1 4
eu 3 6 10 2 1 4 1 1 1 1 1

Frumoase mese k-gramul este ușor de obținut folosind textele versiunilor electronice ale multor cărți conținute pe CD-uri.

Pentru a obține informații mai precise despre textele simple, puteți construi și analiza tabele k-gram la k>2, dar în scop educativ este suficient să ne limităm la bigrame. Inegalitate k-grama (și chiar cuvintele) este strâns legată de trăsătură caracteristică text clar - prezența în el un numar mare repetari fragmente individuale text: rădăcini, terminații, sufixe, cuvinte și expresii. Deci, pentru limba rusă, astfel de fragmente familiare sunt cele mai comune bigrame și trigrame:

ST, DAR, EN, TO, NA, OV, NI, RA, VO, KO
STO, ENO, NOV, TOV, OVO, OVA

Informații despre compatibilitatea literelor, adică despre conexiunile preferate ale literelor între ele, sunt utile, care pot fi obținute cu ușurință din tabelele de frecvență bigrame.

Aceasta se referă la un tabel în care cei mai preferați „vecini” sunt localizați în stânga și în dreapta fiecărei litere (în ordinea descrescătoare a frecvenței bigramelor corespunzătoare). Astfel de tabele indică, de obicei, și proporția de vocale și consoane (în procente) care preced (sau urmează) o anumită literă.

Combinație de litere rusești:

G CU Stânga Pe dreapta G CU
3 97 l, d, k, t, v, r, n A l, n, s, t, r, v, k, m 12 88
80 20 i, e, y, i, a, o B o, s, e, a, r, y 81 19
68 32 i, t, a, e, i, o ÎN o, a, i, s, s, n, l, r 60 40
78 22 r, y, a, i, e, o G o, a, p, l, i, v 69 31
72 28 r, i, y, a, i, e, o D e, a, i, o, n, y, p, v 68 32
19 81 m, i, l, d, t, r, n E n, t, r, s, l, v, m, i 12 88
83 17 r, e, i, a, y, o ȘI e, i, d, a, n 71 29
89 11 o, e, a și Z a, n, c, o, m, d 51 49
27 73 r, t, m, i, o, l, n ȘI s, n, c, i, e, m, k, h 25 75
55 45 b, v, e, o, a, i, s LA o, a, i, p, y, t, l, e 73 27
77 23 g, v, s, i, e, o, a L i, e, o, a, b, i, yu, y 75 25
80 20 i, s, a, i, e, o M i, e, o, y, a, n, p, s 73 27
55 45 d, b, n, o N o, a, i, e, s, n, y 80 20
11 89 r, p, k, v, t, n DESPRE c, s, t, r, i, d, n, m 15 85
65 35 în, cu, y, a, i, e, o P o, p, e, a, y, i, l 68 32
55 45 i, k, t, a, p, o, e R a, e, o, i, y, i, s, n 80 20
69 31 s, t, v, a, e, i, o CU t, k, o, i, e, b, s, n 32 68
57 43 h, y, i, a, e, o, s T o, a, e, i, b, v, r, s 63 37
15 85 p, t, k, d, n, m, r U t, p, s, d, n, y, w 16 84
70 30 n, a, e, o și F și, e, o, a, e, o, a 81 19
90 10 y, e, o, a, s și X o, i, s, n, v, p, r 43 57
69 31 e, yu, n, a și C i, e, a, s 93 7
82 18 e, a, y, i, o H e, i, t, n 66 34
67 33 b, y, s, e, o, a, i, v SH e, i, n, a, o, l 68 32
84 16 e, b, a, i, y SCH e, i, a 97 3
0 100 m, r, t, s, b, c, n Y l, x, e, m, i, v, s, n 56 44
0 100 n, s, t, l b n, k, v, p, s, e, o și 24 76
14 86 s, s, m, l, d, t, r, n E n, t, r, s, k 0 100
58 42 b, o, a, i, l, y YU d, t, sch, c, n, p 11 89
43 57 o, n, r, l, a, i, s eu v, s, t, p, d, k, m, l 16 84

Atunci când analizați compatibilitatea literelor între ele, trebuie să aveți în vedere dependența aspectului literelor în text simplu de un număr semnificativ de litere precedente. Pentru a analiza aceste modele, se folosește conceptul de probabilitate condiționată.

Observaţiile textelor clare arată că pt probabilități condiționate inegalitățile sunt satisfăcute p(a i1)≠p(a i1 /a i2), p(a i1 /a i2)≠p(a i1 /a i2 a i3),....

Problema dependenței literelor alfabetului în text simplu față de literele anterioare a fost studiată sistematic de celebrul matematician rus A. A. Markov (1856 – 1922). El a demonstrat că aparițiile literelor în text clar nu pot fi considerate independente unele de altele. În acest sens, A. A. Markov a remarcat un alt model stabil de texte deschise asociat cu alternanța vocalelor și consoanelor. El a calculat frecvența de apariție a bigramelor vocale-vocale ( G, G), vocală-consoană ( G, Cu), consoană vocală ( Cu, G), consoană-consoană ( Cu, Cu) în text rusesc cu o lungime de 10 5 caractere. Rezultatele calculului sunt prezentate în următorul tabel:

G CU Total
G 6588 38310 44898
CU 38296 16806 55102

Din acest tabel se poate observa că limba rusă este caracterizată de alternarea vocalelor și consoanelor, iar frecvențele relative pot servi ca aproximări ale probabilităților condiționate și necondiționate corespunzătoare:

p(G/Cu)≈0.663, p(Cu/G)≈0.872,
p(G)≈0.432, p(Cu)≈0.568.

După A. A. Markov, dependența apariției literelor într-un text, urmând mai multe anterioare, a fost studiată prin metode de teoria informației de K. Shannon. De fapt, ei au arătat, în special, că o astfel de dependență este vizibilă până la o adâncime de aproximativ 30 de caractere, după care practic lipsește.

Proporția vocalelor dintr-un text literar:

Tiparele de mai sus se aplică textelor simple „lizibile” obișnuite utilizate în comunicarea umană. După cum sa menționat mai devreme, aceste modele joacă un rol important în criptoanaliza. În special, ele sunt utilizate în construirea unor criterii formalizate pentru textul simplu, care fac posibilă aplicarea metodelor de statistică matematică în problema recunoașterii textului simplu într-un flux de mesaje. Când se utilizează alfabete speciale, sunt necesare studii similare ale caracteristicilor de frecvență ale „textelor deschise” care apar, de exemplu, în timpul schimbului de informații de la mașină la mașină sau în sistemele de transmisie a datelor. În aceste cazuri, construirea unor criterii formalizate pentru „text clar” este o sarcină mult mai dificilă.

Ca exemplu, dăm caracteristicile de frecvență ale literelor alfabet englezesc, incluse în codul ASCII.

Pe lângă criptografie, caracteristicile de frecvență ale mesajelor clare sunt utilizate în mod semnificativ în alte domenii. De exemplu, o tastatură de computer, o mașină de scris sau un Linotype este o întruchipare minunată a ideii de a accelera tastarea, asociată cu optimizarea aranjamentului literelor alfabetului unele față de altele, în funcție de frecvența utilizării lor.

Literatură:

Alferov A.P. și colab., „Criptografie”

Yaglom A.M., Yaglom I.M., Probabilitate și informație, M.: Nauka, 1973.

Baudouin C., Elements de cryptographie / Ed. Pedone A. – Paris, 1939.

Friedman W. F., Callimahos D., Criptanaliză militară, Partea I, Vol. 2, Aegean Park Press, Laguna Hills CA, 1920.