Statystyki występowania liter i bigramów w języku polskim

Do określenia frekwencji liter na potrzeby opracowania układu klawa.pl został utworzony zbiór tekstów składający się z ponad 500 tys. znaków. Około 70% zbioru stanowi publicystyka zawodowych dziennikarzy i felietonistów posługujących się poprawną polszczyzną i bogatym słownikiem: Stanisława Michalkiewicza, Piotra Skwiecińskiego i Rafała Ziemkiewicza. Pozostałą część stanowią teksty różnych blogerów także z uwzględnieniem ich jakości językowej. Wszystkie teksty, w miarę możliwości, zostały dobrane tak, aby nie zawierały specyficznych, powtarzających się wyrazów np. nazw własnych.

Częstość występowania liter w języku polskim

Ze względu na to, że litery diakrytyczne i ich wersje bez znaków diakrytycznych są wpisywane za pomocą tych samych klawiszy, ich wyniki zostały zsumowane.

Dla porównania wyniki własnego minikorpusu zostały zestawione z wynikami zaprezentowanymi na stronie poradni językowej PWN.

We własnej statystyce zostały dodatkowo ujęte: przecinek, kropka, pytajnik i wykrzyknik. Na stronie poradni mamy ograniczoną informację odnośnie znaków interpunkcyjnych: „Warto przy okazji zauważyć, że niektóre znaki interpunkcyjne występują w tekstach polskich częściej niż wiele liter. Na przykład najczęstszy polski znak przestankowy, przecinek, występuje częściej niż litera b.”

klawa.pl P.J. PWN
a + ą 9,56% a + ą 9,90%
e + ę 8,95% e + ę 8,77%
o + ó 8,32% o + ó 8,60%
i 8,20% i 8,21%
z + ż 6,25% z + ż 6,47%
n + ń 5,73% n + ń 5,72%
s + ś 4,79% s + ś 4,98%
w 4,51% r 4,69%
r 4,43% w 4,65%
c + ć 4,38% c + ć 4,36%
t 3,96% t 3,98%
y 3,96% l + ł 3,92%
l + ł 3,64% y 3,76%
k 3,36% k 3,51%
d 3,06% d 3,25%
p 3,03% p 3,13%
m 2,72% m 2,8%
j 2,48% u 2,5%
u 2,19% j 2,28%
, (przecinek) 1,49% , (przecinek) ?
b 1,44% b 1,47%
g 1,26% g 1,42%
h 0,98% h 1,08%
. (kropka) 0,84% f 0,3%
f 0,31% q 0,14%
? (pytajnik) 0,06% x + ź 0,08%
x + ź 0,05% v 0,04%
! (wykrzyknik) 0,02%    
v 0,02%    
q 0,00%    

Częstość występowania bigramów w języku polskim

Dane odnośnie bigramów, czyli par znaków występujących po sobie, zostały opracowane na zbiorze tekstów, którego spójność statystyczną z korpusem IPI PAN można ocenić na podstawie frekwencji poszczególnych liter powyżej.

Ze względu na to, że litery diakrytyczne i ich wersje bez znaków diakrytycznych są wpisywane za pomocą tych samych klawiszy, ich wyniki zostały zsumowane. Oznacza to, że np. wyniki zaprezentowane w tabeli dla bigramu ie zawierają zsumowane wyniki par ie oraz , wyniki w tabeli dla ac zawierają zsumowane wyniki ac, , ąc, ąć itd.

W tabeli zaprezentowano 30 najczęściej występujących bigramów.

Frekwencja bigramów w języku polskim
1. ie 3,926%
2. ni 2,536%
3. ze 1,784%
4. ow 1,691%
5. na 1,544%
6. po 1,427%
7. cz 1,306%
8. st 1,221%
9. za 1,204%
10. zy 1,203%
11. al 1,180%
12. ro 1,179%
13. rz 1,153%
14. an 1,133%
15. ac 1,133%
16. wi 1,124%
17. ch 1,110%
18. ra 1,096%
19. pr 1,081%
20. wa 0,983%
21. ia 0,971%
22. to 0,954%
23. ta 0,892%
24. ki 0,885%
25. la 0,885%
26. ko 0,865%
27. os 0,836%
28. sz 0,831%
29. dz 0,818%
30. ja 0,811%
*50.* eg 0,649%
*100.* om 0,298%
*200.* sn 0,103%
*300.* jd 0,027%

Częstość występowania trigramów w języku polskim

W ramach ciekawostki 10 najczęściej występujących „trójek”:

Trigramy w j. polskim
nie 1,78%
rze 0,76%
prz 0,71%
dzi 0,69%
ego 0,67%
wie 0,64%
owa 0,55%
sie 0,54%
ych 0,52%
ani 0,51%

Komentarze

"Około 70% zbioru stanowi publicystyka zawodowych dziennikarzy i felietonistów posługujących się poprawną polszczyzną i bogatym słownikiem: Stanisława Michalkiewicza, Piotra Skwiecińskiego i Rafała Ziemkiewicza." - Nie jestem pewien, czy akurat Ci autorzy są wystarczająco reprezentatywni do uzyskiwania korpusu w języku polskim. Ludzie Ci piszą na dość specyficzne tematy, raczej obce przeciętnym Polakom oraz w specyficznym dla nich stylu. W szczególności mam tu na myśli bi- i tri- gramy, bo co do częstotliwości występowania pojedynczych liter - zostały tu one dodatkowo podparte innym źródłem.

Nie rozumiem też, dlaczego polskie litery diakrytyczne są traktowane razem ze swoimi podstawowymi odmianami. W polskiej klawiaturze QWERTZ (tzw. klawiatura maszynistki) najczęściej używane typowo polskie litery są możliwe do wprowadzenia bez używania dodatkowych klawiszy modyfikujących. Źródło (SJP) które podaliście mówi, że większość z nich występuje nawet częściej od "q", "v", czy "x", więc być może to właśnie te litery powinny być pisane z użyciem "ALT".

Pamiętam, że przy doborze artykułów do korpusu opuszczałem te, które były na bardzo specyficzny temat, z powtarzającymi się nietypowymi zwrotami. Powyższe statystyki są jednak jednym z wielu czynników mających wpływ na układ klawiszy i same z siebie nie mają aż tak dużego wpływu, żeby drobne przesunięcia w jedną czy drugą stronę coś zmieniały.

Odnośnie polskich znaków - układ był opracowany z założeniem użycia modyfikatora w postaci klawisza ALT w celu minimalizacji użycia klawiszy, których uderzanie powoduje napięcia nadgarstków – im mniej trzeba skakać po klawiaturze, tym lepiej. :)

W przeciwieństwie do np. języka angielskiego rozkład używanych znaków jest dużo bardziej niekorzystny w języku polskim, ponieważ jest bardziej równomierny, co uniemożliwia optymalne skupienie w 14 najwygodniejszych pozycjach klawiatury. Jeśli dodamy do tego typowo polskie znaki, to koniecznością staje się użycie wszystkich klawiszy, łącznie z tymi, których z powodów ergonomii nie powinno używać się wcale.

Dodaj komentarz

Plain text

  • Znaczniki HTML niedozwolone.
  • Znaki końca linii i akapitu dodawane są automatycznie.