Korpus: kir_wikipedia_2018_30K

Weitere Korpora

2.2.11 Repetitions

Typical repetitions within words

Subword Length 2 - most frequent words
Subword Word Frequency
Ён менен 4816
Ен менен 4816
Үн өзүнүн 252
үн өзүнүн 252
Ат жатат 170
ат жатат 170
өт өтөт 141
Өт өтөт 141
ун облусунун 129
Та татаал 110
Subword Length 2 - Most frequent subwords
Subword Count
ун 652
ин 620
үн 378
Үн 378
Ла 57
ла 57
Ал 49
ал 49
ны 48
Та 46
Amount of words containing repeated subwords of length 2 - per mille
Per mille
28.7887
Subword Length 3 - most frequent words
Subword Word Frequency
бор борбору 184
Бор борбору 184
бор Борбордук 91
Бор Борбордук 91
бор борбордук 75
Бор борбордук 75
бор борбор 32
Бор борбор 32
бор борборунда 11
Бор борборунда 11
Subword Length 3 - Most frequent subwords
Subword Count
бор 41
Бор 41
Ала 16
ала 16
дин 6
Дин 6
Кал 5
кал 5
бал 5
дан 5
Amount of words containing repeated subwords of length 3 - per mille
Per mille
2.0940
Subword Length 4 - most frequent words
Subword Word Frequency
адан Аданадан 1
бири бирибирин 1
бири бирибиринен 1
бара барабара 1
Бири бирибирин 1
Бири бирибиринен 1
Subword Length 4 - Most frequent subwords
Subword Count
бири 2
Бири 2
адан 1
бара 1
Amount of words containing repeated subwords of length 4 - per mille
Per mille
0.0792
Subword Length 5 - most frequent words
Subword Word Frequency
үндөр күндөрүндөрүндө 1
Subword Length 5 - Most frequent subwords
Subword Count
үндөр 1
Amount of words containing repeated subwords of length 5 - per mille
Per mille
0.0339
Amount of words containing repeated subwords of length 6 - per mille
Per mille
0.0000
Subword Length 2 - most frequent words with hyphen
Subword Word Frequency
аз аз-аздан 3
Аз аз-аздан 3
Би Би-Би-Си 2
би Би-Би-Си 2
Ал ал-Алам 2
ал ал-Алам 2
өз өз-өзүнчө 2
Өз өз-өзүнчө 2
Би Би-Би-Сидеги 1
Би Би-Би-Синин 1
Subword Length 2 - Most frequent subwords
Subword Count
Би 3
би 3
Ал 3
ал 3
Ук 2
ук 2
өз 2
Өз 2
аз 1
до 1
Amount of words with hyphen containing repeated subwords of length 2 - per mille
Per mille
0.2091
Subword Length 3 - most frequent words with hyphen
Subword Word Frequency
тез тез-тез 14
Тез тез-тез 14
бир бир-бирине 4
Бир бир-бирине 4
бат бат-бат 4
туш туш-тушка 4
Туш туш-тушка 4
жер жер-жерлерде 2
жер жер-жерлердеги 2
жол жол-жол 2
Subword Length 3 - Most frequent subwords
Subword Count
бир 3
Бир 3
жан 3
Жан 3
жер 3
Жер 3
тез 2
Тез 2
чоң 2
Чоң 2
Amount of words with hyphen containing repeated subwords of length 3 - per mille
Per mille
0.4590
Subword Length 4 - most frequent words with hyphen
Subword Word Frequency
бири бири-бирине 35
Бири бири-бирине 35
бири бири-бири 19
бири бири-биринен 19
Бири бири-бири 19
Бири бири-биринен 19
бара бара-бара 16
бара Бара-бара 11
бири бири-бирин 7
Бири бири-бирин 7
Subword Length 4 - Most frequent subwords
Subword Count
бири 6
Бири 6
бара 2
Огуз 1
төрт 1
Төрт 1
Жуан 1
өзүн 1
улам 1
Өзүн 1
Amount of words with hyphen containing repeated subwords of length 4 - per mille
Per mille
0.3166
Subword Length 5 - most frequent words with hyphen
Subword Word Frequency
кайра кайра-кайра 4
Кайра кайра-кайра 4
бөлүп бөлүп-бөлүп 2
бөлөк бөлөк-бөлөк 2
кайта кайта-кайта 2
Бөлүп бөлүп-бөлүп 2
Манас Манас-Манас 1
кайра Кайра-кайра 1
Кайра Кайра-кайра 1
караш Караш-караш 1
Subword Length 5 - Most frequent subwords
Subword Count
кайра 2
Кайра 2
далай 1
Далай 1
бөлүп 1
катуу 1
Бөлүп 1
Катуу 1
бөлөк 1
кесип 1
Amount of words with hyphen containing repeated subwords of length 5 - per mille
Per mille
0.4408
Subword Length 6 - most frequent words with hyphen
Subword Word Frequency
мезгил мезгил-мезгили 8
Мезгил мезгил-мезгили 8
мезгил Мезгил-мезгили 1
кыздар Кыздар-кыздар 1
Мезгил Мезгил-мезгили 1
протон Протон-протондук 1
Кыздар Кыздар-кыздар 1
Протон Протон-протондук 1
түркүн түркүн-түркүн 1
Түркүн түркүн-түркүн 1
Subword Length 6 - Most frequent subwords
Subword Count
мезгил 2
Мезгил 2
кыздар 1
Кыздар 1
протон 1
Протон 1
түркүн 1
Түркүн 1
Amount of words with hyphen containing repeated subwords of length 6 - per mille
Per mille
0.3528
888238 msec needed at 2024-03-14 01:17