Corpus: rus_newscrawl_2015

Other corpora

2.2.11 Repetitions

Typical repetitions within words

Subword Length 2 - most frequent words
Subword Word Frequency
го другого 155142
Го другого 155142
Ма мама 109703
ка какая 91426
Ка какая 91426
Ќа какая 91426
Ла сделала 88266
ла сделала 88266
ка какая-то 65968
Ка какая-то 65968
Subword Length 2 - Most frequent subwords
Subword Count
ли 76
Ли 76
та 43
Та 43
по 30
По 30
ом 19
Ќа 16
ка 16
Ка 16
Amount of words containing repeated subwords of length 2 - per mille
Per mille
4.3967
Subword Length 3 - most frequent words
Subword Word Frequency
ест естественно 93081
ест Естественно 56091
ест естественным 15373
ест естественных 11108
ест естественный 9851
ест естественной 8988
раз разразился 7816
Раз разразился 7816
ест естественное 6638
ест естественного 6474
Subword Length 3 - Most frequent subwords
Subword Count
ест 19
раз 5
Раз 5
бар 2
Бар 2
Amount of words containing repeated subwords of length 3 - per mille
Per mille
0.3085
Amount of words containing repeated subwords of length 4 - per mille
Per mille
0.0000
Amount of words containing repeated subwords of length 5 - per mille
Per mille
0.0000
Amount of words containing repeated subwords of length 6 - per mille
Per mille
0.0000
Subword Length 2 - most frequent words with hyphen
Subword Word Frequency
то что-то 526600
То что-то 526600
то кто-то 245592
То кто-то 245592
то Кто-то 61247
То Кто-то 61247
то Что-то 44674
То Что-то 44674
Би Би-би-си 6328
Да Да-да 5442
Subword Length 2 - Most frequent subwords
Subword Count
то 7
То 7
Би 2
Да 2
да 2
ка 1
Ка 1
Ан 1
ан 1
Ма 1
Amount of words with hyphen containing repeated subwords of length 2 - per mille
Per mille
0.1548
Subword Length 3 - most frequent words with hyphen
Subword Word Frequency
вот вот-вот 32608
Вот вот-вот 32608
еле еле-еле 3779
Еле еле-еле 3779
нет нет-нет 3177
Нет нет-нет 3177
нет Нет-нет 2911
Нет Нет-нет 2911
вот Вот-вот 2003
Вот Вот-вот 2003
Subword Length 3 - Most frequent subwords
Subword Count
нет 3
Нет 3
вот 2
Вот 2
Всё 1
еле 1
Еле 1
кто 1
Кто 1
все 1
Amount of words with hyphen containing repeated subwords of length 3 - per mille
Per mille
0.0949
Subword Length 4 - most frequent words with hyphen
Subword Word Frequency
чуть чуть-чуть 26204
Чуть чуть-чуть 26204
едва едва-едва 1676
Едва едва-едва 1676
чуть чуть-чуть не 1526
Чуть чуть-чуть не 1526
ноль ноль-ноль 1182
чуть Чуть-чуть 1082
Чуть Чуть-чуть 1082
Subword Length 4 - Most frequent subwords
Subword Count
чуть 3
Чуть 3
едва 1
Едва 1
ноль 1
Amount of words with hyphen containing repeated subwords of length 4 - per mille
Per mille
0.0856
Subword Length 5 - most frequent words with hyphen
Subword Word Frequency
много много-много 3669
Много много-много 3669
очень очень-очень 3365
Очень очень-очень 3365
долго долго-долго 1689
Долго долго-долго 1689
Subword Length 5 - Most frequent subwords
Subword Count
много 1
Много 1
очень 1
Очень 1
долго 1
Долго 1
Amount of words with hyphen containing repeated subwords of length 5 - per mille
Per mille
0.0956
Subword Length 6 - most frequent words with hyphen
Subword Word Frequency
только только-только 9082
Только только-только 9082
далеко далеко-далеко 2466
Далеко далеко-далеко 2466
воздух воздух-воздух 1727
Воздух воздух-воздух 1727
быстро быстро-быстро 1390
Быстро быстро-быстро 1390
Subword Length 6 - Most frequent subwords
Subword Count
только 1
Только 1
далеко 1
Далеко 1
воздух 1
Воздух 1
быстро 1
Быстро 1
Amount of words with hyphen containing repeated subwords of length 6 - per mille
Per mille
0.2929
1060713 msec needed at 2021-07-22 02:30