Corpus: mkd_newscrawl_2016_30K

Other corpora

2.2.11 Repetitions

Typical repetitions within words

Subword Length 2 - most frequent words
Subword Word Frequency
та минатата 179
та листата 132
то местото 116
То местото 116
Ер Федерер 96
то третото 84
То третото 84
от животот 77
та третата 71
то минатото 65
Subword Length 2 - Most frequent subwords
Subword Count
та 193
то 76
То 76
по 34
По 34
те 32
Те 32
от 20
ни 16
Ни 16
Amount of words containing repeated subwords of length 2 - per mille
Per mille
9.9487
Subword Length 3 - most frequent words
Subword Word Frequency
ден роденден 15
Ден роденден 15
син Синсинати 11
ден роденденот 7
Ден роденденот 7
Бар Барбара 6
бар Барбара 6
Би- Би-Би-Си 6
ден роденденска 3
Ден роденденска 3
Subword Length 3 - Most frequent subwords
Subword Count
Ден 7
ден 7
Бар 3
бар 3
бон 1
син 1
Мер 1
Бед 1
суд 1
Би- 1
Amount of words containing repeated subwords of length 3 - per mille
Per mille
0.4001
Amount of words containing repeated subwords of length 4 - per mille
Per mille
0.0000
Amount of words containing repeated subwords of length 5 - per mille
Per mille
0.0000
Amount of words containing repeated subwords of length 6 - per mille
Per mille
0.0000
Subword Length 2 - most frequent words with hyphen
Subword Word Frequency
би Би-Би-Си 6
Би Би-Би-Си 6
Ен Си-Ен-Ен 2
ен Си-Ен-Ен 2
Ко дипломатско-конзуларните 2
ко дипломатско-конзуларните 2
Ко Македонско-косовска 1
ко Македонско-косовска 1
Ко дипломатско-конзуларно 1
ко дипломатско-конзуларно 1
Subword Length 2 - Most frequent subwords
Subword Count
Ко 4
ко 4
Би 1
Ен 1
ен 1
јо 1
би 1
Amount of words with hyphen containing repeated subwords of length 2 - per mille
Per mille
0.1226
Amount of words with hyphen containing repeated subwords of length 3 - per mille
Per mille
0.0000
Subword Length 4 - most frequent words with hyphen
Subword Word Frequency
дабл дабл-дабл 5
Subword Length 4 - Most frequent subwords
Subword Count
дабл 1
Amount of words with hyphen containing repeated subwords of length 4 - per mille
Per mille
0.0308
Subword Length 5 - most frequent words with hyphen
Subword Word Frequency
разни разни-разни 1
Subword Length 5 - Most frequent subwords
Subword Count
разни 1
Amount of words with hyphen containing repeated subwords of length 5 - per mille
Per mille
0.0568
Amount of words with hyphen containing repeated subwords of length 6 - per mille
Per mille
0.0000
439943 msec needed at 2018-03-16 13:50