Статистичний розподіл і флуктуації довжин речень в українських, російських і англійських корпусах
Loading...
Date
2016
Journal Title
Journal ISSN
Volume Title
Publisher
Видавництво Львівської політехніки
Abstract
Вивчено розподіли частот речень за їхньою довжиною для українського, російсь-
кого та англійського корпусів і з’ясовано середні довжини речень в одиницях знаків,
літер і слів. Показано, що хвости статистичних розподілів задовільно описуються
експоненційною або близькими до неї функціями, що узгоджуються зі стохастичним
характером довжини речень. Доведено, що залежність флуктуацій частоти речень різних
довжин від середніх значень цієї частоти визначається степеневим законом Тейлора.
Значні відносні флуктуації частот і відносні зміни середньої довжини речення
підтверджують важливість урахування флуктуаційних явищ у статистичній лінгвістиці. We have studied statistical distributions of the frequency of sentences over their length
for Ukrainian, Russian and English corpora and found the average sentence lengths in terms
of linguistic signs, letters and words. It has been shown that the tails of the statistical
distributions are satisfactorily described by the exponential function or the related ones, which
is consistent with random nature of the sentence length. We have proven that the fluctuations
of the frequency of sentences of different lengths depend on the average values of that
frequency according to the Taylor’s power law. Significant relative fluctuations of the
frequency and the relative changes in the average sentence length confirm the importance of
fluctuation phenomena in the statistical linguistics.
Description
Keywords
комп’ютерна лінгвістика, корпуси, статистичні розподіли, довжина речення, флуктуації, computational linguistics, corpora, statistical distributions, sentence length, fluctuations
Citation
Статистичний розподіл і флуктуації довжин речень в українських, російських і англійських корпусах / О. С. Кушнір, О. С. Брик, В. Є. Дзіковський, Л. Б. Іваніцький, І. М. Катеринчук, Я. П. Кісь // Вісник Національного університету "Львівська політехніка". Серія: Інформаційні системи та мережі. – 2016. – № 854. – С. 228–239. – Бібліографія: 36 назв.