Статистика появи слів у природних і рандомних текстах

Abstract

Експериментально досліджено статистичні розподіли, що описують появу слів у кількох природних текстах, а також похідних від них рандомних текстах. Показано, що масова функція ймовірності відповідних інтервалів між словами є практично однаковою для природних і рандомних текстів і виявляє важкий вейбулівський хвіст, що не узгоджується із суто стохастичним характером цих інтервалів. Помітні відхилення динаміки зростання словника природних і рандомних текстів від динаміки, передбаченої степеневим законом Гіпса, а також кросовер у словнику одного з природних текстів підтверджують потребу в узагальненні цього закону.
We study experimentally statistical distributions that describe the appearance of words in a number of natural texts, as well as in the random texts derived on their basis. It is shown that the probability mass function of the respective intervals between words is practically the same for the natural and random texts and manifests a fat tail, which is inconsistent with purely stochastic character of those intervals. Significant deviations of the vocabulary growth dynamics found for the natural and random texts from the dynamics predicted by the power Heaps’ law, together with a crossover found in the dictionary of one of the natural texts, confirm a need in generalization of that law.

Description

Keywords

природні тексти, рандомні тексти, статистичні закони лінгвістики, словник, розподіли з важким хвостом, natural texts, random texts, statistical laws of linguistics, vocabulary, fattailed distributions

Citation

Статистика появи слів у природних і рандомних текстах / О. С. Кушнір, М. А. Альфавіцький, В. Є. Дзіковський, Л. Б. Іваніцький, С. В. Рихлюк, В. І. Сокульський // Вісник Національного університету «Львівська політехніка». Серія: Інформаційні системи та мережі. — Львів : Видавництво Львівської політехніки, 2017. — № 872. — С. 162–178.