Статистика появи слів у природних і рандомних текстах
Date
Journal Title
Journal ISSN
Volume Title
Publisher
Видавництво Львівської політехніки
Abstract
Експериментально досліджено статистичні розподіли, що описують появу слів у
кількох природних текстах, а також похідних від них рандомних текстах. Показано, що
масова функція ймовірності відповідних інтервалів між словами є практично однаковою
для природних і рандомних текстів і виявляє важкий вейбулівський хвіст, що не
узгоджується із суто стохастичним характером цих інтервалів. Помітні відхилення
динаміки зростання словника природних і рандомних текстів від динаміки, передбаченої
степеневим законом Гіпса, а також кросовер у словнику одного з природних текстів
підтверджують потребу в узагальненні цього закону.
We study experimentally statistical distributions that describe the appearance of words in a number of natural texts, as well as in the random texts derived on their basis. It is shown that the probability mass function of the respective intervals between words is practically the same for the natural and random texts and manifests a fat tail, which is inconsistent with purely stochastic character of those intervals. Significant deviations of the vocabulary growth dynamics found for the natural and random texts from the dynamics predicted by the power Heaps’ law, together with a crossover found in the dictionary of one of the natural texts, confirm a need in generalization of that law.
We study experimentally statistical distributions that describe the appearance of words in a number of natural texts, as well as in the random texts derived on their basis. It is shown that the probability mass function of the respective intervals between words is practically the same for the natural and random texts and manifests a fat tail, which is inconsistent with purely stochastic character of those intervals. Significant deviations of the vocabulary growth dynamics found for the natural and random texts from the dynamics predicted by the power Heaps’ law, together with a crossover found in the dictionary of one of the natural texts, confirm a need in generalization of that law.
Description
Citation
Статистика появи слів у природних і рандомних текстах / О. С. Кушнір, М. А. Альфавіцький, В. Є. Дзіковський, Л. Б. Іваніцький, С. В. Рихлюк, В. І. Сокульський // Вісник Національного університету «Львівська політехніка». Серія: Інформаційні системи та мережі. — Львів : Видавництво Львівської політехніки, 2017. — № 872. — С. 162–178.