КОМПЬЮТЕРНОЕ МОДЕЛИРОВАНИЕ И АТРИБУЦИЯ ТЕКСТОВ

Зенков Андрей Вячеславович Доцент кафедры моделирования управляемых систем

Сазанова Лариса Анатольевна Доцент кафедры статистики, эконометрики и информатики

Криво Алексей Андреевич Студент Института фундаментального образования

Усталов Никита Алексеевич Студент Института фундаментального образования

Аннотация

Предложен новый метод статистического анализа в текстологии. Исследовано распределение частот различных первых значащих цифр в числительных связных авторских русскоязычных текстов. Показано, что эти частоты приближённо соответствуют закону Бенфорда с резким преобладанием доли единицы. Отклонения от закона Бенфорда являются статистически устойчивыми авторскими особенностями, позволяющими при некоторых условиях исследовать вопрос об авторстве, в частности, различать тексты разных авторов. Распределение цифр конца ряда {1, 2,…,8, 9} подвержено сильным флуктуациям и непоказательно. Предложенный подход проиллюстрирован и выводы подкреплены примерами компьютерного анализа произведений М. Агеева, В. Набокова, М. Шолохова, Н. Некрасова и др. Результаты обоснованы на основе непараметрического U-критерия Манна-Уитни.

Ключевые слова: закон Бенфорда; первая значащая цифра; стилеметрия; атрибуция текстов; обработка текстов; критерий Манна-Уитни.

Скачать статью