КОМПЬЮТЕРНОЕ МОДЕЛИРОВАНИЕ И АТРИБУЦИЯ ТЕКСТОВ
Зенков Андрей Вячеславович Доцент кафедры моделирования управляемых систем
Сазанова Лариса Анатольевна Доцент кафедры статистики, эконометрики и информатики
Криво Алексей Андреевич Студент Института фундаментального образования
Усталов Никита Алексеевич Студент Института фундаментального образования
Аннотация
Предложен новый метод статистического анализа в текстологии. Исследовано распределение частот различных первых значащих цифр в числительных связных авторских русскоязычных текстов. Показано, что эти частоты приближённо соответствуют закону Бенфорда с резким преобладанием доли единицы. Отклонения от закона Бенфорда являются статистически устойчивыми авторскими особенностями, позволяющими при некоторых условиях исследовать вопрос об авторстве, в частности, различать тексты разных авторов. Распределение цифр конца ряда {1, 2,…,8, 9} подвержено сильным флуктуациям и непоказательно. Предложенный подход проиллюстрирован и выводы подкреплены примерами компьютерного анализа произведений М. Агеева, В. Набокова, М. Шолохова, Н. Некрасова и др. Результаты обоснованы на основе непараметрического U-критерия Манна-Уитни.
Ключевые слова: закон Бенфорда; первая значащая цифра; стилеметрия; атрибуция текстов; обработка текстов; критерий Манна-Уитни.