Конвейер обработки данных научных публикаций для выявления приоритетных направлений исследований
Солиев Искандар Бегалиевич - аспирант кафедры информатики и вычислительной техники. Томский политехнический университет
Аннотация
В условиях стремительного роста объемов научной информации воз никает необходимость в автоматизированных методах анализа, способных выявлять наиболее перспективные направления исследований. Актуальность этой задачи об условлена невозможностью вручную обработать огромные массивы данных и не обходимостью оперативного стратегического планирования научной деятельности. Целью исследования является разработка и апробация конвейера обработки данных научных публикаций, который позволит систематизировать большие объемы инфор мации и обеспечивать поддержку принятия решений в научных организациях. Для реализации конвейера используется платформа Lens.org, предоставляющая доступ к обширным базам данных научных публикаций. Сбор информации с последующей предобработкой включает удаление дубликатов, токенизацию, лемматизацию и век торизацию текстов. Для выделения скрытых тем применяется метод тематического моделирования (LDA). Дополнительно проводится анализ цитируемости и графовый анализ взаимосвязей между публикациями. Особое внимание уделено разработке но вой метрики – «индекс приоритетности», которая комбинирует показатели цитируемости, тематической релевантности и временного тренда публикаций. Апробация конвейера на выборке, состоящей из более чем 50 тыс. публикаций за 2014–2024 гг., продемонстрировала высокую точность и эффективность предложенного метода. Полученные результаты позволили выделить ключевые направления исследований, такие как искусственный интеллект, обработка больших данных и распределенные энергетические системы, а также проследить динамику их развития.
Ключевые слова: научные публикации; конвейер обработки данных; приоритетные направления; тематическое моделирование; анализ цитируемости; индекс приоритетности.
Для цитирования: Солиев И. Б. Конвейер обработки данных научных публикаций для выявления приоритетных направлений исследований // Цифровые модели и решения. 2025. Т. 4, № 1. С. 17–34. DOI: 10.29141/2949-477X-2025-4-1-2. EDN: MOWAQR.