МЕТОДОЛОГИЧЕСКИЕ ОСНОВЫ ПОСТРОЕНИЯ УСТОЙЧИВЫХ МОДЕЛЕЙ МАШИННОГО ОБУЧЕНИЯ С ИСПОЛЬЗОВАНИЕМ ВЕРОЯТНОСТНО-СТАТИСТИЧЕСКИХ МЕТОДОВ

Авторы

А.К. Чирягов Институт машиноведения, автоматики и геомеханики НАН КР
С.В. Корякин Кыргызско-Германский институт прикладной информатики
К.Р. Карабакиров Кыргызско-Германский институт прикладной информатики

Ключевые слова:

машинное обучение, статистическая теория обучения, байесовский вывод, стохастический градиентный спуск, регуляризация, механизм внимания (Attention)

Аннотация

Данная работа посвящена анализу математических оснований машинного обучения, рассматриваемого сквозь призму теории вероятностей, математической статистики и многомерной геометрии. В противовес эмпирическому подходу, часто доминирующему в прикладных исследованиях, здесь доказывается, что ключевые алгоритмы обучения — от классической регрессии до современных трансформерных архитектур — являются строгими следствиями фундаментальных статистических принципов, таких как метод максимального правдоподобия, байесовский вывод и концентрация меры. Работа включает выводы целевых функций и градиентов из первых принципов, геометрическую интерпретацию методов регуляризации и снижения размерности, а также анализ стохастических методов оптимизации. Особое внимание уделено проблеме устойчивости моделей в условиях высокой размерности входных данных и теоретическому обоснованию гипотезы многообразия.

Библиографические ссылки

K. P. Murphy, Probabilistic Machine Learning: An Introduction. MIT Press, 2022.

G. James, D. Witten, T. Hastie, и R. Tibshirani, An Introduction to Statistical Learning. Springer, 2013.

C. M. Bishop, Pattern Recognition and Machine Learning. Springer, 2006.

S. Geman, E. Bienenstock, и R. Doursat, «Neural networks and the bias/variance dilemma», Neural Computation, т. 4, вып. 1, сс. 1–58, 1992.

M. Belkin, D. Hsu, S. Ma, и S. Mandal, «Reconciling modern machine-learning practice and the classical bias–variance trade-off», Proceedings of the National Academy of Sciences, т. 116, вып. 32, сс. 15849–15854, 2019.

C. Zhang, S. Bengio, M. Hardt, B. Recht, и O. Vinyals, «Understanding deep learning requires rethinking generalization», в International Conference on Learning Representations (ICLR), 2017.

J. R. Magnus, P. K. Katyshev, и A. A. Peresetsky, Econometrics. An Introductory Course. Moscow: Delo, 2007.

J. A. Nelder и R. W. Wedderburn, «Generalized Linear Models», Journal of the Royal Statistical Society: Series A (General), т. 135, вып. 3, сс. 370–384, 1972.

Goodfellow, Y. Bengio, и A. Courville, Deep Learning. MIT Press, 2016.

M. H. DeGroot, Optimal Statistical Decisions. McGraw-Hill, 1970.

L. Bottou, «Stochastic learning», Advanced lectures on machine learning. Springer, сс. 146–168, 2004 г.

B. Neyshabur, R. Tomioka, и N. Srebro, «In Search of the Real Inductive Bias: On the Role of Implicit Regularization in Deep Learning», в ICLR (Workshop), 2015.

C. Fefferman, S. Mitter, и H. Narayanan, «Testing the manifold hypothesis», Journal of the American Mathematical Society, т. 29, вып. 4, сс. 983–1020, 2016.

H. Whitney, «Differentiable manifolds», Annals of Mathematics, сс. 645–680, 1936.

Vaswani и др., «Attention is all you need», Advances in Neural Information Processing Systems, т. 30, 2017.

Корякин, С. В. Аналитический обзор технологий построения аппаратно-ориентированных облачных систем защиты информации с применением нейросетевых технологий / С. В. Корякин // Проблемы автоматики и управления. – 2025. – № 2(53). – С. 41–51. – EDN RCCRHC.