г. Москва и Московская область, Россия
ГРНТИ 55.01 Общие вопросы машиностроения
ББК 30 Техника и технические науки в целом
В результате проведенного исследования организации производственного процесса по созданию кровельных конструкций жилых многоэтажных зданий разработана искусственная нейронная сеть (ИНС), цель которой прогнозировать уровень производительности труда при заданных значениях организационных факторов. Одной из главных задач на пути к ней является обучение ИНС по прецедентам выборки, извлеченной из объекта исследования. В виду недостатка обучающих данных главной проблемой является определение условий статистической значимости прогнозов модели, обученной на выборке ограниченной длины. Данная статья посвящена решению указанной проблемы в рамках проведенного исследования. В работе использованы положения статистической теории обучения, использующие понятие размерности Вапника-Червоненкиса для описания сложности обучающего множества, а также подходы вероятностно-корректной в смысле аппроксимации модели обучения. Описаны технологии статистического бутстрэпа и бэг-гинга, позволяющие расширить имеющуюся обучающую выборку и увеличить точность прогнозирования. Обучение ИНС проводится с помощью компьютерного эксперимента с использованием языка программирования Python. Получена оценка границ теоретической длины обучающей выборки, необходимой для получения с помощью ИНС результатов внутри заданного доверительного интервала ɛ=0,2 с уровнем надежности 0,95. Извлеченная выборка преобразована на порядок, сопоставимый с теоретической нижней границей. Произведено обучение ИНС с определением средней квадратической ошибки (MSE) на контрольной выборке, которая составила MSE=0,18. В статье определены теоретические границы сложности обучающего множества необходимого для обеспечения заданного уровня статистической значимости. При обучении ИНС на выборке, порядок которой увеличен в соответствии с полученным теоретически, достигнута ошибка прогнозирования на контрольных данных внутри заданного доверительного интервала.
искусственная нейронная сеть, машинное обучение, организация производства, длина обучающей выборки, размерность Вапника-Червоненкиса, статистический бутстрэп, бэггинг.
Введение. В настоящее время вектор оптимизации управления производством заключается в разработке и внедрении компьютерных технологий, позволяющих автоматизировать организационные процессы и осуществляющих эффективную поддержку принятия решений. В связи с этим в большинстве прикладных наук особое место начинает занимать методология машинного обучения, которая уже доказала свою универсальность в успешном решении разнообразных практических задач [1, 2]. Подход по созданию нового инструмента, аппроксимирующего реальный процесс, в рамках данной методологии укрупненно можно представить в виде четырех основных блоков, представленных на рисунке 1.
Рис. 1. Блок-схема разработки компьютерной модели, аппроксимирующей реальный процесс, с помощью
подходов машинного обучения
Первый блок формируется с помощью научного наблюдения за объектом, экспертных опросов, а также его системного анализа, если объект не представляет собой «черный ящик». Выбор математической модели важнейший этап исследования. Разработано и исследовано большое число разнообразных математических моделей, таких как линейная, полиномиальная, логистическая регрессии, дискриминантный анализ, машина опорных векторов, искусственная нейронная сеть и другие. Каждая из которых имеет свои недостатки и преимущества в зависимости от процесса, на формализацию которого она направлена [3, 4]. Подбор математической модели, наиболее эффективно описывающей поведение реальной системы, сам по себе может являться целью исследования, для успешного завершения которого с каждой моделью нужно последовательно пройти последние три блока на рисунке 1. Третий блок включает в себя настройку модели под функционирование изучаемого объекта. Наиболее распространенный подход – это обучение «с учителем», заключающийся в корректировке свободных параметров математической модели на основе информации, полученной непосредственно от исследуемой системы. Данную информацию представляют в виде обучающей выборки , состоящую из множества прецедентов ,
, (1)
где – вектор значений входов модели; – отклик реальной системы при зафиксированном ; – номер прецедента; – количество примеров в обучающей выборке или длина выборки.
Существуют различные технологии и алгоритмы обучения модели, которые в основном зависят от ее математической формализации, а также от способа измерения входов и выходов модели.
В рамках диссертационного исследования, посвященного разработке методики оптимальной организации производственного процесса по строительству кровельных конструкций жилых многоэтажных зданий, автор статьи прошел первые три блока, определив с помощью системного анализа и экспертных опросов структуру исследуемого объекта [5], выполнив математическую интерпретацию его функционирования с помощью искусственной нейронной сети [6], а также определив алгоритм и порядок обучения модели с помощью метода обратного распространения ошибки [7]. В данной статье приведены результаты определения условий и принципов качественного обучения созданной модели. Это завершающий этап создания компьютерной модели объекта исследования, определяющий перспективы ее практического применения в выбранной проблемной области.
Достоверность получаемых с помощью созданной модели результатов зависит от трех основных факторов. Первый фактор - это сама разработанная математическая модель. Так как невозможно идеально аппроксимировать реальный процесс с помощью математического закона, гибкость выбранной модели играет большую роль в точности предсказания. Вторым фактором выступает процесс обучения, а именно, выбранный алгоритм, а также контроль переобучения, использование дополнительных механизмов и технологий, увеличивающих скорость и качество обучения. И последний и самый значимый фактор – это состав и длина обучающей выборки. Если первые два фактора исследователь может изменять, то обучающая выборка есть априорная информация о системе, которая принимается им как данность. При этом в большинстве практических задач отсутствуют готовые данные об исследуемом объекте, и выборку приходится извлекать вновь, что всегда является трудоемким процессом, требующим больших затрат времени и финансов. Поэтому актуальными являются определение необходимой и достаточной сложности обучающего множества для получения результатов с заданным уровнем доверия, а также проблема обучения модели на выборках, ограниченной длины.
Модель исследования. Системообразующим фактором организационного процесса по строительному производству кровельных конструкций в настоящем исследовании выступает производительность труда. В результате системного анализа исследуемого объекта выделены основные параметры: Cs – строительный контроль, Ccr – строительная бригада, P&T– производственно-технические ресурсы. С помощью морфологического анализа данные параметры разбиты на элементарные организационные факторы следующим образом: Cs ( – мастер, –прораб, – инженер строительного контроля, – начальник участка), Ccr ( – квалификация рабочих, – опыт работы, – трудовая дисциплина), P&T ( – машины, инструменты и инвентарь – производственно-технический отдел, – компьютеризация строительного участка).
Математической моделью объекта исследования выступает искусственная нейронная сеть (ИНС) прямого распространения сигнала с одним скрытым слоем нейронов и единственным выходом, архитектура которой показана на рисунке 2.
Рис. 2. Архитектура ИНС
Входы ИНС – вектор значений организационных факторов производственного процесса, измеренных с помощью теории нечетких множеств [8]. Выход модели – сменная производительность процесса, взятая относительно нормативного значения, полученного из государственных сметных нормативных документов. Функционирование нейронов соответствует классической схеме работы искусственного нейрона МакКаллока-Питтса [9]. Функцией активации нейронов является логистическая функция
, (2)
где – индуцированное локальное поле нейрона (сигнал на выходе из сумматора нейрона); – константа, определяющая область значений функции. Для скрытого слоя , для выходного нейрона P , что связано с подходом к измерению выхода модели, учитывающего возможность перевыполнения нормативного значения производительности.
Обучение ИНС производится по методологии «с учителем» с помощью классического алгоритма обратного распространения ошибки [10]. Обучение происходит по выборке типа (1), извлеченной автором статьи в результате научного наблюдения за реальным производственным процессом, исполняя обязанности инженера строительного контроля в компании, осуществляющей строительство. Обучающая выборка репрезентативна и содержит прецедента.
Определение достаточной длины обучающей выборки. Обучение ИНС можно представить, как поиск такой функции в пространстве всех возможных функций , которая аппроксимирует работу реальной системы с допустимым отклонением (ошибкой) и достаточной степенью надежности. В фокусе статистической теории обучения [11] задача состоит в минимизации по свободному параметру функционала среднего риска, который служит оценкой доверительного интервала
, (3)
где – свободные параметры модели (весовые коэффициенты связей ИНС); – функция потерь, описывающая ошибку модели; – совместное распределение вероятностей параметров реальной системы, соответствующих входам x и выходу y модели.
В связи с тем, что восстановление плотности распределения вероятностей по выборке трудоемкая задача, большинство алгоритмов обучения ИНС по прецедентам, в частности алгоритм обратного распространения ошибки, направлены на минимизацию эмпирического риска
. (4)
Так как длина обучающей выборки N в основном ограничена, то главный вопрос состоит в том, насколько хорошо полученная на опытных данных функция минимизирует функционал фактического риска (3), другими словами, насколько ошибка сети на обучающей выборке
(5)
будет отличаться от ошибки на контрольной выборке , состоящей из прецедентов, не задействованных в процессе обучения модели и, следовательно, ей незнакомых. Решение данной задачи связано с определением условий сходимости эмпирических средних к математическим ожиданиям [12], которая имеет вид
, (6)
где – уровень значимости.
В ходе анализа условий сходимости (6) на выборках конечной длины и обобщения теоремы Гливенко для задачи распознавания образов советские ученые В. Вапник и А. Червоненкис ввели понятие емкости h множества функций , которое в мировой литературе принято называть размерностью Вапника-Червоненкиса (VC-dimension) [13]. С помощью данного параметра были определены допустимые условия равномерной сходимости через длину выборки , из которых можно выделить выражение для оценки доверительного интервала
, (7)
где B – верхняя граница функции потерь , зависящая от области значений выхода ИНС,
. (8)
Так как в основном, Rвтр (w)
Для нейронных сетей с сигмоидальной функцией активации установлены границы VC-dimension [14, 15], имеющие следующие порядки
, , (9)
где W – количество свободных параметров сети, то есть весовых коэффициентов связей .
В созданной ИНС количество связей
, тогда размерность Вапника-Червоненкиса согласно (9) имеет границы порядка , . Область значений функции активации выходного нейрона (0;1,3), тогда , а также примем эмпирический риск , который в большинстве моделей соответствует средней квадратической ошибке ( ) модели на обучающей выборке . Тогда согласно (7) и (8) для достижения достоверности прогнозирования данной ИНС в пределах доверительного интервала с надежностью ее необходимо обучить на выборке, длина которой имеет следующие границы
, . (10)
Верхняя граница длины выборки не является обязательным условием для успешного обучения, что подтверждается многими практическими исследованиями [16]. При подготовке к обучению ИНС необходимо обеспечить соответствие обучающей выборки нижней границе, как минимально необходимой для обеспечения уровня достоверности модели.
Расширение обучающей выборки. Извлеченная в рамках исследования обучающая выборка имеет длину , которая не сопоставима с теоретическими границами (10). Самостоятельное извлечение выборки для достижения порядка сложности (10) может занять несколько лет, что лишает исследование практической рентабельности. Для решения данной проблемы применим технологию статистический бутстрэп (statistical bootstrapping) [17], заключающуюся в расширении объема обучающего множества за счет создания бутстрэп-выборки . Формирование бутстрэп-выборки происходит путем последовательного проведения двух операций: случайный отбор прецедента из выборки и добавление его в выборку . При этом добавление происходит с повторением, например, если произошел повторный выбор прецедента в результате операции случайного отбора на третьем шаге формирования выборки, данный прецедент вновь добавляется в , которая в данном примере примет вид
. (11)
Таким образом на основании данного подхода мы можем получать выборку произвольной длины N. Но обучение ИНС с помощью алгоритма, основанного на градиентом спуске, на бутстрэп-выборке , размер которой сопоставим с нижней границей (10), может привести к возникновению эффекта переобучения, так как она получена из одного вероятностного распределения выборки , длина которой в пятьдесят раз меньше. Поэтому для повышения качества обучения ИНС применим технологию бэггинг (bagging или bootstrap aggregating).
Данный подход состоит в обучении модели отдельно на нескольких бутстрэп-выборках и дальнейшего усреднения полученных выходов. Размер каждой бутстрэп-выборки зададим равной размеру исходной выборки , что обосновано практической реализацией данного подхода [18]. В соответствии с данной методикой обучение ИНС разбивается на обучение n моделей на разных бутстрэп-выборках , соответственно.
Таким образом, для удовлетворения условия (10) потребуется создать не менее 50 бутстрэп-выборок. Окончательное количество бутстрэп-выборок, участвующих в обучении модели, зависит от сходимости ИНС на контрольных данных и определяется непосредственно в процессе обучения модели. Под сходимостью ИНС подразумевается процесс достижения средней квадратической ошибки ( ) модели на контрольной выборке заданного значения доверительного предела .
Обучение ИНС. Для обучения ИНС был проведен компьютерный эксперимент с помощью разработанной программы [19], интерпретирующей функционирование и алгоритм обучения ИНС на языке программирования Python. Обучение проводилось в несколько циклов. Один цикл включал в себя создание бутстрэп-выборки согласно подходу, описанному в предыдущем разделе, обучение модели на до достижения сходимости ИНС на обучающих данных, то есть до получения за последнюю эпоху обучения, сопоставимой с заданным значением эмпирического риска . За эпоху обучения принят один полный проход всех примеров бутстрэп-выборки через алгоритм обучения. Затем вычислялась на контрольной выборке . При расчете на каждом последующем цикле за выход ИНС принималось среднее значение выходов моделей по всем пройденным циклам. Результаты обучения отражены на рисунке 3.
Рис.3. Сходимость ИНС на контрольной выборке
По графику на рис. 3 прослеживается явная сходимость ИНС на контрольной выборке, что свидетельствует об успешной реализации обучения модели. Ошибка на контрольной выборке соответствующая доверительному пределу достигнута на 26 цикле, в котором сложность обучающего множества составила 26 бутстрэп-выборок, что соответствует 22152 обучающих прецедентов. Данное количество меньше нижней границы, установленной с помощью размерности Вапника-Червоненкиса, но дальнейшее увеличение точности происходит намного медленнее, так при увеличении обучающей выборки до составила 0,193.
Выводы. В статье представлен подход определения достаточной длины обучающей выборки для получения с помощью искусственной нейронной сети прогнозируемых значений относительной производительности труда с заданным уровнем доверия. Решена проблема обучения на выборках ограниченной длины. Получено практическое подтверждение выполненного исследования с помощью проведения компьютерного эксперимента, состоящего в обучении созданной ИНС на выборке, извлеченной из исследуемого объекта.
1. Khademi F., Jamal S.M., Deshpande N., Londhe S. Predicting strength of recycled aggregate concrete using Artificial Neural Network, Adaptive Neuro-Fuzzy Inference System and Multiple Linear Regression // International Journal of Sustainable Built Environment. 2016. Vol. 5. Pp. 355-369.
2. Lee S., Choi W.S. A multi-industry bank-ruptcy prediction model using back-propagation neural network and multivariate discriminant analysis // Expert Systems with Applications. 2013. Vol. 40. № 8. Pp. 2941-2946.
3. Roy S.S., Roy R., Balas V.E. Estimating heating load in buildings using multivariate adap-tive regression splines, extreme learning machine, a hybrid model of MARS and ELM // Renewable and Sustainable Energy Reviews. 2018. Vol. 82.№ 3. Pp. 4256-4268.
4. Mayfield H., Smith C., Gallagher M., Hockings M. Use of freely available datasets and machine learning methods in predicting deforestation // Environmental Modelling & Software. 2017. Vol. 87. Pp. 17-28.
5. Lapidus A., Makarov A. Model for the potential manufacture of roof structures for residential multi-storey buildings // Procedia Engineering. 2016. № 153. Pp. 378-383.
6. Макаров А.Н. Искусственная нейронная сеть для организации и управления строительным процессом // Вестник БГТУ им. В.Г. Шухова. 2017. №4. С. 117-122.
7. Lapidus A., Makarov A. Automation of Roof Construction Management by Means Artificial Neural Network // Advances in Intelligent Systems and Computing. 2017. Vol. 692. EMMFT 2017. Pp. 1168-1176.
8. Лапидус А.А., Макаров А.Н. Нечеткая модель организации строительного процесса // Известия вузов. Инвестиции. Строительство. Недвижимость. 2017. Том 7. №1(20). С. 59-68.
9. McCalloch W.S., Pitts W. A logical calculus of the ideas immanent in nervous activity // Bull. Math. Biophys. 1943. Vol. 5. Pp.115-133.
10. Rumelhart D.E., Geoffrey E. Hinton, Ronald J. Williams. Learning representations by back-propagating errors // Nature. 1986. Vol. 323. Pp. 533-536.
11. Vapnik V.N. An overview of statistical learning theory // IEEE Transactions on neural networks. 1999. Vol. 10. № 5. Pp. 988-999.
12. Вапник В.Н., Червоненкис А.Я. Теория равномерной сходимости частот появления событий к их вероятностям и задачи поиска оптимального решения по эмпирическим данным // Автоматика и телемеханика. 1971. № 2. C. 42-53.
13. Вапник В.Н., Червоненкис А.Я. Теория распознавания образов (статистические проблемы обучения). М.: Наука, 1974. 416 с.
14. Pascal Koiran, Eduardo D. Sontag. Neural networks with quadratic VC dimension // Journal of computer and system sciences. 1997. Vol. 54. Pp. 190-198.
15. Michael Schmitt. Lower bounds on the complexity of approximating continuous functions by sigmoidal neural networks // NIPS 1999 Proceeding. 1999. Pp. 328-334.
16. Sally Floyd, Manfred Warmuth. Sample compression, learnability, and the Vapnik-Chervonenkis dimension // Machine Learning. 1995. Vol. 21. Pp. 269-304.
17. Efron B. Bootstrap Methods: Another Look at the Jackknife // The Annals of Statistics. 1979. Vol. 7. № 1. Pp. 1-26.
18. Breiman L. Bagging predictors // Machine Learning. 1996. Vol. 24. Pp. 123-140.
19. Свидетельство о государственной регистрации программы для ЭВМ №2017662846 от 17.11.2017. Искусственная нейронная сеть для оценки и прогнозирования строительства кровельных конструкций / А.А. Лапидус, А.Н. Макаров; заявитель и правообладатель НИУ МГСУ