VAC 05.17.00 Химическая технология
VAC 05.23.00 Строительство и архитектура
GRNTI 20.53 Технические средства обеспечения информационных процессов
The task of creating an effective territorial and sectoral system of training of specialists requires the creation of high-quality information support in the form of both short and long term, continually refines the forecast. Implement effective forward-looking assessment is not possible without adequate study the process of mathematical models based on historical data and measure the existing demand for specialists. An important step in building a mathematical model of forecasting the demand for professionals in the regional labor market is a pre-processing the data, which is performed to improve the quality of the time series that eventually will lead to improve the accuracy of the forecast is an estimate of future demand for specialists. Proposed approach must take into account the need for adaptation of a predictive model to the conditions of incomplete and unclear data referring to elements of the functioning of the system - the labor market and the education market in fuzzy conditions.
Pre-processing of data, time series, forecasting demand for professionals, reduced of the contradictory sets of time series
Введение. Моделирование временного ряда представляет собой формализованную процедуру, позволяющую по прошлым значениям ряда вычислять будущие значения прогнозируемого показателя
Формализованное представление математической модели, описывающей востребованность специалистов на региональном рынке труда, этапы адаптивного построения математической модели прогнозирования и их особенности подробно рассмотрены в [2–3]. Возможность моделирования зависимости величины сегмента рынка труда для отдельной профессиональной группы от экономических показателей обеспечивается посредством выявления и анализа основных групп факторов, описывающих, существующий на региональном рынка труда совокупный спрос на специалистов. На основе анализа, проведенного с помощью когнитивной модели, в качестве основных факторов для прогнозирования востребованности специалистов определены следующие: показатель потенциального спроса, показатель реализованного спроса, показатель резервного спроса и показатель степени трудоустройства выпускников [4].
Методология. Прогнозирование востребованности специалистов на региональном рынке труда на основе временных рядов основывается на многофакторной регрессионной модели [5]. Предварительная обработка данных, составляющих прогнозный фон, следует общей концепции проведения исследований с помощью методов интеллектуального анализа данных Data Mining, включая методы предварительной обработки данных, классификации и регрессии [6–7]. Аппарат нечетких множеств и нечеткой логики используется для учета специфики функционирования регионального рынка труда относительно сложившейся на нем профессионально-квалификационной структуры в нечетких условиях и при неполных данных [8–9]. Оценка эффективности проведенной предобработки данных временного ряда проводится с помощью соотношения, в теории непрерывных функций называемого константой Липшица.
Основная часть. Предварительная обработка данных включает в себя несколько шагов.
Шаг 1. Из всей совокупности показателей регионального рынка труда, описывающих совокупный спрос на специалистов, определяется набор факторов, значения которых могут быть вычислены на основании собранных сведений. Эти значения представляют собой прогнозный фон, на основе которого будет строиться временной ряд.
В результате получена группа факторов, значения которых определены в интервале времени T с периодичностью один год:
Таблица 1
Сведения, полученные на шаге 1
предварительной обработки данных
Фактор |
|
|
… |
|
Глубина погружения |
|
|
… |
|
Шаг 2. Из полученного множества факторов
С одной стороны набор правил рассматривает возможность исключения некоторых малозначащих факторов для сохранения большего размера глубины погружения всего временного ряда. С другой стороны, набор правил рассматривает возможность сокращения размера глубины погружения всего временного ряда для учета в модели наиболее важных факторов из множества G', для которых
Таблица 2
Сведения, полученные на шаге 2
предварительной обработки данных
Фактор |
|
|
… |
|
Глубина погружения |
|
Шаг 3. Выполняется обработка данных в зависимости от требований к форме получения результата прогноза:
а) для получения на выходе прогнозной модели в качестве результата информации о характере динамики изменения исследуемого процесса трудоустройства на период упреждения (т.е. оказывается достаточным прогнозировать только знак приращения), дальнейшую предобработку данных временного ряда необходимо провести по правилу:
где
б) для получения на выходе прогнозной модели значения, определяющего величину динамики изменения исследуемого процесса востребованности специалистов на период упреждения, необходимо в качестве значений факторов модели прогнозирования использовать не конкретные значения соответствующих им показателей в каждый отдельный временной период, а их приращения за последовательные временные периоды. В связи с этим предобработка исходных данных будет заключаться в следующем преобразовании: от данных
Шаг 4. Для увеличения размера временного ряда необходимо брать приращения не только за последовательные, а за все возможные комбинации периодов
В связи с этим предобработка исходных данных будет заключаться в следующем преобразовании: от данных
При проведении такой обработки данных сведения о динамике не теряются, однако при этом необходимо учитывать в модели уменьшающуюся степень достоверности таких рядов данных, а также степень устаревания данных. Для чего в модель введены коэффициенты достоверности и устаревания:
Таблица 3
Сведения, полученные на шаге 4 предварительной обработки
№ набора |
i=2..10 |
r=1..9 |
i – r |
|
|
|
1 |
2 |
1 |
1 |
1 |
1 |
1 |
2 |
3 |
1 |
2 |
0,5 |
0,5 |
0,25 |
... |
… |
… |
… |
… |
… |
|
|
9 |
8 |
1 |
1 |
0,125 |
0,125 |
|
10 |
1 |
9 |
|
|
|
... |
… |
… |
… |
… |
… |
|
|
10 |
8 |
2 |
0,5 |
0,125 |
0,0625 |
|
|
9 |
1 |
1 |
0,111 |
0,111 |
Шаг 5. При решении задачи нахождения аппроксимируемой функции, описывающей распознаваемую ситуацию с заданным условием оптимизации, должны учитываться такие характеристики временного ряда, как полнота, равномерность, противоречивость и повторяемость [10]. Для получения возможности анализа этих характеристик предлагается проведение кластеризации по значениям независимых переменных, что позволит создать определенные правила, с помощью которых в дальнейшем можно относить объекты к различным классам или к одному классу. При этом объекты группируются, исходя из их сходства, или близости [5]. Полнота выборки, представляющей собой наборы временного ряда, определяется обеспеченностью классов обучающими наборами. Равномерность выборки показывает, насколько равномерно распределены наборы по классам, а повторяемость - показатель, характеризующий количество одинаковых наборов в рамках одного класса. Противоречивыми считаются наборы временного ряда, описывающие одинаковые ситуации (значения независимых переменных которых имеют сходство), но зависимая переменная имеет разные значения [10].
Естественно, что чем больше в обучающей выборке присутствует наборов, для которых входные векторы близки друг к другу, а выходные далеки (противоречивость) и чем ниже полнота задания временного ряда, тем труднее провести процесс построения математической модели прогнозирования. Поэтому основными требованиями к временному ряду являются характеристики непротиворечивости и полноты задания его значений. Решение задачи снижения противоречивости наборов временного ряда для исключения из неё противоречивых и резко выделяющихся из всех остальных данных на данном шаге проводится с помощью кластерного анализа, который проводится в 2 этапа: разделение наборов временного ряда на классы и устранение противоречивости данных.
Для разделения наборов временного ряда на классы, количество которых заранее известно использован метод K-средних [5], в основе которого использован алгоритм, представляющий собой итерационную процедуру. На каждой итерации происходит изменение границ классов и смещение их центров. В результате минимизируется расстояние между элементами внутри классов. Остановка алгоритма производится тогда, когда границы классов и расположения центроидов не перестанут изменяться от итерации к итерации.
В результате выполнения этого этапа получено распределение наборов временного ряда по классам на основе значений независимых переменных.
Для устранения противоречивости применяется искусственное сближение выходных значений зависимых переменных для наборов временного ряда, размещенных в одном классе, значения независимых переменных которых имеют сходство. Рассмотрим 2 способа решения задачи устранения противоречивости данных временного ряда для отдельно взятого класса, в котором определено m наборов данных.
1 способ Выходное значение зависимой переменной cv' v-го набора отдельного класса (где v=1..m, m – количество наборов класса) будет рассчитываться как среднее выходных значений всех m наборов, размещенных в этом классе, взвешенное по функции от расстояния до входного v-го набора значений класса:
- существовать и быть неотрицательной на всем множестве возможных значений расстояния;
- убывать с увеличением расстояния;
- в зависимости от некоторого параметра α изменять скорость убывания. Параметр α задает степень упрощения исходной выборки.
Одной из наиболее известных и широко применяемых функций, удовлетворяющих перечисленным условиям, является функция Гаусса [10], которую и предлагается использовать в качестве взвешивающей. Таким образом, весовые коэффициенты в формуле (3) будут вычисляться следующим образом:
Функция Гаусса принимает свое максимальное значение, равное единице, при
В результате будет получено искусственное сближение выходных значений наборов, входные значения которых близки между собой. При использовании такого подхода обработки временного ряда количество наборов остается прежним, но противоречивость при этом несколько устранена.
2 способ Можно провести усреднение выходных значений наборов внутри каждого класса с учетом коэффициентов устаревания данных и достоверности данных, введенных в рассмотрение на шаге 4, используя методы усреднения, учитывающие частоту, например как средняя арифметическая взвешенная. При этом количество наборов временного ряда сократится до количества выделенных классов. Это может быть неплохо только в том случае, если в результате данные временного ряда останутся достаточно полными, т.е. для каждого класса есть выходное значение. В этом случае, задача определения неизвестных значений параметров отпадает – при получении нового набора решается задача классификации, определяющая к какому классу из существующих он больше всего подходит.
Шаг 6. Оценка эффективности проведенной предобработки данных временного ряда проводится с помощью соотношения (5), в теории непрерывных функций называемого константой Липшица [11], которая для пары наборов значений
Сложность воспроизведения всего временного ряда может быть получена расчетом среднего или максимального и минимального значений
Выводы. При моделировании временного ряда, используемого для оценки востребованности специалистов, в работе была учтена возможность возникновения ряда характерных трудностей, затрудняющих моделирование, а также приведены подходы к их устранению, а именно:
- развитие экономических процессов и явлений происходит непрерывно, но реально исследовать можно лишь дискретные по времени значения показателей рынка труда. Так как в исследованиях в качестве временного интервала выбран один год, то выборка содержит сравнительно немного элементов (небольшую глубину погружения в историю). Предложен подход увеличения размера существующей выборки на исследуемом интервале T, на основе которой выполняется моделирование;
- поскольку характерной чертой временного ряда является существенность порядка наблюдения, то в модель введены коэффициенты устаревания и достоверности;
- экономические ряды динамики часто являются сильно автокоррелированными. Это учитывается при формировании группы наиболее значимых факторов в наборе правил вывода.
1. Afanas'ev V.N., Yuzbashev M.M. Analiz vremennyh ryadov i prognozirovanie: Uchebnik. M.: Finansy i statistika, 2001. 228 s.
2. Lazebnaya E.A. Metody i algoritmy resheniya zadachi prognozirovaniya v sisteme upravleniya planirovaniem podgotovki specialistov // Pribory i sistemy. Upravlenie, kontrol', diagnostika. Ezhemesyachnyy nauchno-tehnicheskiy zhurnal. 2014. № 11. C. 65-71.
3. Lukashin Yu.P. Adaptivnye metody kratkosrochnogo prognozirovaniya vremennyh ryadov. M.: Finansy i statistika, 2003. 415 s.
4. Lazebnaya E.A., Lazebnaya I.A. Zadachi i informacionnoe napolnenie sistemy prognozirovaniya potrebnosti v trudovyh resursah // Sodeystvie professional'nomu stanovleniyu lichnosti i trudoustroystvu molodyh specialistov v sovremennyh usloviyah: sb. materialov V Mezhdunar. zaochnaya nauch.-prakt. konf., Belgorod : Izd-vo BGTU, 2013. S. 22-28.
5. Bol'shakov A.A., Karimov R.N. Metody obrabotki mnogomernyh dannyh i vremennyh ryadov. M.: Goryachaya liniya-Telekom, 2007. 522 s.
6. Barsegyan A.A., Kupriyanov M.S., Stepanenko V.V. Holod I.I. Metody i modeli analiza dannyh: OLAP i Data Mining: ucheb. posobie. SPb.: BHV-Peterburg, 2004. 331 s.
7. Chubukova I.A. Data Mining: ucheb. posobie. M.: BINOM. Laboratoriya znaniy, 2006. 324 s.
8. Gavrilova T.A., Horoshevskiy V.F. Bazy znaniy intellektual'nyh sistem: ucheb. posobie dlya vuzov. SPb.: Piter, 2001. 384 s.
9. Ballod B.A., Elizarova N.N. Metody i algoritmy prinyatiya resheniy v ekonomike. SPb.: Finansy i statistika, 2009. 224 s.
10. Tarasenko R.A., Krisilov V.A. Predvaritel'naya ocenka kachestva obuchayuschey vyborki dlya neyronnyh setey v zadachah prognozirovaniya vremennyh ryadov // Trudy Odesskogo politehnicheskogo universiteta. 2001. Vyp.1. S. 90-93.
11. Caregorodcev V.G. Predobrabotka obuchayuschey vyborki, vyborochnaya konstanta Lipshica i svoystva obuchennyh neyronnyh setey / Neyroinformatika i ee prilozheniya: sb. materialov H Vseross. seminara // Krasnoyarsk, 2002. S.146-150.