Abstract and keywords
Abstract (English):
Data science is an interdisciplinary area used to extract, visualize, analyze and generate knowledge from data. The professionals in this area require a combination of mathematic, statistics, IT-competences in order to successfully develop data analysis projects where there is a growing demand of data professionals to apply their knowledge effectively to diverse areas from business to government, academia and non-profit organizations.

Keywords:
data science, competences, machine learning, professionalism
Text

Наука о данных это междисциплинарная область, призванная извлекать,

визуализировать и генерировать знания из данных. Она включает в себя

применение  компетенций  в  области  статистки,  высшей  математики,

информационных технологий. И, если ранее наука о данных могла быть

представлена в качестве одной из комплексных технологий, используемых только

компаниями или исследовательскими центрами, то в наше время эту науку трудно

не применять (вытеснить или не заметить) в повседневной жизни [4].

Рассмотрим деятельность специалиста в области науки о данных для

поступательного изучения необходимых знаний и навыков в рамках содержания

профессиональной активности. В данной статье мы разделим компетенции,

требуемые профессионалу в данной области на специфические и общие

(междисциплинарные).

Для выявления специфических компетенций специалистов в области

больших данных необходимо подробно рассмотреть состав профессиональной

деятельности и операций, выполняемых данными специалистами в процессе ее

реализации. Наука о данных требует множества шагов, один из которых -

получение данных; этот шаг требует объединения всех данных, которые подлежат

анализу. Они могут поступать из баз данных или из различных источников, к

примеру, извлечение цен или поиск одного из множества образцов с различных

интернет-сайтов («web scarping»), извлечение текста из статей или сбор данных

для различных баз данных. Данные могут быть представлены в различных

форматах, не только в виде текста или цифр, но также в виде изображений, видео

и звуков.

Очистка данных относится к воспроизводству последовательных форматов

данных, без пропуска значений, однако, когда это не представляется возможным,

пропущенные значения должны быть соответственным образом отмечены или

удалены (перед оценкой влияния этих действий на структуру данных). Основной

вариант представления данных - это соответствие каждого ряда набора данных

соответствующим  переменным  и  каждой  строки  -  соответствующему

наблюдению [2].

Трансформация данных может подразумевать генерацию подмножества

данных (например, выбор покупателей специфического возраста), генерацию

новых переменных (например, вычисление индекса массы тела списка людей,

используя данные о их весе тела и росте) и генерация статистических генерация

статистических величин, к примеру таких, как средние значения.

Визуализация данных помогает получить представление об основных

трендах и тенденциях в данных, которые могут быть использованы для

составления гипотез или вопросов. Для старта работы в этом направлении не

существует каких-либо специфических методов. Диаграммы, гистограммы,

диаграммы рассеяния (2D/3D), наборы структурированных данных («tree map»,

«heat map» и другие являются типичными методами, однако, данные следует

47

представлять  используя  множество  методов,  комбинируя  различные

подмножества данных и нормализуя их в случае необходимости [3].

Моделирование данных позволяет дать ответ на ранее сформулированный

вопрос,  этот  шаг требует нескольких итераций  в последовательности,

направленной на усовершенствование модели. В целом данные разделяют на 2

части, определяя 80% данных к генерированию модели и 20% данных - к

тестированию данной модели.

Системная последовательность данных операций (рисунок 1).

Рис. 1 Общая схема системной последовательности операций специалиста в

области науки о данных

В итоге, представление результатов обобщает проделанную работу. Очень

часто в бизнесе целевая аудитория, осуществляющая запрос на работу

специалиста в области науки о данных - это люди, не специализирующиеся в

области науки о данных (к примеру, менеджеры или директора), которые требуют

быстрого и четкого ответа на свой запрос для того, чтобы принять решение,

основывающееся на запрошенной информации [1]. Наука о данных требует

использование множества дисциплин с целью создания нового знания. Это в

большинстве случаев следует из использования разнообразных методов

машинного обучения («machine learning methods»). Машинное обучение - это вид

искусственного интеллекта, в котором компьютеры применяют сгенерированные

программы с целью изучения анализа данных, таким образом, что данные

программы могут расти и эволюционировать при возникновении новых данных.

Если используемые данные превышают емкость запоминающего устройства

машины (на жестком диске или в памяти), то они могут быть рассмотрены в

качестве больших объемов данных (например, больше, чем один терабайт). Это

требует использования нескольких компьютеров и дополнительных методов для

разделения данных на более мелкие части для обработки и интеграции

результатов.  «Hadoop»  является  общим  программным  обеспечением,

используемым в данном случае [7].

Специфические знания из области науки о данных в процессе овладения

ими и применения их специалистами, работающими в реальном секторе

48

экономики, переходят в область каждодневных показателей, отражающих жизнь

людей. В качестве примера здесь может служить анализ уровня зарядки

мобильных телефонов, представленный специалистами в области больших

данных по запросу услуг такси Убер («Uber») - так, исследование помогло

установить, что клиенты с низким уровнем зарядки телефонов с гораздо большей

вероятностью соглашались на более высокую стоимость услуг такси [6]. К

примерам применения науки о данных в реальной жизни можно также отнести

прогноз погоды, анализ настроения и чувств людей на основе их постов в

социальных сетях или вычисление возможности встретить определенного

человека в определенном месте, основанной на данных, полученных из его

мобильного устройства.

Рисунок ниже демонстрирует базовую диаграмму Венна, позволяющую

выявить сферы, используемые в науке о данных. Выделенные области являются

базовыми областями знаний и компетенций специалистов, работающих в сфере

науки о данных: Data Science - наука о данных, Data Mining - сбор данных,

Artificial Intelligence - искусственный интеллект, Machine Learning - машинное

обучение, Big Data - большие данные. Все эти направления формируют

специфический профиль знаний специалиста и направления его специфического

профессионального развития и постоянного обновления знаний. 

Рисунок 2. Сферы научного

знания,  включающие  поле

компетенций специалиста в

области науки о данных.

Специалисты в области

данных  должны  обладать

широким  профилем

компетенций,  высоким

уровнем знания математики и

статистики  (статистическое

моделирование,  Байесовский

вывод, алгебра). Одним из

важных  аспектов  является

знание  языка

структурированных  запросов

(SQL), а также управление

базами  данных

неструктурированных запросов

(noSQL).

Такие языки программирования, как «R» и «Python» являются очень

популярными среди языков программирования, используемых в области науки о

данных, они являются бесплатными и расположены в открытых источниках,

таким образом их наиболее легко можно подстроить под специфические

требования. Также оба из них включают в себя широкое разнообразие библиотек

Data

Artificial Intelligence Data

Mining

Machine

Learning

Big Data

49

для различных целей, включающих машинное обучение, анализ временных рядов,

анализ текста, анализ изображений, количественный финансов.

Современные условия предоставляют широкий спектр возможностей

обучения и самообучения для молодых людей, желающих выстроить карьеру в

направлении науки о данных, а также постоянного развития для уже

состоявшихся специалистов, реализующих себя в данной сфере.

Таким  образом,  мы  можем  составить  определенный  конструктор

специфических  знаний  и  компетенций,  требующийся  для  развития

профессионализма в данной области. С учетом особенностей компетентностного

подхода мы можем утверждать, что любые специфические компетенции

напрямую  связанные  с  междисциплинарными,  общими  компетенциями,

требуемые специалистам, работающим в данной области. К примере, мы можем

отметить, что представленная на рисунке 1 последовательность операций, наряду

со специфическими данными требует от специалиста наличия таких качеств и

компетенций, как аналитический склад ума, умение работать с большим

количеством  информации,  внимательность,  системность  мышления.

Профессионалы в области данных также должны понимать основы бизнес-

мышления и взаимодействия с клиентом, так как применение используемых ими

методов в результате находит отражение в практической деятельности компаний

в реальном секторе экономики. Среди важных факторов также можно отметить

коммуникационные  и  презентационные  навыки  [2],  необходимые  для

выстраивания успешной карьеры, налаживания профессиональных связей,

эффективного взаимодействия с работодателем и клиентами.

Ежедневно растет количество данных, генерируемое в интернете, с

помощью различных инструментов и транзакций, мобильных устройств. Этот

тренд будет только усиливаться, количество данных будет постоянно расти, что

повлечет увеличение спроса на профессионалов в области данных и применения

их компетенций в различных областях от бизнеса до государства, в

академических и некоммерческих организациях. Вместе с тем, это увеличит и

требования к качеству знаний и компетенций специалистов в данной области,

будет требовать от них неустанного развития компетенций и совершенствования

в качестве профессионалов.

References

1. Foster Provost, Tom Fawcett (2013) Data Science for Business: What you need to know about data mining and data-analytic thinking

2. Hadley Wickham, Garrett Grolemund (2016) R for Data Science.

3. Joe Larson (2015) Data Science in the Cloud with Microsoft Azure Machine Learning and R

4. Lillian Pierson (2015) Data Science For Dummies, 1st Edition

5. Probably Overthinking It [Elektronnyy resurs] URL: http://allendowney.blogspot.com/2015/03/bayesian-survival-analysis-for-game-of.html

6. The Telegraph. Business [Elektronnyy resurs] URL: http://www.telegraph.co.uk/business/2016/05/22/uber-app-can-detect-when-a-users-phone-is-about-to-die/

7. Vignesh Prajapati (2013) Big Data Analytics with R and Hadoop Ebook

Login or Create
* Forgot password?