Data Science: интеграция науки о данных в систему высшего образования
Журналист
Журналист

Юрий Семерич,инженер МНПК «Росоператор»

Предлагаем читателя портала интересный материал, большой по объему, но весьма достойный для ознакомления.



Последняя четверть XX века считается началом нового этапа развития человечества. Называть такой этап принято информационным обществом, так как определяющую роль в развитии общества приобретает информация и её высшая форма — знания.

Информация становится главным продуктом деятельности человека и получает приоритет перед всеми другими, в том числе добычей и переработкой полезных ископаемых. В информационном обществе продуктивность информационного сектора экономики преобладает над производственным сектором и сферой услуг, а воспроизводство материальных ценностей характеризуется информационной ёмкостью за счёт включения в их стоимость доли инноваций, дизайна, маркетинга и т.д.

Формирование информационного общества произошло в период значительных достижений научно-технического прогресса, который ознаменовался началом информационной революции. К этому времени была освоена микропроцессорная технология изготовления вычислительной техники, появились персональные компьютеры и компьютерные сети, стремительное развитие получили языки программировании и прикладное программное обеспечение, искусственный интеллект и робототехника. Информационные и телекоммуникационные технологии проникли во все сферы общественной жизни — социальную, экономическую, политическую и духовную.

В 2003 г. в Женеве состоялась Всемирная встреча на высшем уровне по вопросам информационного общества, в результате которой была принята Декларация принципов «Построение информационного общества — глобальная задача в новом тысячелетии».

В первом разделе Декларации говорится следующее:

«Мы, представители народов мира, собравшиеся в Женеве 10-12 декабря 2003 года для проведения первого этапа Всемирной встречи на высшем уровне по вопросам информационного общества, заявляем о нашем общем стремлении и решимости построить ориентированное на интересы людей, открытое для всех и направленное на развитие информационное общество, в котором каждый мог бы создавать информацию и знания, иметь к ним доступ, пользоваться и обмениваться ими с тем, чтобы дать отдельным лицам, общинам и народам возможность в полной мере реализовать свой потенциал, содействуя своему устойчивому развитию и повышая качество своей жизни на основе целей и принципов Устава Организации Объединенных Наций и соблюдая в полном объёме и поддерживая Всеобщую декларацию прав человека».

Спустя менее трех лет 27 марта 2006 года Генеральная ассамблея ООН принимает Резолюцию под номером A/RES/60/252, которая провозглашает 17 мая Международным днём информационного общества. Таким образом, значимость проблематики информатизации общества приобретает принципиально иной, мировой, глобальный уровень.
 Информация ещё никогда раньше не была так важна для общества как с началом нового этапа в его развитии. Из-за спроса на интеллект и знания, от человека в первую очередь требуется способность к творчеству, увеличивается доля умственного труда.

Первыми работами в области обработки больших данных можно считать работы американского учёного Г.И. Пятецкого-Шапиро, который в 1989 г ввёл понятие Data Mining в связи с разработкой правил для ускорения запросов к крупным базам данных. Переводится Data Mining как Интеллектуальный Анализ Данных или кратко — Добыча Данных, а понимается под этим понятием совокупность методов нахождения в «сырых» данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Впоследствии Data Mining превратился в один из этапов процесса поиска знаний, который получил название Knowledge Discovery in Databases, что переводится как Обнаружение Знаний в Базах Данных. Другими этапами этого процесса являются — подготовка данных, выбор информативных признаков, очистка данных, постобработка данных и интерпретации полученных результатов.

Основу методов Data Mining составляют всевозможные методы классификации, моделирования и прогнозирования, основанные на применении деревьев решений, искусственных нейронных сетей, генетических алгоритмов, эволюционного программирования, ассоциативной памяти, нечёткой логики.

Кроме этого, к методам Data Mining также относят такие статистические методы как дескриптивный анализ, корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ, компонентный анализ, дискриминантный анализ, анализ временных рядов, анализ выживаемости, анализ связей и др. Результаты вычислений методами Data Mining имеют наглядное представление в графическом виде, а для их получения с помощью статистических методов требуется серьёзная математическая подготовка.

Задачи, решаемые методами Data Mining, делятся на две группы:
  • описательные, когда требуется дать наглядное описание имеющихся скрытых закономерностей
  • предсказательные, у которых на первом плане стоит вопрос о предсказании для тех случаев, для которых данных ещё нет.
Широкое распространение методы Data Mining получили главным образом в коммерческой сфере, например, в розничной торговле при анализе покупательской корзины (анализ сходства), при создании товарных запасов с помощью прогнозирующих моделей, на рынке кредитования для повышения эффективности как процессов кредитного скоринга и целевого маркетинга, так и процессов сбора просроченной задолженности и т.д.

Кроме этого, с помощью Data Mining успешно решаются задачи в области безопасности, страхования, телекоммуникации, медицины, автомобильной промышленности, молекулярной генетики и генной инженерии, прикладной химии и других областях.

Среди перспективных направлений Data Mining можно выделить такое, которое связано с разработкой систем анализа текстов и потому названное Text Mining. Успешное развитие технологий в этом направлении позволит разработать системы, способные сдавать экзамены на понимание текста, например, GRE, GMAT, SAT и другие, что по сложности превзойдёт известный тест Тьюринга.

Развитие технологий работы с большими данными способствовало формированию академической дисциплины Data Science, которая ещё рассматривается как практическая межотраслевая сфера деятельности. Термин Data Science получил широкое распространение благодаря статье профессора У. Кливленда из университета Пердью и переводится как Наука о Данных .

На сегодняшний день основное определение Data Science гласит, что это есть обобщённое название технологий, которые предназначены для производства данных как продукта.

В связи с этим Data Science изучает проблемы анализа, обработки и использования данных в цифровой форме. Для этих целей используются методы по обработке данных в условиях больших объёмов и высокого уровня параллелизма, статистические методы, методы интеллектуального анализа данных, приложения искусственного интеллекта для работы с данными, а также методы проектирования и разработки баз данных.

Кроме этого, интерес к Data Science был вызван ещё и появлением парадигмы Big Data (переводится как Большие Данные), которая фокусируется на новых технологических возможностях обработки структурированных и неструктурированных данных огромных объёмов, распределённых по многочисленным узлам вычислительных сетей. Термин Big Data был предложен К. Линчем в 2008 г. по аналогии с такими метафорами, как Big Oil (Большая Нефть) и Big Ore (Большая Руда), редактором специального выпуска журнала Nature с темой «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объёмами данных?». В настоящее время имеется достаточное количество литературы по теме Data Science и Big Data, в том числе на русском языке.

Самым масштабным и успешным примером использования технологии Big Data на практике является президентская кампания США в 2016 г.  Можно с уверенностью утверждать, что победу Д. Трампа обеспечила малоизвестная лондонская фирма Cambridge Analytica, которую возглавляет А.Дж.Э. Никс. Эта фирма связана с компанией Strategic Communications Laboratories, являющейся глобальной компанией по управлению предвыборными кампаниями. На её счету результаты референдума о выходе Великобритании из ЕС, кризисы в развивающихся странах, помощь НАТО в разработке методов психологической манипуляции гражданами Афганистана и др.

Методика, которую использовала Cambridge Analytica во время выборов в США, основывалась на трёх составляющих − психологический поведенческий анализ, изучение Big Data и таргетированная реклама. Здесь необходимо особо отметить роль первой компоненты, которая связана с так называемым «методом океана» — стандартом в современной психологии. Исследования в этой области позволили молодому ученому М. Козинскому из Центра психометрии Университета Кэмбриджа разработать и внедрить уникальную модель.

В частности, М. Козинский доказал, что анализа 68 лайков в Facebook достаточно, чтобы определить цвет кожи испытуемого (с 95% вероятностью), его гомосексуальность (88% вероятности) и приверженность Демократической или Республиканской партии США (85% вероятности). Модель оказалась настолько хороша, что стало возможным предугадывать ответы испытуемого на определённые вопросы.

Например, модель смогла лучше узнавать личность после 10 изученных лайков, нежели его коллеги по работе. После 70 лайков — лучше, чем друг. После 150 лайков — лучше, чем родители. После 300 лайков — лучше, чем партнер. С ещё большим количеством изученных действий можно было бы узнать о человеке лучше, чем он сам. По сути, М. Козинский изобрел поисковую систему по людям.

Полученные результаты заинтересовали компанию Facebook и компанию, аффилированную с Strategic Communications Laboratories. Именно на основе модели Козинского в Cambridge Analytica была разработана модель, которая позволила высчитать личность каждого совершеннолетнего гражданина США. По сообщениям СМИ в этом году в открытом доступе оказались данные почти 200 миллионов избирателей США, собранных по заказу республиканцев, а это почти всё население США, имеющее право голоса.

Среди этих данных были указаны имена, дата рождения, телефоны и домашние адреса, а также сведения о политических и религиозных взглядах. Очевидно, что именно эти данные использовались Cambridge Analytica во время проведения предвыборной кампании.

Бурное и стремительное развитие технологий Data Science и Big Data, а также спрос на результаты, полученные на их основе, привели к тому, что многие западные университеты стали вводить в учебный процесс курсы по изучению этих научных направлений. Программы по подготовке специалистов в данных областях имеют ведущие западные вузы. На рынке труда сформировался устойчивый спрос на такую вакансию как Data Scientist. По оценкам международной консалтинговой компании McKinsey Global Institute в ближайшие годы потребуется до полумиллиона человек с профессией Data Scientist и около 4 миллионов человек с профессиями в смежных областях.

Уже сейчас Data Scientist отмечается как одна из самых привлекательных и перспективных профессий в современном мире, специалисты в этой области будут играть ключевую роль в организациях. Важно отметить, что уровень заработной платы специалиста Data Science превышает средний уровень специалиста Computer Science.

Например, по информации сайта Glassdoor, в США этот размер составляет почти $119 тысяч, тогда как средняя зарплата программиста — $64 500.
Анализ как требований, предъявляемых к профессии Data Scientist, так и существующих учебных программ в области Data Science, позволяет выделить следующий перечень разделов квалификации:

- вероятностный и статистический анализ;
- методы оптимизации и генетические алгоритмы;
- языки программирования и структуры данных;
- машинное обучение и искусственные нейронные сети;
- нечёткая логика и нечёткие множества;
- базы данных и хранилища данных;
- параллельные вычисления и параллельное программирование;
- визуализация данных и геометрическое моделирование;
- приложения: Customer Intelligence (анализ информации о клиентах), Business Intelligence & Business Analytics (Бизнес-анализ), Text Mining (анализ текста), распознавание голоса, компьютерное зрение, социальные сети, биоинформатика и др.

Технологический инструментарий, обеспечивающий реализацию данных разделов, вкратце может быть сформулирован в виде:

1) языки программирования Python (включая библиотеки scikit-learn, NumPy, matplotlib), Scala, Java, Erlang, R, MDX;
2) базы данных Hbase, MongoDB, Cassandra, Neo4J и языки запросов NoSQL, NewSQL;
3) фреймворки SPARK, MapReduce, Hadoop (Pig, Hive).
Для более подробного изучения перечисленных технологий и инструментальных средств рекомендуется обратиться к обширному списку литературы на русском языке.

Вопрос подготовки отечественными вузами выпускников по направлению Data Science уровня бакалавриата или специалитета в настоящее время, к сожалению, так до сих пор и не реализован в полной мере. Об этом можно судить по перечню специальностей и направлений подготовки высшего образования, утверждённого приказом Минобрнауки России №1061 от 12.09.2013. Кроме этого, отсутствуют учебные пособия с грифом УМО по данной тематике.

 При этом необходимо помнить, что с 2011 года действует государственная программа «Информационное общество», объём финансирования которой из средств федерального бюджета составляет 1,2 трлн. рублей, в том числе на систему образования. Отдельными попытками исправить ситуацию в этом вопросе можно считать опыт сотрудничества крупных ИТ-компаний с ведущими вузами страны.

Например, компания Яндекс в рамках Школы Анализа Данных совместно с Московским физико-техническим институтом имеет магистерскую программу подготовки специалистов в области анализа больших данных. Кроме этого, в Высшей школе экономики имеется несколько магистерских программа по анализу данных. Так же здесь еще можно назвать магистерские программы Московского государственного университета, Российской академии народного хозяйства и государственной службы при Президенте Российской Федерации и ряда других вузов.

Однако, учитывая срок обучения в магистратуре, который составляет два года, вряд ли можно рассчитывать на всестороннюю и глубокую подготовку специалистов данного профиля. Важно отметить наличие онлайновых и офлайновых курсов по теме Data Science, как платных, так и бесплатных, в том числе на английском языке.

В связи с этим, актуальным является вопрос разработки и внедрения в учебный процесс в системе высшего образования учебных программ уровня бакалавриата и специалитета по направлению подготовки Data Science, причём в кратчайшие сроки, так как изменения в этой области происходят так стремительно, что задержка решения данного вопроса неизбежно приведёт к отставанию от мировых тенденций. Особенно привлекательной выглядит идея реализация учебной программы по Data Science посредством программы Двойной диплом.

В этом случае студенты получат фундаментальную теоретическую подготовку, традиционно считающуюся сильной стороной отечественной системы образования, по изучаемым курсам, а практические навыки по реализации полученных знаний закрепят в западных вузах с использованием современных компьютерных и информационных технологий. К числу преимуществ такого подхода можно считать то, что ведущие западные компании выступают партнерами вузов и предоставляют им программные продукты и технологии для учебных целей.

Решение этих вопросов потребует привлечение чиновников министерства образования, руководителей крупных федеральных вузов, представителей бизнеса и экспертного сообщества с целью обсуждения путей преодоления сложившейся ситуации.

А те задачи, которые ставят перед собой руководители страны в связи с необходимостью перехода к цифровой экономике, реализации технологии блокчейна, внедрения криптовалюты и многие другие — все они самым прямым образом связаны с Data Scienc
Источник фото: https://www.simplilearn.com/

Похожие статьи