Мы используем cookie файлы.
Пользуясь сайтом, вы соглашаетесь с нашей Политикой конфиденциальности.

Приглашенный ученый Климентов Алексей Анатольевич Швейцария
Номер договора
14.Z50.31.0024
Период реализации проекта
2014-2018

По данным на 30.01.2020

52
Количество специалистов
292
научных публикаций
25
Объектов интеллектуальной собственности
Общая информация

Мегаустановки в современном научном ландшафте - свидетельство научного потенциала, конкурентоспособности страны и элемент национальной безопасности. Но беспрецедентные объемы данных масштаба петабайтов, сгенерированные в проектах класса мегасайнс, предъявляют новые требования к компьютерным наукам и информатике. Сотрудники лаборатории работают над новыми решениями для управления, анализа и обработки данных. Таким образом создание лаборатории позволит разрабатывать и использовать технологии, алгоритмы и программное обеспечение для широкого класса мегапроектов, как в России, так и в международном сотрудничестве.

Название проекта: Технологии больших данных для проектов в области мегасайенс

Приоритет СНТР: а


Цели и задачи

Направления исследований: Большие данные, мегасайенс

Цель проекта: Создание лаборатории BigData технологий в НИЦ «Курчатовский институт» (НИЦ КИ) для исследований и разработок в области обработки и анализа сверхбольших объемов данных

Практическое значение исследования

Научные результаты:

  • Создана и введена в эксплуатацию система управления загрузкой в распределенной компьютерной среде для экспериментов класса мегасайенс. Система уникальна по своим параметрам: в эксперименте «ATLAS» система управляет более чем 2 млн вычислительных задач в день (в среднем более 30М задач в месяц) в гетерогенной компьютерной среде, состоящей из более чем 150 ВЦ на более чем 300 тысяч узлов одновременно, включая системы грид, облачных вычислений и суперкомпьютеры.
  • Создана и работает платформа сервисов для запусков заданий в гетерогенной компьютерной среде. Введен в эксплуатацию единый портал для запуска научных приложений в гетерогенной компьютерной среде, в том числе для приложений биоинформатики: информационные технологии, изначально разработанные для приложений физики высоких энергий (ФВЭ), были использованы в биоинформатике. Подобная работа проводилась впервые в мире. Выполнены расчеты ДНК «древнего мамонта» на суперкомпьютере НИЦ КИ. Скорость выполнения расчетов увеличена в 4 раза за счет использования разработанных алгоритмов и созданной программной среды.
  • Создан прототип федеративной инфраструктуры хранения данных (ПИЯФ / НИЦ КИ / СПбГУ / ЦЕРН / ОИЯИ) и проведены исследования эффективности восстановления траков детектора переходного излучения эксперимента «АТЛАС» в условиях высокой загрузки БАК и программы отбора событий для тяжелоионного эксперимента «АЛИСА». Данные были распределены между географически удаленными центрами, но для пользователя инфраструктура выглядит как единое дисковое пространство. Работа не имеет аналогов в России и мире.
  • Предложена идея и архитектура «базы научных знаний» для экспериментов класса мегасайенс, которая позволит хранить метаинфорамцию на всех «этапах жизни» научного эксперимента: от выдвижения гипотез, создания модели и прототипа элементов детектора, выбора инженерного решения, моделирования физических процессов, до выполнения задач обработки и анализа данных, получения результатов, их обсуждения и публикации. Для «базы знаний» разработан прототип системы интеграции и индексирования метаинформации из различных внешних источников данных эксперимента «АТЛАС» на базе технологии ElasticSearch.
  • Предсказаны аномалии в работе и поведение распределенной системы обработки данных с использованием алгоритмов «машинного обучения». Руководство консорциума WLCG создало исследовательский проект для использования данной технологии тремя экспериментами на БАК (ATLAS, CMS, LHCb). Руководители проекта: А. Климентов (НИЦ КИ) и S. Roiser (CERN). Компания «Яндекс» предложила вести совместные работы по этой тематике, используя данные, имеющиеся у Лаборатории.
  • Создан первый прототип географически распределенного хранилища данных, состоящего из центров ЦЕРН и RDIG: «академическое облако» в составе интегрированной связки гетерогенных компьютерных мощностей, таких как суперкомпьютер, университетский кластер, грид с организацией общего дискового пространства внутри «облака». Было продемонстрировано, что такая система хранения может быть эффективно использована для обработки и анализа данных научными приложениями LHC. Моделирование работы федерации было проведено для реальных ВЦ, входящих в RDIG, и реальных научных приложений экспериментов «АТЛАС» и «АЛИСА», для различных сценариев распределения наборов данных.
  • Предложена концепция и архитектура Российского озера научных данных для экспериментов на Большом адронном коллайдере и на нуклотроне NICA.
  • Разработана методика применения алгоритмов «машинного обучения» для аналитической системы контроля, которая нацелена на выявление возможного отказа или сбоя системы распределенной обработки и анализа данных. Определены критические параметры и процессы, контролирование и анализ которых позволит оценить и спрогнозировать состояние системы. Разработан пакет программ для предсказания времени выполнения вычислительных заданий.
  • Реализован новый модуль программной инфраструктуры системы управления загрузкой и данными в гетерогенной компьютерной среде – Harvester, который предоставляет унифицированный доступ к различным вычислительным ресурсам, независимо от их типа, архитектуры и внутренних политик. Сервис оптимизирует работу системы и процесс запуска заданий в гетерогенной вычислительной среде.

Внедрение результатов исследования:

Система megaPanDA рассматривается как основной вариант программного обеспечения для управления и обработки данных на коллайдере NICA (ОИЯИ, Дубна) и в эксперименте COMPASS на ускорителе SPS (Super Proton Synchrоtron, ЦЕРН), IceCube, DESC.

Образование и переподготовка кадров:

  • Подготовлена двухлетняя магистерская программа (Аналитика и управление большими данными) по большим данным на основе результатов работ Лаборатории (совместно с Государственным университетом «Дубна» и Томским политехническим университетом).

  • Разрабатывается курс по большим данным совместно с факультетом НБИКС МФТИ, курс читается с 2015 года. В НИЯУ МИФИ читается курс по большим данным и методам обработки данных в ФВЭ.

  • Защиты: 6 докторских диссертаций, 10 кандидатских диссертаций.

  • Проведена Международная молодежная научная школа-конференция по распределенным гетерогенным вычислительным инфраструктурам (The International School on Heterogeneous Computing Infrastructure) для студентов и аспирантов российских университетов (2017 г.).

  • Проведена Международная школа по использованию больших данных в подготовке и проведении работ в рамках проектов мегамасштабов – «Грид и административно управленческие системы ЦЕРН» (2015 г.).

  • Проведена Первая международная конференция-школа «Проблемы обработки, анализа и управления большими данными в распределенной гетерогенной компьютерной среде для высокоинтенсивных областей науки и бизнес-приложений». Школа была призвана познакомить студентов и аспирантов с последними разработками в области IT: с созданием гетерогенного вычислительного пространства, применением методов «машинного» и «глубинного» обучения для поиска аномалий в работе сложных систем, проблемами презервации научной информации (2016 г.).

Организационные и инфраструктурные преобразования:

На базе Центра обработки данных НИЦ «Курчатовский институт» создан объединенный вычислительный кластер, на котором производится реализация и отладка разрабатываемых программных систем, в том числе для приложений биоинформатики.

Сотрудничество: ЦЕРН (Швейцария), Университет Техаса в Арлингтоне (США), Университет Ратгерс (США), Университет Осло (Норвегия), Брукхейвенская национальная лаборатория (США), DESY (Германия), Университет Любляны (Словения), Университет Франкфурта (Германия), Томский политехнический университет (Россия), НИЯУ МИФИ (Россия), Объединенный институт ядерных исследований в Дубне (Россия), компания Google: совместные исследования

Скрыть Показать полностью
Климентов А., Кирьянов А., Зароченцев А.
Российское озеро научных данных. Открытые системы. СУБД 4 (2018).
Klimentov A., Grigorieva M., Kiryanov A., Zarochentsev A.
BigData and Computing Challenges in High Energy and Nuclear Physics. Journal of Instrumentation 12(06): C06044 (2017).
Grigoryeva M., Golosova M., Klimentov A., Borodin M., Alekseev A., Tkachenko I.
Indexing of ATLAS Data Management and Analysis System Metadata. CEUR Workshop Proceedings. Selected Papers of the 26th International Symposium on Nuclear Electronics and Computing (NEC 2017) 2023: 82–87 (2017).
De K., Klimentov A., Maeno T., Mashinistov R., Novikov A., Poyda A., Tertychnyy I., Wenaus T.
HEP Computing Tools, Grid and Supercomputers for Genome Sequencing Studies. Journal of Physics. Conference Series 898(5): 052018 (2017).
Zarochentsev A., Kiryanov A., Klimentov A., Krasnopevtsev D., Hristov P.
Federated Data Storage and Management Infrastructure. Journal of Physics: Conference Series 762(1): 012016 (2016).
Фотоальбомы
Вторник , 03.12.2019
Другие лаборатории и ученые
Лаборатория, принимающая организация
Область наук
Город
Приглашенный ученый
Период реализации проекта
Нейроморфные оптические системы

Федеральное государственное учреждение «Федеральный научно-исследовательский центр «Кристаллография и фотоника» Российской академии наук»

Компьютерные и информационные науки

Шатура

Бычков Евгений Алексеевич

Россия

2019-2021

Вычислительно-информационный исследовательский центр (C&IRC)

Федеральное государственное бюджетное учреждение науки Институт прикладной математики Дальневосточного отделения Российской академии наук

Компьютерные и информационные науки

Владивосток

Окадзима Джунносуке

Япония

2019-2021

Центр биоэлектрических интерфейсов

Федеральное государственное автономное образовательное учреждение высшего образования «Национальный исследовательский университет «Высшая школа экономики», Институт когнитивных нейронаук НИУ ВШЭ

Компьютерные и информационные науки

Москва

Лебедев Михаил Альбертович

США, Россия

2018-2020