Функционал системы
A2P (далее Система) предоставляет набор инструментов для создания, настройки и продуктивизации моделей машинного обучения.
С помощью Системы Data Scientist (далее Пользователь) может проводить загрузку и обработку данных, разрабатывать модели, визуализировать результаты анализа и обеспечивать вывод разработанных моделей в эксплуатацию. Система позволяет тестировать и внедрять модели в промышленный контур (с помощью CI/CD процессов). Также предоставляется возможность контролировать и управлять жизненным циклом моделей машинного обучения.
Система обладает гибким функционалом и легкостью масштабирования вычислительных ресурсов и мониторинга. Для того, чтобы обеспечить пользователей необходимым набором инструментов, в систему включены ряд функциональных модулей и областей, среди которых основными являются:
- Инструменты анализа данных (на основе JupyterHub и JupyterLab);
- Среда исполнения моделей (на основе Airflow);
- Инструмент MLflow для логирования данных ML моделей (параметры, метрики, артефакты);
- Хранилище Minio S3 для нетекстовых (например, .pkl файлы) и/или больших по объему файлов;
- Репозиторий для кода модели и сопутствующих файлов в Gitlab.
Благодаря этим компонентам Пользователю предоставляются следующие возможности:
- Выбирать и запускать серверы Jupyter Notebook c заданным набором предустановленных программ, интерпретаторов, библиотек и фреймворков;
- Выбирать и запускать серверы Jupyter Notebook c заданным набором вычислительных ресурсов (количество виртуальных процессоров, объем памяти, расчет на CPU или GPU);
- Работать в привычной для Data Science специалиста среде Jupyter Notebook и автоматически сохранять разработанный код в репозиториях git;
- Проводить эксперименты с моделями машинного обучения; отслеживать результаты и метаданные с помощью удобных специализированных web-инструментов;
- Создавать и управлять жизненным циклом проектов машинного обучения;
- Упаковывать код в контейнер и размещать его в выделенном контуре для проверки работоспособности, тестирования, отладки и дальнейшего вывода в контур промышленной эксплуатации;
- Отслеживать ход выполнения рабочих процессов и получать доступ к сопутствующим артефактам.