«Турбо Облако» представляет платформу инференса ИИ-моделей с поминутной тарификацией и автоматическим масштабированием

Компании могут оценить возможности продукта в тестовом режиме

Источник:kp.ru

Особое внимание уделено работе с ресурсоемкими задачами

Российский облачный провайдер «Турбо Облако», входящий в коммерческий ИТ-кластер «Ростелекома», запустил Inference Platform – платформу для развертывания и эксплуатации моделей искусственного интеллекта. В настоящее время новый продукт доступен для тестирования: компании могут оценить его возможности на собственных моделях.

Современные ИИ-проекты требуют не только доступа к вычислительным мощностям, но и значительных усилий по развертыванию и поддержке инфраструктуры. На практике это увеличивает нагрузку на команды и замедляет внедрение этих проектов. Новый продукт «Турбо Облака» закрывает эти задачи, предоставляя готовый сервис для работы с ИИ-моделями.

Inference Platform поддерживает различные типы моделей, включая open source решения, широко используемые на российском рынке. Пользователи могут загружать собственные модели или использовать контейнерные образы, разворачивая их в облачной среде без дополнительных инфраструктурных настроек.

Сервис обеспечивает автоматическое масштабирование ресурсов (автоскейлинг) в зависимости от нагрузки: при росте количества запросов к модели ресурсы увеличиваются, при снижении — сокращаются вплоть до полной остановки вычислений. Такой подход позволяет оптимизировать использование графических процессоров (GPU) и снизить затраты при нерегулярной нагрузке. Дополнительным преимуществом является поминутная тарификация ресурсов, гарантирующая более точный контроль расходов по сравнению с почасовой оплатой.

Особое внимание уделено работе с ресурсоемкими задачами. Платформа поддерживает распределенный инференс, позволяя запускать модели объемом до одного триллиона параметров с размещением на нескольких вычислительных узлах. Для взаимодействия между узлами используется высокоскоростная сеть (InfiniBand) с минимальной задержкой, позволяющая объединять большое количество серверов и графических ускорителей для дообучения крупных моделей. Также доступно гибкое использование GPU-ресурсов, включая их дробление под задачи меньшего объема.

В основе Inference Platform – графические ускорители NVIDIA H200 SXM, обеспечивающие высокую производительность и необходимый объем видеопамяти для работы с ИИ-нагрузками.

Платформа объединяет работу с моделями разного масштаба – от компактных до ресурсоемких – в единой среде управления. В результате пользователь получает готовый сервис с доступом по URL, который можно интегрировать в существующие бизнес-приложения без изменения архитектуры.

- Спрос на использование ИИ-моделей в бизнесе растет, но для многих компаний основным барьером остается не только развертывание, сопровождение и масштабирование инфраструктуры, но и высокая стоимость вычислительного оборудования. Наш новый сервис Inference Platform снимает эту нагрузку и позволяет сосредоточиться на прикладных задачах. Мы даем возможность работать с моделями как с сервисом – быстро запускать, масштабировать и интегрировать их в бизнес-процессы без построения собственной инфраструктуры, – отметил Дмитрий Подшибякин, директор по продуктам компании «Турбо Облако».

Реклама. ПАО «Ростелеком». ИНН: 7707049388