Сбер обновил модель генерации изображений Kandinsky до версии 6.0 Image. Модернизация затронула инструменты создания и редактирования изображений в ИИ-помощнике «ГигаЧат».
Фото: пресс-служба Сбера
Как сообщили в пресс-службе компании, в рамках обновления разработчики улучшили обработку запросов и понимание сложных текстовых описаний, а также повысили детализацию изображений. Кроме того, внимание уделено точечному редактированию: изменения отдельных элементов не затрагивают остальную часть изображения.
Редактирование выполняется по текстовому описанию, в рамках которого можно изменить фон, добавить или удалить объект, скорректировать отдельные детали. Предусмотрены функции восстановления старых снимков, стилизации и генерации серии изображений на основе одной фотографии.
Модель получила встроенный механизм поиска по изображениям (Image RAG), который может уточнять визуальные характеристики объектов, чтобы упростить работу с темами, не представленными в обучающей выборке.
Новая версия построена на архитектуре Mixture of Experts (MoE), которая используется в современных нейросетях. В такой системе при обработке запроса задействуются не все компоненты модели, а только отдельные модули, отвечающие за конкретные задачи. Это позволяет быстрее обрабатывать данные и точнее выполнять отдельные операции.
По словам старшего вице-президента, руководителя блока «Развитие генеративного ИИ» Сбера Антона Фролова, функции работы с изображениями остаются востребованными у пользователей, а обновление направлено на расширение возможностей для профессионального использования модели. Он добавил, что компания также продолжает развивать решения для работы с видеоконтентом.