«Яндекс» представил диффузионную нейросеть YandexART 1.3.
Как сообщили в пресс-службе компании, нейросеть перешла на новую технологию для генерации изображений - латентную диффузию. Кроме того, датасет, на котором обучалась модель, был увеличен в 2,5 раза. Благодаря этому YandexART лучше разумеет текстовые запросы и создает еще больше реалистичные изображения в различных форматах. Новая версия нейросети уже применяется в «Шедевруме», а позднее появится и в иных сервисах «Яндекса».
Российский «Шедеврум» вошел в тройку ведущих приложений с генеративным ИИ
Технология латентной диффузии употребляет меньше вычислительных ресурсов и позволяет создавать более реалистичную графику, отметили в «Яндексе». Она формирует промежуточное представление картинки в виде латентного кода - компактного описания, содержащего основную информацию об изображении в сжатой форме. Затем нейросеть за один шаг разворачивает код в полноценное изображение высокого разрешения. Такой подход более эффективен, чем многоэтапное уточнение картинки в каскадной диффузии.
Чтобы модель лучше разумела запросы пользователей, в датасет, на котором она обучалась, были добавлены синтетические тексты - сгенерированные нейросетью доскональные описания изображений. Сам набор данных был увеличен до более чем 850 млн пар картинок с текстом.
Для того чтобы YandexART учитывала больше деталей из промта, в новой модели используются не один, а два текстовых энкодера. При их помощи YandexART распознает текстовый запрос пользователя и переводит его на машинный язык.
Кроме того, обновление YandexART даст пользователям возможность создавать изображения в различных форматах, таким как 16:9, 4:3 или 3:4. Теперь изображения, созданные в «Шедевруме», можно будет использовать, например, для обложек журналов или фотообоев на телефон. По конечным результатам замеров асессорами «Яндекса», нейросеть YandexART 1.3 выигрывает в 57% случаев в сопоставлении с Midjourney V5.2 и в 63 процентах случаев в сопоставлении с предыдущей версией YandexART 1.2.
Фото: «Яндекс»