Исследователи Apple разработали новую модель искусственного интеллекта, которая позволяет пользователям простым языком описывать то, что они хотят изменить на фотографии. При этом корректировать изображения можно даже не прикасаясь к ПО для редактирования фотографий.
Модель MGIE (MLLM-Guided Image Editing), над которой Apple работала совместно с Калифорнийским университетом в Санта-Барбаре, позволяет обрезать, изменять размер, переворачивать и добавлять фильтры к изображениям с помощью текстовых подсказок. Эта модель также может применяться для более сложных задач редактирования изображений, таких как изменение определенных объектов на фотографии, чтобы придать им другую форму или сделать их ярче.
MGIE сочетает в себе два различных типа использования мультимодальных языковых моделей. Во-первых, она учится интерпретировать подсказки пользователя. Затем она «воображает», как будет выглядеть редактирование (например, запрос на более синее небо на фотографии приводит к увеличению яркости части изображения с небом).
При редактировании фотографии с помощью MGIE пользователям просто нужно напечатать то, что они хотят изменить в изображении. Например, при редактировании изображения пиццы пепперони можно набрать подсказку «сделай ее более здоровой», и модель добавит овощные начинки. Фотография тигров в Сахаре выглядит темной, но после того, как модели сказали «добавить больше контраста, чтобы имитировать больше света», изображение стало ярче.
«Вместо кратких, но двусмысленных указаний MGIE выявляет явные визуальные намерения и приводит к разумному редактированию изображений», — говорится в статье исследователей.
Apple предоставила MGIE для скачивания через GitHub, а также выпустила веб-демонстрацию Hugging Face Spaces. В компании не уточнили своих дальнейших планов в отношении этой модели.
Источник: The Verge