Emu Edit: точное редактирование изображений с помощью задач распознавания и генерации
Мы представляем Emu Edit, многозадачную модель редактирования изображений, которая устанавливает новый уровень в редактировании изображений на основе инструкций. Для разработки Emu Edit мы адаптируем его архитектуру для многозадачного обучения и обучаем его беспрецедентному набору задач, таких как редактирование на основе региона, редактирование в произвольной форме и задачи компьютерного зрения, такие как обнаружение и сегментация — все они сформулированы как генеративные задачи.
Чтобы создать надежную и точную модель редактирования изображений, мы обучаем Emu Edit многозадачности при выполнении широкого спектра задач по редактированию изображений. Эти задачи охватывают задачи редактирования на основе региона, задачи редактирования в произвольной форме, задачи компьютерного зрения и многое другое, и все они сформулированы как генеративные задачи. Кроме того, для эффективной обработки этого широкого спектра задач мы вводим концепцию внедрения изученных задач, которая используется для направления процесса генерации к правильной генеративной задаче. Мы демонстрируем, что как многозадачное обучение, так и использование изученных внедрений задач значительно повышают способность нашей модели точно выполнять инструкцию редактирования.
Оснащенные надежной моделью, обученной для широкого спектра задач и управляемой внедренными изученными задачами, мы исследуем короткую адаптацию к невидимым задачам посредством инверсии задач. В этом процессе мы сохраняем веса модели замороженными и обновляем только внедрение задачи, чтобы оно соответствовало новой задаче. Наши эксперименты показывают, что Emu Edit может быстро адаптироваться к новым задачам, таким как сверхвысокое разрешение, обнаружение контуров и другие. Это делает инверсию задач с помощью Emu Edit особенно выгодной в сценариях, где помеченные примеры ограничены или когда бюджет вычислений низкий.