Как правило, люди легко могут сказать, какие объекты на фотографии находятся ближе, а какие дальше. Для компьютеров же эта, так называемая монокулярная оценка глубины, представляет серьезную проблему.
В своей недавней публикации исследователи из Лаборатории вычислительной фотографии канадского Университета Саймона Фрейзера (SFU) рассказали, как им удалось в сотрудничестве с Adobe Research решить эту задачу, обучив нейронную сеть составлять распределение (карту) глубин для фотографии или картины.
В последние годы в этой области был достигнут большой прогресс, но имеющиеся решения не могут обеспечить достаточно высокого разрешения для преобразования плоского изображения в его объёмный (3D) аналог.
Авторы новой работы объясняют этот недостаток существующих методов ограничениями свёрточных нейронных сетей, которые пока не могут генерировать множество деталей одновременно. Другим ограничением для понимания сложных сцен является количество пикселей, на которое эти сети могут «смотреть» одновременно.
«Мы анализируем изображение и оптимизируем наш процесс, просматривая содержимое картинки с учётом ограничений текущих архитектур, — говорит Себастьян Дилле (Sebastian Dille), аспирант той же лаборатории. — Мы передаем наше входное изображение сети во многих различных формах, чтобы создать столько деталей, сколько позволяет модель, сохраняя при этом реалистичную геометрию».
Увеличение разрешения позволило создавать подробные 3D-изображения, которые выглядят реалистично для человеческого глаза. Эту технологию уже взяли на вооружение тиктокеры и компьютерные художники. Так, Акира Сайто (Akira Saito) из Японии, создаёт клипы, которые переносят зрителей в фантастические трёхмерные миры, прячущиеся в картинах известных художников.
Участники работы уже думают, как расширить её на видео. В их планах также разработка новых инструментов, которые сделают карты глубины более полезными для создателей креативного контента.