У блозі Google AI, присвяченому дослідженням і розробкам в області штучного інтелекту, виявили демонстрацію технології масштабування зображень на базі дифузійних моделей.
Фахівці внутрішньої команди Brain Team представили два пов’язаних алгоритми, які генерують фотографії високої чіткості без втрати якості.
Перший з них називається SR3 (апскейлінг за допомогою повторного уточнення). На вхід подається картинка з низькою роздільною здатністю, й нейромережа намагається збільшити її, додаючи шум.
Модель навчається методам спотворення зображення, а потім повертає весь процес назад, поступово видаляючи шум для досягнення заявленого результату.
Інженери виявили, що SR3 перевершує наявні генеративні алгоритми, такі як PULSE і FSRGAN, особливо при роботі з портретами та фотографіями природи.
У компанії не зупинилися на досягнутому і розробили ще одну дифузійну модель під назвою CDM. На цей раз нейромережу навчили мільйонам зображень з високою роздільною здатністю з бази ImageNet.
Алгоритм використовує каскадний підхід і збільшує фотографії у два етапи: з роздільної здатності 32 × 32 -> 64 × 64 -> 256 × 256 (в 8 разів), або з 64 × 64 -> 256 × 256 -> 1024 × 1024 (в 16 раз).
Google опублікувала приклади роботи алгоритмів. На деяких зображеннях помітні графічні артефакти, але в цілому результат дійсно дивує. Про комерційне поширення технології даних поки немає.
БІЛЬШЕ ЦІКАВОГО:
- Чи можна дізнатися ім’я людини по обличчю?
- 20+ додатків та сервісів для роботи з Instagram
- Алгоритм, який описує зображення для незрячих від Microsoft
Джерело: Petapixel