U-Net — це згорткова нейронна мережа, яка була розроблена для сегментації біомедичних зображень на факультеті комп'ютерних наук університету Фрайбурга, Німеччина[1]. Мережа базується на повністю згортковій мережі[2] (не плутайте з повнозв'язною мережею), архітектура якої була модифікована і розширена так, щоб працювати з меншою кількістю зображень для навчання і давати більш точні результати сегментації. Сегментація зображення 512x512 займає менше секунди на останніх моделях GPU.
U-Net має більш елегантну архітектуру, що випливає з так званої «повністю згорткової мережі», запропонованої Лонгом і Шелгамером[2].
Основна ідея полягає в тому, щоб доповнити звичайну мережу послідовних шарів, де операції пулінга (зменшення розмірності) об'єктів замінюються операторами збільшення розмірності[en]. Отже, ці шари збільшують роздільну здатність виходу. Більш того, наступний згортковий шар може навчитися будувати точний вихід на основі цієї інформації[1].
Однією з важливих змін у U-Net є те, що в частині, в якій відбувається збільшення розмірності, існує велика кількість каналів ознак, які дозволяють мережі поширювати контекстну інформацію на шари більшої роздільної здатності. Як наслідок, частина в якій відбувається розширення є більш-менш симетричною до частини звуження, це дає U-подібну архітектуру. Мережа використовує тільки згортки без будь-яких повністю пов'язаних шарів[2]. Для прогнозу значення пікселів в межах області зображення, відсутній контекст екстраполюється шляхом додаткового опрацювання (з точки зору симетрії мережі це виглядає як віддзеркалення) вхідного зображення. Ця стратегія замощення важлива для застосування мережі до великих зображень, оскільки в іншому випадку роздільна здатність буде обмежена пам'яттю GPU.
U-Net була описана Олафом Роннебергером, Філіпсом Фішером та Томасом Броксом в 2015 році в роботі «UNet: Convolutional Networks for Biomedical Image Segmentation»[1]. Що є поліпшенням та подальшим розвитком архітектури FCN розробленої Еваном Шелгамером, Джонатаном Лонгом та Тревором Дарреллом (2014) у статті «Повністю згорткові мережі для семантичної сегментації»[2].
Мережа складається з двох частин: шляху звуження і розширення, які й надають йому U-подібну архітектуру. Звуження є типовою згортковою мережею, яка складається з повторного застосування згорток, після кожної з них йде функція активації ReLU і операція макспулінга. Під час звуження просторова інформація зменшується, а інформація про ознаки збільшується. В частині, де відбувається розширення, поєднується просторова інформацію та ознаки за допомогою згорток, які збільшують розмірність і конкатенацій з ознаками, які відповідають високій роздільній здатності на шляху звуження[3].
Існує багато застосувань U-Net в біомедичній сегментації зображень, таких як: сегментація зображення мозку («BRATS»[4]), сегментація зображення печінки («siliver07»[5]) та сегментації нервової системи[en]. Нижче наведено кілька варіантів і застосунків U-Net:
jakeret (2017): «Tensorflow Unet»[9]
Вихідний[уточнити] код U-Net з розпізнавання образів і обробки зображень викладений на сайті факультету комп'ютерних наук університету Фрайбурга, Німеччина[10].
Основні статті по U-Net[1][2][7][8] цитувалися 3693, 7049, 442 та 22 рази відповідно на Google Scholar станом на 24 грудня 2018 року[11].