U-Net 是弗赖堡大学 计算机科学系为生物医学图像分割 开发的卷积神经网络 。[ 1] 其基于完全卷积网络[ 2] ,并在结构上加以修改与扩展,使得它可以用更少的训练图像产生更精确的分割。在现代GPU 上,分割一张512×512的图像需要的时间不到一秒。
U-Net架构已经在扩散模型 中采用,用于迭代式图像去噪音[ 3] 。这种技术位于很多现代图像生成模型的底层,比如DALL-E 、Midjourney 和Stable Diffusion 。
U-Net 的结构源于Long、Shelhamer和Darrell提出的所谓“全卷积网络”。[ 2]
其主要思想是通过连续的层来补充通常的收缩网络,其中的汇集作业(Pooling Operation)代为升采样 操作。这些层成功增加了输出的分辨率。接着,一个连续的卷积层可以根据这些信息,组合成一个精确的输出。[ 1]
U-Net 的一个重要改变是,升采样部分有大量特征通道,这使得网络可以将上下文信息传播到更高的分辨率层。因此,扩展路径或多或少地同收缩部分对称,并产生一个U形结构。该网络只使用每个卷积 的有效部分,没有任何全连接层。[ 2] 缺失的环境可通过镜像翻转输入图像来预测图像边界区域的像素,这种平铺策略在网络应用于大图像时非常重要,否则分辨率将受到GPU 内存的限制。
U-Net 首先由Olaf Ronneberger、Philipp Fischer、Thomas Brox于2015年在论文《U-Net:应用于生物医学图像分割的卷积网络》中提出。 [ 1] U-Net是Evan Shelhamer、Jonathan Long、Trevor Darrell (2014)提出的FCN(Fully Convolutional Networks完全卷积网络)的演进。[ 2]
U-Net网络由一个收缩路径(contracting path)和一个扩展路径(expansive path)组成,使其具有U形结构。收缩路径是一张典型的卷积网络,包括卷积 的重复应用,每个卷积之后都有一个线性整流函数 单元(ReLU)和一个最大汇集作业(max pooling operation)。在收缩过程中,空间与特征信息一减一增。扩张路径通过连续的上卷积和与来自收缩路径的高分辨率特征相连接来组合特征与空间信息。[ 4]
U-Net结构示例,用于为256×256的RGB图像产生k个256×256遮罩。
U-Net 在生物医学图像分割 中有大量应用,如脑图像分割(''BRATS''[ 5] )、肝图像分割("siliver07"[ 6] )和蛋白质结合点预测等等。[ 7] U-Net的变体也被应用于医学图像重建。[ 8] 下面是U-Net的部分变体及其应用:
基于U-Net的像素回归及其在泛锐化上的应用:;[ 9]
3D U-Net:从稀疏标注学习密集体积分割;[ 10]
TernausNet:在ImageNet上预先训练的用于图像分割的带VGG11编码器U-Net;[ 11]
估计荧光染色的图到图翻译; [ 12]
蛋白质结构活性位点预测。[ 7]
^ 1.0 1.1 1.2 Ronneberger O, Fischer P, Brox T. U-Net: Convolutional Networks for Biomedical Image Segmentation. 2015. arXiv:1505.04597 [cs.CV ].
^ 2.0 2.1 2.2 2.3 Shelhamer E, Long J, Darrell T. Fully Convolutional Networks for Semantic Segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2017-04, 39 (4): 640–651. PMID 27244717 . S2CID 1629541 . arXiv:1411.4038 . doi:10.1109/TPAMI.2016.2572683 .
^ Ho, Jonathan. Denoising Diffusion Probabilistic Models. 2020. arXiv:2006.11239 .
^ U-Net code . [2023-02-26 ] . (原始内容存档 于2015-06-20).
^ MICCAI BraTS 2017: Scope | Section for Biomedical Image Analysis (SBIA) | Perelman School of Medicine at the University of Pennsylvania . www.med.upenn.edu. [2018-12-24 ] . (原始内容存档 于2017-05-25).
^ SLIVER07 : Home . www.sliver07.org. [2018-12-24 ] . (原始内容存档 于2008-05-29).
^ 7.0 7.1 Nazem F, Ghasemi F, Fassihi A, Dehnavi AM. 3D U-Net: A voxel-based method in binding site prediction of protein structure. Journal of Bioinformatics and Computational Biology. 2021-04, 19 (2): 2150006. PMID 33866960 . doi:10.1142/S0219720021500062 .
^ Andersson J, Ahlström H, Kullberg J. Separation of water and fat signal in whole-body gradient echo scans using convolutional neural networks . Magnetic Resonance in Medicine. 2019-09, 82 (3): 1177–1186. PMC 6618066 . PMID 31033022 . doi:10.1002/mrm.27786 .
^ Yao W, Zeng Z, Lian C, Tang H. Pixel-wise regression using U-Net and its application on pansharpening. Neurocomputing. 2018-10-27, 312 : 364–371. ISSN 0925-2312 . S2CID 207119255 . doi:10.1016/j.neucom.2018.05.103 .
^ Çiçek Ö, Abdulkadir A, Lienkamp SS, Brox T, Ronneberger O. 3D U-Net: Learning Dense Volumetric Segmentation from Sparse Annotation. 2016. arXiv:1606.06650 [cs.CV ].
^ Iglovikov V, Shvets A. TernausNet: U-Net with VGG11 Encoder Pre-Trained on ImageNet for Image Segmentation. 2018. arXiv:1801.05746 [cs.CV ].
^ Kandel ME, He YR, Lee YJ, Chen TH, Sullivan KM, Aydin O, et al. Phase imaging with computational specificity (PICS) for measuring dry mass changes in sub-cellular compartments . Nature Communications. December 2020, 11 (1): 6256. PMC 7721808 . PMID 33288761 . arXiv:2002.08361 . doi:10.1038/s41467-020-20062-x .