
- 收藏
- 加入书签
基于云计算的整张组织病理学图像的多示例多标签多类别分类学习
摘要:数字病理学随着全张切片扫描仪的出现进入了一个新时代,全张切片扫描仪可创建活检切片的高分辨率图像。因此,在切片级别上,图像区域与病理学家指定的诊断标签之间对应关系的不确定性,以及需要识别属于具有不同临床意义的多个类别的区域,已成为两个新的挑战。然而,目前尚不清楚在精心挑选的感兴趣区域(ROI)上报告了二元良性与癌症分类精度的最先进算法是否可推广到这些多类别学习和定位问题上。本文通过利用病理学家的查看记录和切片级别标注,在弱监督学习场景中提出了这些挑战的潜在解决方案。我们基于不同行为(如缩放、平移和固视)从病理学家图像筛查日志中提取候选ROI。用一个包示例(由候选ROI表示)和一组从病理报告中提取的类别标签来对每张切片进行建模,在包含全范围具有挑战性的诊断类别的整张切片图像中执行多类别定位和分类。
1 介绍
组织病理学图像分析在通过为组织样本提供客观和可重复的特征描述来支持癌症诊断过程方面显示出了巨大潜力,这有助于减少诊断中的观察者差异[1]。计算这些特征描述的典型方法是在包含由病理学家标注的有诊断标签的精心选择的感兴趣区域(ROI)的数据集上,使用监督学习算法构建统计分类器。此外,这些方法的性能评估也仅限于使用手动选择的与孤立组织结构相对应、诊断无歧义的图像区域。不幸的是,在这些受限的训练和测试环境中构建的研究中获得的高精度率,并不一定能反映出在常规组织病理学检查中遇到的决策过程的复杂性。
云计算平台把计算、存储能力放置在自治、异构的云计算服务器端[2]。在本文中,在云计算平台上,我们提出利用病理学家对整张切片图像的查看记录,并将其与病理报告相结合,进行细粒度分类器的弱监督学习。能够以40倍放大率数字化整个玻片,创建高达100,000×100,000像素的高分辨率图像的全张切片扫描仪,使整个诊断过程可以在数字格式下完成。之前使用全张切片图像的研究集中于效率问题,其中先前在标记的ROI上训练的分类器通过使用多分辨率或多视野框架在大图像上运行。然而,使用全张切片图像出现的两个新挑战仍需要解决。第一个挑战是图像区域与病理学家在切片级别指定的诊断标签之间对应关系的不确定性。在临床实践中,诊断通常记录在整个切片上,而引起病理学家注意并导致特定诊断的局部组织特征是未知的。第二个挑战是需要在整张切片中同时检测和分类具有诊断相关性的区域;大型图像通常包含具有不同恶性程度的多个区域,而哪些局部线索应该一起分类是未知的。前者与学习问题相关的挑战以及后者与定位问题相关的挑战,都需要为整张切片组织病理学开发新的算法。
该框架使用多示例多标签学习来构建用于组织病理学的切片级和ROI级分类器。多示例学习(MIL)与传统学习场景不同,它使用了包的概念,其中每个训练包都包含了与相关包级标签相关的正负例示例。假定正包至少包含一个正示例,而负包中的所有示例都被视为负例,但在训练期间不知道单个示例的标签。多标签学习(MLL)涉及到每个训练样本与多个标签相关联的场景,因为一个样本可能有多种描述方式。多示例多标签学习(MIMLL)对应于组合情况,其中每个训练样本由多个示例的包表示,该包被赋予多个类别标签。
在组织病理学图像分析领域,多示例和多标签学习算法的使用相当罕见。Dundar等人[3]提出了多示例学习在乳腺组织病理学中的首个应用,他们设计了一个大边界分类器用于将良性病例与可行动(ADH+DCIS)病例进行二元判别,使用了含有手动标识ROI的整张切片。徐等人[4]使用基于boosting的多示例学习对图像进行良性与癌症的二元分类。他们还使用多标签支持向量机对结肠癌进行了多类别分类[5]。Cosatto等人[6]在多示例框架中研究了胃癌诊断的二元分类。Kandemir和Hamprecht[7]使用正方形图像块作为示例,对组织图像进行健康与癌症的多示例分类。文献中的大多数相关研究只考虑了多示例学习或多标签学习场景。未能将多示例多标签技术应用于病理图分类问题。
本文的主要贡献有两个方面。首先,我们在整张切片图像分析的背景下研究了多示例多标签学习(MIMLL)场景。在我们的场景中,一个包对应于一张数字化的活检切片,示例对应于切片中的候选ROI,类别标签对应于与该切片相关的诊断。候选ROI是通过基于规则的方式分析病理学家在解释切片时记录的操作来确定的。类别标签是从病理学家根据他们对图像的解释填写的表格中提取的。第二个贡献是对四种MIMLL算法在新切片的多类别预测(切片级和ROI级标签)以及整张切片图像中具有诊断相关性区域的同时定位和分类方面的性能进行了广泛评估。
2.方法论
A. 候选感兴趣区域(ROIs)的识别 本文研究的弱监督学习场景使用了从病理学家的查看日志中提取的候选ROIs作为潜在信息区域,这些区域可能对整个切片的诊断至关重要。这些候选ROIs是从病理学家的查看会话中采样的视口中识别出来的,由屏幕上查看的图像区域的坐标、缩放级别和时间戳表示。鉴于不同的病理学家具有不同的解释性查看行为,我们定义了以下三种操作:
▪ 缩放峰值:对应于病理学家通过放大进行更近距离调查的图像区域,被定义为缩放级别的局部最大值。
▪ 缓慢平移:对应于在连续的视口中访问的图像区域,其中位移(以两个视口的中心像素之间的差异来衡量)很小,而缩放级别保持不变。
▪ 固定:对于查看时间超过2秒的区域。
所有属于这些操作之一的视口的并集被选为候选ROIs的集合。
B特征提取 每个候选ROI的特征表示使用了在CIE-Lab空间中为每个通道计算的颜色直方图,用于苏木精和伊红通道的局部二值模式的纹理直方图(使用颜色解卷积过程估计),以及从[8]的细胞核检测结果中计算的架构特征1。由于目前使用有限的训练数据,使用深度特征将成为未来工作的重点,因为使用卷积结构对这种复杂的组织病理学内容进行建模尚不是一件直接的事情。
C.学习 训练数据中可用的注释的粒度决定了可以纳入学习过程的监督量。在最流行的弱标记学习场景中,多实例学习(MIL)涉及到每个样本由一组(包)具有集合的实例表示,集合的标签为单一标签,而多标签学习(MLL)使用每个样本具有由多个标签描述的单个实例的样本。在本节中,我们定义了包含这两种情况的多实例多标签学习(MIMLL)框架。
设为一个数据集,其中包含M个样本,每个样本由一个包和一个相关联的标签集组成。包含一组实例,其中是第n个实例的特征向量,是该包中实例的总数。标签集由类别标签组成,其中是个可能标签之一,是该集合中标签的总数。传统的监督学习问题是MIMLL的一种特殊情况,其中每个样本具有单个实例和单个标签,从而得到数据集。MIL也是MIMLL的一种特殊情况,其中每个包只有一个标签,从而得到数据集。MLL是另一种特殊情况,其中与样本对应的单个实例与一组标签相关联,从而得到数据集。接下来,我们总结了从机器学习文献中改编的四种不同方法,用于解决本文研究的MIMLL问题。
1.MimlSvmMi:一种可能的解决方案是将MIMLL问题近似为多实例单标签学习问题。对于具有M个样本的MIMLL数据集,我们可以创建一个新的MIL数据集,其中前者中的一个样本被分解成后者中的一组个包,并假设标签彼此独立。由此产生的MIL问题进一步被简化为传统的监督学习问题,假设一个包中的每个实例对该包的标签贡献是相等和独立的,并使用MiSvm算法[9]求解。
2.MimlSvm:另一种方法是通过将包嵌入到一个新的向量空间中,将MIMLL问题分解为单实例多标签学习问题。首先,将包收集到一个集合中,并使用k-medoids算法[10]对集合进行聚类。在聚类过程中,两个包和之间的距离通过使用Hausdorff距离[11]进行计算:
然后,将bag集合B划分为K个簇,每个簇由其medoid 表示,即该簇内与所有其他对象的平均不相似性最小的对象。最后,通过计算一个K维向量,其分量是包与之间的Hausdorff距离,从而将包嵌入到K维空间中[12]。由此产生的MLL问题进一步被简化为每个类别的二元监督学习问题,将所有具有该标签的样本作为正例,其余样本作为负例,并使用MlSvm算法[13]求解。
3.M3MIML:这种方法的motivation是观察到在将MIMLL问题转化为MIL(第一种方法)或MLL(第二和第三种方法)问题[14]的过程中,实例与标签之间的有用信息可能会丢失。M3MIML算法对每个标签使用线性模型,其中bag对于特定标签的输出是该bag在该标签模型下所有实例的最大判别值。在训练过程中,样本对于某个标签的边际被定义为其所有实例的最大值,样本对于多标签分类器的边际被定义为所有标签边际的最小值,并通过最大化整个训练集的边际(定义为所有样本边际的最小值)来求解二次规划问题,从而估计线性模型的参数。
本节中描述的每种算法都被用于学习一个多类别分类器,其中每个训练样本是一个整张切片,被建模为候选感兴趣区域(ROIs)的bag,每个ROI由一个特征向量(xmn)表示,以及被分配给该切片的一组标签。
D. 分类
分类既可以在切片级别进行,也可以在ROI级别进行。两种方案都涉及使用第III-C节中描述的MIMLL算法进行相同的训练过程。
切片级分类——对于未知的整张切片图像,对应的ROI的包为。经过如第III-C节所述的训练得到的分类器将为该图像分配一组标签。在实验中,包对应于从第III-A节中描述的病理学家查看日志中提取的候选ROI集合。如果在测试时没有可用的日志,将使用用于识别和定位与诊断相关区域的ROI检测器。自动ROI检测是一个开放的问题,因为视觉显着性(可以由计算机视觉中已知的算法建模)并不总是与诊断显着性相关[26]。新的ROI检测解决方案可直接并入我们的框架,以识别候选ROIs。
ROI级分类——在许多已发表的工作中,ROI级别的分类涉及手动选择的感兴趣区域。然而,这无法直接推广到涉及许多局部区域的整张切片图像分析,这些区域可能具有非常不同的诊断相关性和结构模糊性,可能导致病理学家之间对其类别分配存在分歧。
在本文中,采用了滑动窗口方法进行ROI级别的分类。对每张整个切片图像,使用大小为3600×3600像素、在水平和垂直两个维度上重叠2400像素的滑动窗口进行处理。滑动窗口的尺寸是基于我们在经验观察确定的。每个窗口被视为一个实例,其特征向量x是按照第III-B节中的方式获得的。之前学习的分类器然后独立地为每个窗口分配了一组标签及每个类别的置信度分数。由于存在重叠,每个最终的唯一分类单元对应于1200×1200像素的窗口,其每个类别的分类分数是通过取所有与该1200×1200像素区域重叠的滑动窗口的每类分数的最大值获得的。
结论
我们展示了一项对整张乳腺组织病理学切片图像进行多类别分类的研究。与传统的完全监督设置不同,后者使用人工选择的图像区域及其无歧义的类别标签进行学习,我们考虑了一种更加现实的场景,涉及弱标记的整张切片图像,只有病理学家提供的切片级别的标签。局部细节与切片级别所选诊断之间对应关系的不确定性,在一个多实例多标签学习框架中进行建模,其中整张切片被视为一个包,从病理学家的查看记录中提取的候选ROI被用作该包中的实例,而病理报告中与该切片相关的一个或多个诊断类别被用作多标签集。
参考文献:
[1]闵婕. 基于多示例多标记学习的图像分类[D].武汉科技大学,2018.
[2]任琰杰,张越,张岩,郭小静,孙海英.基于Docker容器的桌面即服务(DaaS)管理系统架构设计[J].教育教学论坛,2020(38):373-375.
[3]Dundar MM, Badve S, Bilgin G, Raykar V, Jain R, Sertel O, Gurcan MN. Computerized classification of intraductal breast lesions using histopathological images. IEEE Trans on Biomedical Eng. Jul; 2011 58(7):1977–1984.
[4]Xu Y, Zhu J-Y, Chang E, Tu Z. Multiple clustered instance learning for histopathology cancer image classification, segmentation and clustering. IEEE Conference on Computer Vision and Pattern Recognition. 2012:964–971.
[5]Xu Y, Jiao L, Wang S, Wei J, Fan Y, Lai M, Chang EI-C. Multi-label classification for colon cancer using histopathological images. Microscopy Research and Technique. 2013; 76(12):1266–1277.
[6]Cosatto E, Laquerre P-F, Malon C, Graf H-P, Saito A, Kiyuna T, Marugame A, Kamijo K. Automated gastric cancer diagnosis on H&E-stained sections; training a classifier on a large scale with multiple instance machine learning. SPIE Medical Imaging. 2013; 867605
[7]Kandemir M, Hamprecht FA. Computer-aided diagnosis from weak supervision: A benchmarking study. Computerized Medical Imaging and Graphics. 2015; 42:44–50.
[8]Xu H, Lu C, Mandal M. An efficient technique for nuclei segmentation based on ellipse descriptor analysis and improved seed detection algorithm. IEEE Journal of Biomedical and Health Informatics. Sep; 2014 18(5):1729–1741.
[9]Andrews S, Tsochantaridis I, Hofmann T. Support vector machines for multiple-instance learning. Advances in Neural Information Processing Systems. 2002:561–568.
[10]Kaufman, L., Rousseeuw, PJ. Clustering by means of medoids. In: Dodge, Y., editor. Statistical Data Analysis Based on the L1-Norm and Related Methods. North-Holland: 1987. p. 405-416.
[11]Edgar G, Measure, Topology, Geometry Fractal. Springer Science & Business Media. 2007.
[12]Zhou Z-H, Zhang M-L, Huang S-J, Li Y-F. Multi-instance multi-label learning. Artificial Intelligence. 2012; 176(1):2291–2320.
课题来源:河北机电职业技术学院项目(自然)-一般项目《基于弱监督学习的超高分辨率病理图像分割算法研究》(ZX20230033)