1. 引言
微流控技术是一种可精确控制和操控微尺度流体的技术,又称为芯片实验室 [1] 。该技术通过设计微型流体通道、微阀和反应腔等结构,配合控制模块,在微米尺度芯片上实现包括样本制备、反应、检测等过程在内的自动分析样本过程。其微型化的优点在于显著减少了样本和试剂的消耗,同时减少了实验废料的产生;而集成化和多功能的特性则使得在一个微流控芯片上能够完成多个复杂的处理和分析操作。微流控技术已经广泛应用于化学分析、生物医学检测、药物筛选等领域 [2] [3] 。
基于微流控芯片的细胞实验会生成大量的细胞图像数据,但是如何分析这些数据,获得细胞形态相关的信息是目前极具挑战性的问题。目前,已有多种图像分割算法被广泛应用于细胞分割任务。常用的方法有阈值法、边缘检测法和区域生成法等 [4] [5] [6] 。但是这些方法在图像质量较差(存在噪声、对比度低)、分割目标存在边界不清晰、接触或重叠等情况下,分割的效果会受到很大的影响。近些年来,深度学习已经成功应用于图像分割领域,并且取得了显著的成果 [7] [8] [9] 。然而,在细胞图像中经常存在重叠的细胞、模糊的细胞轮廓和不清晰的边界,这给细胞分割提出了重大挑战。而构建一个具有强鲁棒性和高性能的图像分割深度学习模型,需要准备一个包含大量高质量、多样化标注数据的训练集 [10] [11] 。本文针对上述的问题,提出了一种微流控细胞迁移芯片,在减少细胞接触或重叠的条件下生成了大量的实验数据。基于这些数据借助深度学习模型构建了一个可实现快速、高准确度分析的数据分析工具。最后,通过测试证明了该方案的可行性。
2. 理论基础
2.1. 微流控技术
通常微流控芯片根据不同的流体控制方法通常可分为被动式和主动式 [12] [13] 。本文使用了被动式设计,被动式微流控芯片不需要借助外力控制流体,而是通过固定的芯片几何结构、尺寸和流体的压力差、毛细作用等。相关的流体控制方法有浓度梯度、多相流法和离心法。
目前微流控技术在研究细胞迁移方面得到了广泛应用,为在体外模拟体内细胞生存微环境创造了可能。传统的细胞迁移方法存在无法整合复杂的环境因素的问题,特别是那些影响细胞迁移的因素。而微流控技术有可能通过精确控制多种环境因素来克服细胞迁移研究中的这些挑战,并且它可以形成细胞迁移所需要的稳定的趋化梯度 [14] 。近几年来,已有大量成功的应用,证明了细胞迁移测定可以在微流体设备这种小型化平台中进行。
2.2. 基于深度学习的图像分割
图像分割是指从图像中准确地将目标与其周围环境及其它目标分离开来,并赋予其特定的标签,这有利于获取有关目标位置和形状的信息。近年来,机器学习理论和技术的进步已经开始在各个领域转变局势,包括计算机视觉、机器人技术和生物识别等 [15] 。而深度学习是机器学习领域最接近人工智能的概念,其在性能方面已经超越了传统的神经网络。目前深度学习已逐渐发展成为机器学习领域中最受青睐的计算方法之一 [16] 。它为有效处理大规模数据提供了强大的解决方案,有助于分析和解释细胞图像中固有的复杂特征和模式,因此为细胞生物学研究提供了更精确和高效的分析工具。
深度学习在细胞分割领域中取得了显著的成果,并可分为语义分割和实例分割两类 [17] 。语义分割技术能够在像素级别上对整个图像进行标记,并为每个像素分配它所属的语义类别标签,但是不区分不同实例之间的差别。实例分割技术旨在将图像中的每个物体分割为单独的区域并为它们分配唯一的标签。这些技术不仅关注物体的语义信息,还区分不同的物体实例。这个过程可以分为两个步骤:首先是目标检测,用于定位每个实例,然后是逐像素标记每个实例区域。近年来,许多研究人员基于深度学习开发了实例分割算法,以将其应用于不同的细胞分割任务 [18] 。
3. 微流控芯片设计与仿真
3.1. 微流控芯片设计
本文设计的细胞迁移微流控芯片如下图1所示,在图2中详细介绍了芯片的结构,其中包含四个开口,分别是直径为6 mm的培养基载入口A和趋化剂载入口B。培养基主要为细胞提供必需的营养物质以维持细胞正常生长,趋化剂用于诱导和促进细胞迁移。这两者注入后首先通过蛇形通道,这种S型设计增大了流阻,有助于提高流体流动的稳定性。随后两种流体会在主通道汇合,产生对流扩散形成稳定的趋化梯度,该浓度梯度的方向与流体流动方向垂直。其中主通道设计长度为2600 um,宽度为400 um,高为50 um。C口设计为直径2 mm用于加载细胞,细胞加载后进入主通道后,会被微柱阻挡使其位于主通道的一侧。D口设计为直径4 mm,用于储存废液。
在主通道中设计有微柱型的组隔段,位于如下图2处。其中微柱长为50 um,宽为30 um,微柱之间的距离为5 um。其中微柱间距离需要合理设置,其涉及两个主要作用,首先是在细胞载入后需要阻挡细胞,其次在细胞开始迁移时允许单个细胞通过。本文是以MDA-MB-231细胞为实验对象,该细胞为人乳腺癌细胞,细胞形态通常呈现纺锤状,也有少数呈现圆形。该细胞属于贴壁细胞,在迁移过程中会发生形变,其直径在15~20 um之间,经过测试后发现可允许单个MDA-MB-231细胞通过的尺寸为5 um。如下图3为单个细胞通过微柱的情况。
![](//html.hanspub.org/file/32-2571555x9_hanspub.png?20240522083757009)
Figure 3. Physical picture of cells passing through the microcolumn
图3. 细胞通过微柱实物图
3.2. 流体仿真
为了验证所设计的微流控细胞迁移芯片通道内流体流动情况与趋化物浓度梯度生成情况,我们使用多物理场仿真软件模拟主通道内层流与稀物质传递,获得了对主通道内基于流动的梯度的评估结果。
在仿真软件内直接导入三维设计建模软件设计的三维芯片模型,选择了构建层流和稀物质传递两个物理场,并设置仿真相关的参数,选择模型的默认材料为水。层流物理场构建时,设置趋化物载入口和培养基载入口为流体入口,设置细胞载入口和废液储存口为流体出口,设置边界条件为压力,流体入口压力为30 Pa,流体出口压力0 Pa,并选择抑制回流。稀物质物理场构建时选择趋化物载入口为稀物质入口,并设置流体浓度为1 mol/m3,培养基载入口为另一入口且流体浓度设置为0 mol/m3,设置出口为细胞载入口与废液储存口。物理场构建成功后,选择常规大小的网格设置,并在稳态条件下进行计算分析。
通过计算结果,获得芯片内部的流体浓度分布如下图4所示,可以看到主通道内会产生因对流扩散生成的浓度梯度。为了验证主通道内是否生成稳定的浓度梯度以诱导细胞迁移,我们选择了主通道的前端、中端和末端,研究在三个位置的梯度生成情况,并使用origin软件绘制出各个横截面的浓度变化曲线图,如下图5所示。这证实了本文所设计的芯片能够在迁移主通道内生成可诱导细胞迁移的浓度梯度。通过实验进一步测试了浓度梯度生成情况,如下图6,由图可知在主通道内会有明显的梯度,且梯度方向垂直于通道。
![](//html.hanspub.org/file/32-2571555x10_hanspub.png?20240522083757009)
Figure 4. Concentration distribution in the main channel
图4. 主通道内浓度分布
![](//html.hanspub.org/file/32-2571555x11_hanspub.png?20240522083757009)
Figure 5. Concentration gradients at different locations in the main channel
图5. 主通道不同位置处的浓度梯度
![](//html.hanspub.org/file/32-2571555x12_hanspub.png?20240522083757009)
Figure 6. Concentration gradient actually generated
图6. 实际产生的浓度梯度
4. 数据分析工具
4.1. 数据获取与预处理
微流控芯片需要采用PDMS进行翻模制作,故首先需要制备用于翻模的硅片。在制作硅片中使用到了光刻工艺,这是一种常见的微纳加工工艺。其基本原理是借助光敏感材料在光照下产生相应的化学反应,从而实现将掩模版中的芯片结构刻蚀在硅片上。最后借助制备好的微流控芯片使用MDA-MB-231细胞进行细胞迁移实验。
图像标注是为图像中的不同目标提供语义信息(如位置、类别和关键点)的过程。这在标签和图像之间建立了对应关系,为后续的模型训练奠定了基础。训练集中标注数据的质量和数量会极大地影响深度学习模型的性能和泛化能力。要建立一个大型、高质量的数据集,就必须使用用户友好、高效的注释工具。本文选择了一个手动标注工具,它是一款多边形标注工具,可准确标注轮廓,常用于分割任务,但也支持目标检测和分类等其他任务。它支持对多边形、矩形、圆、折线、线段、点等进行标注。注释数据可以VOC格式和Coco格式保存。
但是由于成本、样本和实验条件的限制,收集足够的细胞图像训练数据往往比较困难,且手动标注极其耗时。为了获取丰富的训练数据,我们选择了两种数据增强方法和迁移学习方法。数据增强方法选择了几何变换中的旋转变换和多对比度增强。首先设置图像围绕中心点旋转180˚将数据扩增一倍,然后使用多对比度图像增强技术通过增强图像的对比度,突出细节信息并改善图像质量。图像增强效果如下图7所示,最终构建了一个包含1160张图片和标注掩码的训练数据集。
在模型训练过程中选择了迁移学习方法,通过将源领域的知识迁移到目标领域,改善了因训练数据不足而导致的模型性能较低的问题。在迁移学习中,不要求训练数据和测试数据独立且分布相同,也不需要从头开始训练模型。这大大减少了训练数据量和所需时间,同时又不影响模型的性能。
![](//html.hanspub.org/file/32-2571555x13_hanspub.png?20240522083757009)
Figure 7. Data enhancement results are shown, (a) is the original image, (b) is the result of rotation, and (c) is the result of multi-contrast enhancement
图7. 数据增强结果展示,(a) 为原图,(b) 为旋转结果,(c) 为多对比度增强结果
4.2. 数据分析模型
Segment Anything Model(SAM)是一个功能强大,泛化性高可适应多种下游任务的预训练模型,该模型由三个组成模块,分别是下图中的image encoder图像编码器、prompt encoder提示编码器和mask decoder掩码解码器 [19] 。如图8为SAM模型结构图,当图像输入后首先进入图像编码器,每输入一张图片,图像编码器运行一次,将图像映射到特征空间。这里的图像编码器选择使用MAE预训练过的Vision Transformer (ViT),使其可以接受高分辨率的输入。MAE是一种自监督的模型预训练方式,主要实现采取编码器–解码器的训练方式在大规模训练集上预训练模型。Transformer是一种经典的基于自注意力机制的模型,用于自然语言处理领域,而ViT实现将Transformer模型用于图像处理领域。提示编码器负责将提示映射到提示空间,此模块包括两种提示:稀疏提示,例如点、框、文本。这种提示的映射有两种组成,一种是位置编码用于表示点、框提示,另一种是利用CLIP表示的文本提示。其中CLIP是一种常用的文本编辑器,包括文本编辑器与图像编辑器,可实现预测图像与文本信息的对应关系。密集提示指掩码标记信息,这种提示使用卷积方式进行嵌入,并将处理结果与前一模块的图像嵌入做逐像素求和。第三模块是掩码解码器,这部分会将前面生成的图像嵌入、提示嵌入与输出标记映射到掩码上。此模块选择了变形的Transform解码器,对Transform的解码器部分进行修改,在之后添加了动态掩码预测头。此部分的功能是使用提示自注意与交叉注意(提示到图像嵌入,图像到提示嵌入)以更新嵌入信息。随后使用MLP映射输出标记到分类器,计算每个图像位置的掩码前景概率。其中MLP即多层感知器是一种神经网络,其网络包括输入层、输出层与连接两者的n个隐藏层,主要用于分类与回归任务。
经过测试在零样本训练的情况下,使用SAM模型分割细胞图像数据展现出较好的分割效果,如下图所示。故我们选择该模型,对其进行重新训练以提升分割性能。
在模型训练之前,训练需要设置合适的超参数,如学习率、训练周期等。学习率决定梯度下降过程中的步长,合适的学习率可以帮助模型在合理的时间内找到近似最优解,本模型选择学习率为0.01。训练周期表示模型训练处理的迭代周期。一个周期表示模型已经对整个训练数据集进行了一次训练。合适的训练周期值可以帮助模型充分学习训练数据的特征,提高模型性能,设置总训练周期为100。
深度学习模型的评价指标是用于衡量模型在特定任务中性能的数字指标。不同的评价指标适用于不同的应用场景,正确选择评价指标可以从多个方面帮助我们评价深度学习模型的性能。本文选择了四个评估指标,分别是准确度、精确度、召回率和
。
其中准确度(Accuracy)衡量模型对整个样本集预测的正确性,其计算公式为:
(1.1)
精确度(Precision)表示为预测为阳性像素的数量与正确预测为阳性像素的数量之间的比率,具体计算方式为:
(1.2)
召回率(Recall)表示正确预测的阳性像素占所有阳性像素的比例,计算公式为:
(1.3)
真实情况是高精确度值和高召回率值往往很难同时达到,而且经常会出现一个值高而另一个值低的情况,因此在评估模型时有必要对这两个指标进行综合权衡。是精确度值和召回率值的加权平均值,其中β是一个非负实数,表示精确度值和召回率值相对重要性的权重,当等于β等于1时,精确度和召回率的权重相等,称为
,计算公式为:
(1.4)
公式中涉及的各个参数为,TP指准确预测的阳性像素,例如,正确预测细胞图像中的细胞像素;TN表示正确预测的阴性像素,即正确地将背景正确识别为背景像素;FP表示阴性像素被错误地预测为阳性像素,即背景被错误地识别为细胞;FN指阳性像素被错误地预测为阴性像素,即细胞被错误地识别为背景。
如图9为分割效果,结果表明SAM模型可以识别出基本所有的细胞实例。经过计算可获得,SAM模型在少量数据集训练后准确度可达95.1%,准确率为80.5%,召回率为84.2%,
为82.0%。远高于分割准确度为83%的自动阈值法,且能达到其它深度学习模型使用大规模数据训练的效果。
5. 结束语
随着微流控技术在细胞研究中的广泛应用会产生大量的细胞图像数据,如何高效、准确的进行数据分析成为当务之急。因此本文首先基于微流控平台,设计一种细胞迁移芯片,该芯片可在很大程度上减少细胞接触与重叠现象,这大大减轻了后续的图像分析难度。通过仿真验证所设计的芯片模型,证实该芯片可以产生稳定的浓度梯度诱导细胞迁移。然后利用深度学习构建数据分析工具,选择SAM模型在少量数据集训练的条件下,获得可实现高效目标分割效果的工具。通过测试证明该工具与手动分割工具相比大大减少了数据处理所需时间,分割效果超过传统的图像分割方法,可满足数据分析的要求。