基于深度神经网络的新型肠鸣音检测分析方法
A New Method for Detection and Analysis of Bowel Sounds Based on Deep Neural Networks
DOI: 10.12677/IaE.2020.83012, PDF, HTML, XML, 下载: 602  浏览: 1,747  科研立项经费支持
作者: 卫子然, 张 鑫, 李 东, 蔡清萍*:上海长征医院肠胃外科,上海;操家庆, 桂 坤:宁波江丰生物技术有限公司,浙江 宁波
关键词: 肠鸣音深度神经网络特征提取Bowel Sounds Deep Neural Networks Feature Extraction
摘要: 肠鸣音是人体重要的生理信号,对肠鸣音的检测和分析具有重要的临床价值。传统的听诊器检测法主观性强,且无法做到连续、动态的监测,导致数据的时效性及精确性差。另一种方法是借助声音传感器采集和数字化肠鸣音,然后利用计算机对肠鸣音进行处理和特征分析,以实现对肠鸣音客观,定量检测。但由于肠鸣音具有环境噪声干扰大、周期性差、随机性强等特点,人工提取普适稳定的特征极为困难,导致这种识别方法检测准确率较低。项目组提出一种有效的肠鸣音检测方法,即先提取肠鸣音的MFCC特征,然后采用深度神经网络提取更加稳定抽象的特征,最后采用softmax识别出肠鸣音出现的位置和肠鸣音具体的类别。实验表明,这种方法能够准确检测出肠鸣音出现的时刻,同时也有较高准确率识别肠鸣音类别,值得在临床中推广应用。
Abstract: Bowel sounds is an important physiological signal of the human body, and it has important clinical value for the detection and analysis of bowel sounds. The traditional stethoscope detection method is highly subjective and cannot be continuously and dynamically monitored, resulting in poor timeliness and accuracy of data. Another method is to use a sound collector to collect and digitize bowel sounds, and to use a computer to reduce noise, amplify and manually extract features, and identify them through a classifier. However, due to the characteristics of large environmental noise interference, poor periodicity, and strong randomness, artificial extraction of universal features is extremely difficult, resulting in lower classifier recognition accuracy. In this paper, an effective method is proposed for the detection of bowel sounds, namely, the MFCC feature extraction of bowel sounds, and then the deep neural networks is used to detect the category of bowel sounds. The confirmative study of large samples based on the bowel sounds database shows that this method has high recognition accuracy and can avoid the high complexity of human extraction features, so it is worth popularizing in clinical application.
文章引用:卫子然, 张鑫, 李东, 操家庆, 桂坤, 蔡清萍. 基于深度神经网络的新型肠鸣音检测分析方法[J]. 仪器与设备, 2020, 8(3): 93-99. https://doi.org/10.12677/IaE.2020.83012

1. 引言

肠鸣音是肠蠕动时肠管内气体和液体随之流动而产生的一种断断续续咕噜声或气过水声,它反映了人体肠道的运动状态。作为一个重要的临床体征,肠鸣音的监测在临床上,尤其是胃肠外科、急诊外科具有重要的意义 [1]。传统方法采用听诊器诊断,但这种方法由于不同临床医生的经验水平等不同主观因素,导致其准确率低,临床价值大大降低 [2]。为了客观,量化的诊断肠鸣音,一些研究者提出先通过传感器采集并数字化肠鸣音,然后通过借助数字信号处理的技术来提取分析不同肠鸣音的不同特征来诊断肠鸣音方法 [3]。但由于肠鸣音的特异性和敏感性差,外部噪声强,如何提取稳定、普适的特征是数字化肠鸣音诊断的难点。

2. 相关工作

传统先采用自适应滤波器 [4] 和小波变换滤波器 [5] 对肠鸣音进行降噪,然后采用小波分析,归一化香浓能量分布,功率谱密度估计等多种方法对肠鸣音进行特征提取 [6]。这些特征能够很好区分出机械性肠梗阻引起的亢进类型肠鸣音。然而现有的滤波器无法完全过滤肠鸣音中所有的噪声,这些噪声对减弱和消失等肠鸣音等的特征提取造成了较大的干扰,导致这类肠鸣音提取到的特征无法用简单线性分类器识别。

近年,深度神经网络已被证明语音识别邻域有效性,主要原因在于它是非线性的分类器,即利用多层非线性的感知器,不依赖的专门人工特征提取就能到达较高的识别率。此外经过特定的训练的深度神经网络具有很高的抗噪性。鉴于此,项目组提出一种深度神经网络来检测肠鸣音方法,即先提取肠鸣音的MFCC特征以降低计算量,然后采用一种基于wavenet [7] 深度神经网络提取更加稳定抽象的特征,并添加注意力层,对神经网络每个输出节点特征进行加权。最后采用softmax识别每个输出节点对应时刻是否出现肠鸣音,同时融合每个输出节点输出的特征,采用softmax识别该肠鸣音具体类别。

3. 方法

本节具体介绍我们提出肠鸣音识别方法3.1和训练方式3.2,随后将在第4节通过实验介绍该方法每个模块对识别效果产生的影响。

肠鸣音识别方法

MFCC特征提取:一般肠鸣音传感器的采样率(fs)为8000 HZ,采集时间为2~4分钟,那么采集到肠鸣音的数据长度高达96万。如果直接用于识别,计算量大难以达到实时要求。幸运的是Davis等人基于听觉模型提出将语音转化为MFCC特征的方法 [8],不仅能提高语音识别准确率,而且转化后的MFCC特征的数据长度与原始语音数据相比大幅缩短,降低后续语音处理的计算量。为了验证MFCC特征也能够用于肠鸣音的识别,本文随机提取不同类型(亢进,活跃,正常,减弱,消失)肠鸣音的MFCC特征,并可视化其特征图(如图1),结合病理医生标注的肠鸣音位置信息,可看出大部分肠鸣音出现时刻巧好在图1中高亮的橘黄色区域。本文根据经验选取长度为移动步长(step)为32 ms的滑窗来提取肠鸣音MFCC特征(其他移动步长的滑窗应该也能取得相似识别效果)。在该参数下,每秒的的音频数据长度(length)从原来的length = fs降低至1000/step = 32左右长度的数据。

Figure 1. MFCC feature map of different types of bowel sounds

图1. 不同类型肠鸣音的MFCC特征图

基于wavenet的肠鸣音特征提取:尽管MFCC特征能过直观的区分响亮肠鸣音和非肠鸣音特征,但和其他传统的特征提取法一样无法直观区分噪声和轻微的肠鸣音,我们用深度神经网络进一步提取更加稳定抽象的特征。为了确保神经网络能够提取到有效的肠鸣音特征,则需要神经网络最后一层的每个输出节点能够获取足够的上下文信息,即足够大的感受视野(Receptive Field)。我们采用wavenet作为肠鸣音的特征提取层,因为wavenet每个基础层采用空洞卷积,以指数增长的方式扩大感受视野。如图2所示,假设wavenet某一基础层含有n个隐藏层,每个隐藏层的卷积大小为k,那么该基础层的每个输出节点的感受视野为 ( 2 n + 1 2 ) ( k 1 ) + k

Figure 2. Wavenet basic network structure

图2. Wavenet基础网络结构

为了确定肠鸣音的最大感受视野,即确定wavenet中n和k的取值范围,本文从鸣音数据库中随机抽取了不同类型(正常,活跃,亢奋,减弱,消失)的肠鸣音各100条,然后统计了这些肠鸣音中每一小段的肠鸣音持续时间。如图3所示,大部分的肠鸣音持续时间在4 s以下,因此肠鸣音的网络特征输出感受视野(ReceptiveField)应在4 * length = 128左右。根据经验,空洞卷积核的大小k取值范围为3,5,7,则对应的隐藏层数n取值范围为6,5,4。我们发现卷积核大小k = 7时,层数n = 4,识别效果最好。

Figure 3. Distribution of bowel sounds with different loudness

图3. 不同响度肠鸣音持续时间分布图

注意力层:我们在采集肠鸣音发现,消失,减弱等大部分情况下肠鸣音的持续时间不到10 s,占采集音频的总时长不足10%。于是我添加注意层,以降低降低背景声音的比重。即在wavenet特征输出层添加一个全连接层,预测每个输出节点输出特征的贡献度,并用softmax将这些贡献度进行归一化,然后将归一化的贡献度乘以原输出特征,得到注意力加权后的特征。

识别结果输出:我们对加权后的特征,采用softmax预测每个输出节点是否出现肠鸣音(肠鸣音定位),然后将所有输出节点累加后用softmax输出肠鸣音音频的类别。

数据采集:神经网络能不能具有较长抗噪性,取决与训练数据集中是否含有多样的噪声数据。为了确保神经网络在训练时能够学习到噪声和肠鸣音的区别,我们额外采集了200个不同非肠鸣音用于训练,这些数据包括心跳声,远处的说话声和汽笛声等。我们发现,通过添加额外的数据训练有效降低肠鸣音的错误率。

4. 评估

4.1. 评价指标

我们采用了准确率(accuracy)评估神经网络的肠鸣音音频分类性能,并采用F1-Score评估肠鸣音定位性能。如图4所示,红色曲线为人工标注的阳性区间。绿色曲线为人工标注的阴性区间,红色背景为模型输出的阳性片段,绿色背景为模型输出的阴性片段。其中模型将人工标注的阴性区间预测为阳性总长定义为FP,模型将人工标注的阳性区间预测为阴性总长定义为FN,模型将人工标注的阳性区间预测为阳性性总长定义为TP,那么实验的评估指标为:

Figure 4. Pointing and prediction of bowel sounds

图4. 肠鸣音标注和预测图

4.2. 实验

4.2.1. 数据

1) 采集方法

项目组通过骨传导采集器,能够将测试患者肠鸣音存储为音频播放文件。应用该采集器,对上海长征医院3000个不同的病人,进行肠鸣音数据采集,每段音频时长在2~4分钟,采样频率fs为8000 HZ。

2) 数据分布

随机选取其中2000个数据用于训练,另外1000个用于测试。样本集分布情况如表1所示。

Table 1. Sample set distribution

表1. 样本集分布情况

4.2.2. 模型

wavenet由多层基础层组成。我么尝试多种不同层数验证其效果。其结果如图5所示,当层数到增加至3以后,测试集分类准确率和肠鸣音定位F1几乎不在增加。

Figure 5. Accuracy under different layers

图5. 不同层数下识别效果

我们用三层基础层的wavenet提取肠鸣音特征,尝试添加注意力层和自适应滤波来检测肠鸣音。识别效果如表2所示,注意力层对模型的分类的提升效果显著,其原因在与注意力层让神经网络更加专注于音频中肠鸣音部分的特征提取,此外从表中也看出自适应滤波对肠鸣音提升效果不大,这说明我们通过增加噪声训练的神经网络具有与自适应滤波相同的抗噪性能。

Table 2. Impact of different modules on the recognition of bowel sounds

表2. 不同模块增加对肠鸣音识别效果的影响

5. 总结与展望

实验证明,对肠鸣音MFCC特征提取后,基于wavenet神经网络对肠鸣音识别,能够达到较好的识别效果,其中肠鸣音音频分类准确率高达72%,音频肠鸣音定位的F1-score高达88%,能够极大的提高临床诊断效率和准确率。

基金项目

军队重点项目(BWS13C011);上海申康“市级医院新兴前沿技术联合攻关项目”(SHDC12017126);上海市卫健委面上项目(201940493)。

NOTES

*通讯作者。

参考文献

[1] Cannon, W. (1905) Auscultation of the Rhythmic Sounds Produced by the Stomach and Intestines. American Journal of Physiology, 14, 339-353.
https://doi.org/10.1152/ajplegacy.1905.14.4.339
[2] 侯峰, 刘思达, 段降龙. 肠鸣音检测技术的应用进展[J]. 世界最新医学信息文摘, 2018, 18(A5): 128-129.
[3] 胡勇, 刘文辉. 肠鸣音的采集与分析[J]. 中国生物医学工程学报, 1995, 14(3): 266-275.
[4] Mansy, H.A. and Sandler, R.H. (1997) Bowel-Sound Signal Enhancement Using Adaptive Filtering. IEEE Engineering in Medicine and Biology, 105-116.
https://doi.org/10.1109/51.637124
[5] Hadjileontiadis, L.J. (2000) Enhancement of Bowel Soounds by Wave-let-Based Filtering. IEEE Transactions on Biomedical Engineering, 47, 155-159.
https://doi.org/10.1109/10.846681
[6] 张和华. 人体肠鸣音检测系统研制及肠鸣音信号处理方法研究[D]: [硕士学位论文]. 重庆: 第三军医大学, 2009.
[7] Oord, A.V.D., Dieleman, S., Zen, H., et al. (2016) WaveNet: A Generative Model for Raw Audio.
[8] Davis, S. and Mermelstein, P. (1980) Comparison of Parametric Representa-tions for Monosyllabic Word Recognition in Continuously Spoken Sentences. IEEE Transactions on Acoustics, Speech, and Signal Processing, 28, 357-366.
https://doi.org/10.1109/TASSP.1980.1163420