移动阅读
GAO Feng,YIN Xin,LIU Quansheng,et al. Coal-rock image recognition method for mining and heading face based on spatial pyramid pooling structure[J]. Journal of China Coal Society,2021,46(12):4088-4102.
我国煤炭资源丰富,在未来相当长时期内煤炭仍然是我国的主要能源[1-3]。预计2030年和2050年,煤炭占我国一次能源消费比例仍将保持在50%和40%以上[4-5]。煤矿智能化是实现行业高质量发展的核心技术支撑和必由之路,其中,煤岩界面的智能识别,是实现开采、掘进智能化和无人化的关键技术之一。在综采工作面,煤岩突变是导致井下开采难度增大、效率低下的重要原因[6],对采煤工作面煤岩分布状态的准确判定是采煤机参数智能调节的必要前置条件;在巷道掘进工作面,对掘进工作面内的煤岩分界线进行快速且准确的识别和定位,是实现智能化跟顶、跟底掘进工艺的重要基础。然而,受限于煤矿井下复杂的环境条件,如何在采煤和掘进工作面内实现高精度的煤岩识别,是煤矿行业内迟迟未能得到有效解决的技术难题之一,极大制约了煤矿智能化的进步与发展。
多年来,为解决煤-岩的分类与识别问题,国内外研究人员从不同的专业领域提出了多种解决方案。杨恩等[7]根据煤岩样本在近红外波段反射光谱曲线上的差异性表现,在实验室条件下提出了基于聚类距离改进型模糊C均值聚类(FCM)算法的典型煤岩反射光谱无监督感知方法。张强等[8]采集了采煤机工作条件下截齿的振动加速度信号、振动频谱图、齿尖红外闪温值和温度-频数图像,从截齿的振动信号和红外热像信号的角度对煤岩识别问题进行了研究。田立勇等[9]以采煤机摇臂销轴为研究对象,通过对销轴应变数据以数据融合的方法进行处理,降低了识别误差。李力等[10-11]利用煤与岩的声阻抗差异以及相控阵技术,提出了基于超声相控阵的煤岩界面识别方法。总体来讲,受煤矿井下开采过程中复杂环境因素(如粉尘、振动、淋水等)和传感器性能制约,上述解决方案的技术成熟度较之现场部署应用的需求仍有不小的进步空间。
基于图像的煤岩识别技术是解决煤岩识别问题的另一个重要研究方向,国内外众多学者在该方向取得了许多有意义的研究进展。伍云霞等[12]在图像特征提取中引入了局部约束的字典优化模型,提高了支持向量机算法对煤岩图像分类的识别率。黄蕾等[13]提出了一种基于变差函数和局部方差图的煤岩纹理特征提取算法,实现了对局部二值模式丢失信息的再利用。近年来,以深度神经网络为代表的人工智能技术在世界范围内取得了快速的发展,包括图像识别在内的二维数据特征提取、回归和分类问题在深度学习思想的有力推动下实现了巨大的进步。王星等[14]基于对抗生成网络,提出了Var-ConSinGAN模型,用以在数据库容量有限的情况下扩充煤-岩图像数据集。司垒等[15]将用于医学图像分割的U-Net模型引入煤岩识别领域,并分别在实验室和井下综采工作面现场对算法性能进行了测试。然而,目前基于深度学习技术的煤岩图像识别研究尚处于发展阶段,在对条带状分布的小范围夹矸检测、煤-岩模糊边缘轮廓(如炭化泥岩与煤层间的模糊分界线)识别、不同环境条件下的算法适用性等实际场景应用中所面临问题的应对上仍存在众多挑战。
当前应用于煤岩识别的算法模型大多基于全卷积网络(FCN)算法框架,并利用深度卷积神经网络强化算法对于动态对象的理解能力[16],但考虑到实际采煤和掘进工作面内的复杂环境,现有技术方案往往存在误判的可能,如将淋水、暗光、存在闪光灯反光等综合性不利条件下的沉积岩层错误的识别为煤层等。为进一步解决复杂场景下基于图像的煤岩识别问题,笔者将以塔式池化技术为核心,融合深度卷积神经网络技术,构建一种可表征全局先验信息的煤岩图像分割模型(Coal-Rock Pyramid Network,CRPN),通过塔式场景解析架构,将难以获取的全景信息特征嵌入到模型框架内,实现像素级别的煤岩区域划分。
在实际煤岩识别任务中,采煤工作面或掘进工作面目标区域内的煤、岩分布将占据防爆相机所获取图像内容的绝大部分空间。从生产实际的角度出发,一些过于细微的局部夹矸情况往往不会对具体工况造成实质性影响。因此,相比于微小目标的识别,面向采煤工作面和掘进工作面的煤岩图像识别技术应更加注重对较大范围目标的识别准确性。笔者从增强全局信息的角度出发,设计了一种基于塔式池化架构的煤岩图像分割网络模型(Coal-Rock Pyramid Network,CRPN),该模型的主要结构如图1所示。
图1 CRPN模型主要结构
Fig.1 Main structure of the CRPN model
CRPN模型可划分为3个主要的计算流程:
(1)第1阶段计算的主要目的是进行特征提取,输入图像后,使用深度可分离卷积神经网络构建特征提取网络,实现对输入图像的编码。在深度可分离网络中使用了空洞卷积和嵌入全局注意力机制的残差卷积模块,拓展感受野,强化有效特征。经提取特征后,输出尺寸为原图1/8大小的特征图,进入下一阶段计算。
(2)第2阶段为基于塔式池化架构的特征图解码计算,通过将池化计算嵌入塔式分解架构,弱化了特征图内部不同区域之间关联信息的损失,强化了全局信息影响。输出的特征图统一为相同的尺度和个数,经上采样计算后与输入特征图拼接,进入下一阶段计算。
(3)第3阶段执行网络的预测输出,将前2个阶段计算后获得的特征图经过多层卷积神经网络,重新映射到原始输入煤岩图像中的每一个像素点,实现像素级别的煤岩图像识别预测。
笔者提出的CRPN模型的核心技术体现在4个方面:采用深度可分离卷积构建的特征提取网络、使用空洞卷积扩大特征图的感受野、嵌入全局注意力机制的残差卷积模块、基于空间塔式池化架构的计算框架,上述4项核心技术将在下文进行详细介绍。
在输入图像的编码部分,笔者提出的CRPN算法采用了深度可分离卷积,以尽量可能小的计算量实现对原始输入图像煤、岩区域特征的准确提取,提高算法的运行效率。
标准卷积计算过程中,所有通道上的输入特征图都会同时进行卷积计算(图2)。深度可分离卷积与标准卷积计算的主要区别在于,将空间维度和通道维度的计算拆分成为2个子运算,即深度卷积计算(图3(a))和点向卷积计算(图3(b))。
图2 标准卷积计算流程
Fig.2 Standard convolution calculation process
图3 深度可分离卷积流程
Fig.3 Depthwise separable convolution process
深度卷积计算的卷积核与特征图在通道维度上一一对应,每个卷积核自身的通道数为1,计算后收集到了通道特征,也即深度特征。点向卷积计算的卷积核尺寸均为1×1,卷积核自身通道数与输入特征图通道数相同,数量与输出特征图通道数相同。点向卷积的计算相当于尺寸为1×1的标准卷积计算,实现通道之间的特征融合。
将深度卷积计算和点向卷积计算结合,即构成了深度可分离卷积的基本框架,假设输入特征图通道数为M,图像高、宽尺寸分别为H,W,卷积核尺寸为k×k,输出特征图尺度不变,通道改变为N,则深度可分离卷积的参数量PS和计算量QS分别由式(1),(2)计算。
PS=Mkk+NM×1×1
(1)
QS=MWHkk+NMWH×1×1
(2)
相对应的标准卷积参数量PC和计算量QC由式(3),(4)计算。
PC=N×M×k×k
(3)
QC=N×M×W×H×k×k
(4)
深度可分离卷积的整体计算效果和标准卷积基本一致,但计算量和参数量会大幅减少。以一个输入张量形式为12×12×4、输出张量形式为12×12×2、卷积核尺寸为3×3的计算流程为例,标准卷积计算参数为72,计算量为10 368,而采用深度可分离卷积后,计算参数下降至44,计算量下降至6 336,降度达到40%。
在实际算法当中,特征图无论从尺度上还是通道数量上,都会更为庞杂。表1列举了目前常用的特征提取网络和笔者所提出CRPN特征提取网络的参数量对比,可见采用深度可分离卷积技术后,减少的参数量达到108数量级,大幅增进了算法的运行效率。
表1 特征提取网络参数规模对比
Table 1 Comparison of parameter scale of feature extraction network
模型参数规模/106CRPN(特征提取网络)4.8ResNet[17]23.6VGG 16[18]138.0AlexNet[19]60.0Inception V3[20]23.2
针对应用于现场的煤岩图像识别任务,全局信息扮演着重要的作用,这一点已在前文中进行了论述。落实到算法研发层面,则可表征为这样的需求:应当在图像特征提取的过程中尽量增大卷积运算的感受野,同时尽量避免降低图片的分辨率,且不引入额外的参数及计算量。为满足这样的需求,笔者对特征提取过程中的卷积运算形式进行了改进,采用混合空洞卷积(HDC)技术[21]替代了标准卷积核,实现了卷积运算感受野的有效拓展。
为增大感受野,在标准卷积运算的框架内,存在3种理论上可行的解决方案:增加卷积运算步长、池化计算以及采用大尺寸卷积核,但这3种解决方案各有其弊端。卷积运算步长的增加会导致特征图分辨率降低,池化计算会导致特征信息损失,均不利于后续算法对目标特征的划分。如若选择使用大尺寸卷积核,则会显著增加参数规模和计算量。
而采用空洞卷积技术,则可以有效规避上述问题。空洞卷积技术可以形象地总结为:在输入图像的既有像素上,跳过(r-1)个像素点进行卷积计算,或保持输入图像不变,在卷积核参数中插入(r-1)个0值权重,进而达到扩大卷积计算感受到的空间范围的目的,其中r为空洞卷积的扩张率。在标准卷积核的基础上执行了空洞卷积计算后,空洞卷积核的尺寸n可由下式计算:
n=k+(k-1)(r-1)
(5)
式中,k为计算前的标准卷积核尺寸。
此时,感受野由标准卷积的k×k个像素扩展到[k+(r-1)(k+1)]×[k+(r-1)(k+1)]的像素空间,输出的特征图高h1、宽w1为
(6)
(7)
式中,p为填充值;S为步长。
一般情况下,空洞卷积计算过程中的扩张率r是一个常数,这又带来一个新的问题,即感受域不连续。井下采掘工作面煤岩赋存条件复杂,图像数据中涵盖大量细节信息,采样点之间过大的离散性将导致细节特征无法得到有效提取。为避免上述不利条件,本论文采用了混合空洞卷积(HDC)技术,通过调整扩张率r的方式,在保证感受野足够大的前提条件下,避免了对小物体无法表征难题。
以标准卷积核尺寸为3×3的空洞卷积和混合空洞卷积计算为例进行对比,如图4所示。
图4 空洞卷积与混合空洞卷积对比
Fig.4 Comparison of dilated convolution and hybrid dilated convolution
图4(a)为扩张率r=2,2,2时的空洞卷积计算结果,图4(b)为r=1,2,3时的混合空洞卷积计算结果。从对比中可以看出,当层数增加时,空洞卷积采样点变得极为稀疏,丢失了大量的局部信息,这种“网格效应”无法保证信息之间的连续。而采用混合空洞卷积后,第1层保留了完整连续的3×3区域,后续2层通过扩张率的调整,在感受野区域尺寸相同的条件下,保持了感受野内部各采样点之间的连贯,特征之间的相关性和局部细节特征得到了有效提取。
在基于卷积神经网络技术的常规图像识别算法模型中,何凯明等[22]提出的残差卷积(Resnet)模块是特征提取网络设计中的常见结构,其目的在于降低网络层数带来的梯度消失问题,进而显著强化算法模型的计算能力。常规的残差卷积结构如图5所示,其中,F(x)为神经网络层加权求和函数。
图5 残差卷积结构
Fig.5 Residual convolution structure
残差学习的主要技术手段体现在对模块输入、输出信息的直接相加,这一处理方式从根本上改变了模块内部网络结构的学习逻辑。在采用残差卷积技术前,网络结构的学习结果直接体现为输出信息,而采用残差卷积技术后,内部网络学习的内容转变为输入、输出信息之间的改变量,进而从根本上避免了梯度为0所带来的困扰,使得后续的网络结构仍然可以接收到有效信息。
残差卷积改变了网络的学习逻辑,但没有改变学习模式。残差卷积的本质仍是依赖卷积核所提供局部感受野上的有限信息进行特征图的提取与重构,特征通道之间权重没有加以区分,这会带来一个问题,即全局无关的特性也可以自由地经由网络结构向下传递,最终对特征信息的准确性产生负面影响。
从仿生学的角度讲,卷积神经网络的这一问题违背了人眼对图像的感知过程。在井下采煤或掘进工作面,人眼对煤壁夹矸情况的判识过程首先是对煤壁整体状态进行快速扫描,在获得整体感知的基础上,再被夹矸区域的异常状态所吸引,继而投入更高的注意力到夹矸区域,最后通过对细节信息的观察确定煤岩分界线的具体位置。将这一过程加以提炼和抽象,其关键问题在于对全局注意力机制的准确描述和有效表征。基于此,笔者提出了嵌入注意力机制的残差卷积模块,其主要网络结构如图6所示,其中,C为特征图通道数。
图6 嵌入注意力机制的残差卷积模块
Fig.6 Residual convolution module with embedded attention mechanism
模型的主要改进点表现在原有经典残差卷积模块的基础上新增了一个网络分支,用以专门计算特征通道维度的权重,在对拟输出信息加权处理后再执行残差计算。新增网络分支对注意力机制的表征分3个步骤实现:
步骤1:嵌入全局信息。通过式(8)进行全局平均池化计算,将每个通道上的特征图维度降为1。
(8)
式中,uc为各位置上的特征值;zc为最终的输出结果。
该步骤意义在于从每个通道上对特征图进行压缩,特征图经压缩后由二维转化为一个一维实数,该实数天然具备整张特征图空间上的全局感受野,体现了人眼对物体整体感知的过程。池化计算结束后,最终的输出结果为与通道维度一致的一维向量,该向量表征了特征通道上相应的全局信息。
步骤2:自适应性重调。引入深度循环神经网络中的门控机制,通过Sigmod激活函数获取各通道之间的权重因子。为了不加深整体模型的参数复杂度,笔者使用了2个由ReLU函数激活的线性全连接神经网络层对通道间的相关性进行建模,ReLU函数表达式如式(9)所示。首先通过一个全连接网络层将特征维度降低到输入的1/a,此处的a为与通道数量相关的参数。经ReLU函数激活后,再由一个全连接网络层恢复原有维度。相对于直接用一个全连接网络层处理的传统处理方式,笔者所提出的方法一方面具备更强的非线性,可以更好地拟合通道间复杂的相关性;另一方面也精简了模型的参数量和计算复杂度。
ReLU(x)=max(0,x)
(9)
步骤3:特征通道加权。上一步计算结束后,经Sigmoid函数输出,Sigmoid函数表达式如式(10)所示。输出向量维度仍与通道维度一致,该向量表征了通道的权值信息。通过对特征图通道维度的加权处理,实现全局感知,最终通过残差计算完成分支网络的嵌入。
(10)
笔者所提出的嵌入注意力机制的残差卷积模块在完成其防止梯度消失本职任务基础上,基于全局信息对每个通道进行赋值,降低了全局无关特性对后续特征图的不利影响,强化了有效特征,进而提升整体算法的训练效率和准确性。
塔式分解架构是一种有效的信号处理技术,早在20世纪90年代,就有学者将其应用在图像等二维信号的离散小波变换处理任务中[23],通过利用不同阶数的方向微分算子作为基函数,获取不同方向的细节特征,形成了以可控塔式分解等为代表的一系列技术成果[24-25]。进入21世纪,塔式分解架构又有了进一步的发展,被应用于SVM[26]、特征直方图[27]等图像识别领域。随着近10 a年以来深度学习技术的快速发展,塔式分解架构也被应用于深度卷积神经网络模型中[28]。
常规的塔式池化架构主要目的是用于消除全连接神经网络对于输入特征图大小的固定约束条件。传统用于图像分类的卷积神经网络一般可分为卷积网络模块和全连接网络模块,卷积网络模块的参数集中表征为卷积核,对于任意尺度特征图的输入和输出均可表现出强大的适用性。而承担最终输出任务的全连接网络模块则对输入特征图尺寸极其敏感,其参数表征为神经元之间连接的全部权重,输入特征图的尺寸直接决定了全连接网络模块的参数数量。为解决这一问题,一般的操作是在图像预处理阶段对图像进行缩放或截取,使输入到模型中的初始图像尺寸一致,但这样粗放的预处理方式往往造成图像的扭曲或信息损失,降低了识别效率。2015年,何凯明[29]提出了SPPNet,将塔式分解架构与池化计算结合后引入卷积神经网络结构,将卷积层输出的特征图在不同尺度上进行池化计算,再在各尺度上提取固定维度的特征,最后进行特征拼接,以一个固定维度进行输出(图7)。
图7 SPPNet采用的塔式池化架构
Fig.7 Spatial pyramid pooling adopted by SPPNet
在这种将塔式分解架构应用于图像分类任务的思想启发下,笔者提出了适用于煤岩图像分割任务的空间塔式池化架构(图11)。需要特别说明的是,笔者所引入的空间塔式池化架构与SPPNet有着本质的区别。SPPNet使用塔式架构的主要目的是消除图像分类任务中全连接网络模块对于输入特征图固定大小的约束,而笔者提出的CRPN中,主要目的是为了弱化特征图内部不同区域之间关联信息的损失,以获得更多的全局信息。笔者所采用的空间塔式池化架构基本结构如图8所示。
图8 CRPN采用的空间塔式池化架构
Fig.8 Spatial pyramid pooling adopted by CRPN
笔者将塔式分解架构与池化计算相结合,作为一种可表征特征图全局先验信息的多级模块,以涵盖不同尺度、不同区域的信息特征,用于在特征提取网络模块之后实现全局场景的重构。该架构通过多层级同步进行的计算流程实现了各类不同尺度特征的混合。第1层级计算流程是对输入的特征层进行全局平均池化计算,后面的各层级计算流程将输入的同一个特征图进行区域划分,并对划分后的各区域分别进行全局池化计算。不同层级的计算流程将输出尺度不一的特征图,通过一个大小为1×1的卷积核进行降维,如果总层数为N,则各层级最终输出的特征图数量为输入数量的1/N,以便最终拼接后与输入特征图个数保持一致。
经降维计算后,各层级输出的特征图尺寸、数量均相同,统一使用双线性差值法进行上采样计算,恢复到原始输入特征图大小。双线性插值法计算过程如图9所示,其中,R1,R2为双线性插值中间过程变量。在已知Q11(x1,y1),Q12(x1,y2),Q21(x2,y1) 以及 Q22(x2,y2) 四点取值的条件下,在x,y双向进行线性插值,经式(11)计算,求得未知点P处的取值f(x,y),实现特征图的上采样重构。
图9 双线性插值
Fig.9 Bilinear inter polation
(11)
各层级计算流程重构后的特征图尺度与输入尺度相同,将所有重构后的特征图与原始输入特征图进行特征拼接,作为空间塔式池化架构最终的输出。
空间塔式池化架构的层级数量和各层级输出特征图的尺寸均可根据原始输入图像而自定义调整。考虑到整体架构对于区域特征的提取是通过不同尺度的池化核计算完成,因此各层级间采用的池化核尺寸应保持合理的梯度。笔者用在CRPN算法中的空间塔式池化架构包含4个层级,各层级池化核尺寸分别为1×1,2×2,3×3和6×6。
为保证算法在井下实际采煤、掘进工况下现场应用的可靠性,对煤矿井下薄煤层采煤工作面原位煤岩图像进行了信息采集。借助高感光度本安型单反数码相机,在暗光条件下获取了包含煤岩分布的高清图像。经过扭曲、缩放、翻转、添加噪声等图像预处理方式,扩充了训练样本库,使用Labelme软件对图像样本进行标注,生成与训练样本相对应的标注信息文件,完成数据库的搭建。数据库中含有6 400个有效样本,可以满足算法的训练、验证、测试要求。
煤岩原始图像数据采集自陕西省神木市某矿井薄煤层综采工作面、陕西省咸阳市大佛寺煤矿掘进工作面。图像采集设备为高感光度本安型单反数码相机,该相机可获得感光度最大值为ISO40000,最高分辨率为6 240×4 160(2 600万像素),具备暗光条件下高清图像的拍摄能力,高感光度本安型单反数码相机详细参数见表2。
表2 高感光度本安型单反相机参数
Table 2 Parameters of high-sensitivity explosion-proof camera
参数数值感光度范围ISO 100~40 000有效像素2 620万最高分辨率6 240×4 160传感器尺寸/(mm×mm)35.9×24快门速度/s1/4 000~30电池类型本安型防爆电池
通过高感光度本安型单反数码相机在薄煤层综采工作面拍摄到的井下原位煤岩图像如图10所示。图像拍摄点为煤岩分界线附近,主要分为4类图像,即煤岩完整类(图10(a))、裂隙阴影类(图10(b))、暗光类(图10(c))、暗光且有支护遮挡类(图10(d)),基本反映了煤岩识别算法应用过程中可能面对的煤岩分布常见环境条件,网络模型训练数据库图像合计496张。
图10 井下原位图像
Fig.10 In-situ image of downhole
煤矿井下环境条件复杂,对图像数据往往造成干扰,因此在模型的训练过程中,应对训练集图像进行噪声添加。同时,为防止算法在训练过程中因样本数量过少出现过拟合,在图像预处理过程中也需要对原始样本集进行数据扩充。笔者主要采用数据处理手段有:添加噪声、改变图像特征和改变图像形态。其中,添加噪声方式包括高斯噪声、椒盐噪声、泊松噪声和均匀噪声,改变图像特征方式包括色温和对比度的改变,改变图像形态方式包括长宽扭曲和旋转。经预处理后的图像统一尺寸为320 pix×212 pix,如图11所示。
图11 经预处理后的图像形态
Fig.11 Image morphology after preprocessing
应用于CRPN算法模型训练的完整数据库,除样本集图像外还应包括详尽的标注信息,在有监督学习过程中提供正确的先验信息。笔者使用Lableme软件完成对训练样本的标注及标签文件的生成工作。
在实际工况下,由于节理、裂隙的存在,可能出现光线遮挡,形成阴影区域,无法判断煤岩条件。为更加紧密的贴合实际应用环境,在数据标注过程中,将图像区域划分为3类:煤、岩、阴影。标注完成后,经软件处理,形成格式为24位图的标签图像,如图12所示。
图12 数据库标签集
Fig.12 Database label set
为提高计算效率,笔者利用GPU在执行浮点运算过程中可大批量并行的计算优势,通过CUDA调用GPU硬件,在GPU加速环境下对CRPN算法模型进行训练。具体硬件、软件环境见表3。
表3 算法训练硬件/软件环境
Table 3 Algorithm training hardware/software environment
软硬件环境规格CPUIntel Core i5-9400FGPUGeForce GTX 1650内存/GB16.0显存/GB4.0CUDA11.0.197深度学习框架TensorFlow 1.31.1语言Python 3.6其他关键库Numpy 1.16.0Keras 2.1.5Open CV 4.4.0
笔者提出的CRPN算法是一种面向图像的像素级分类算法,通过对煤岩图像的编码与解码,判定图像每个像素的所属类别,继而实现图像煤、岩及阴影区域的分割。经编码与解码后,CRPN算法会计算得到各像素点属于各类别的分值,该分值经过softmax函数转化为最终的概率输出,softmax函数表达式为
(12)
式中,xs为softmax函数输入向量中的分量。
算法在完成训练前,其预测得到的类别概率值往往存在较大的偏差,需要通过损失函数计算数据库内对应标签文件中真值与输出概率值之间的错误程度,即损失值,该损失值即作为算法的整体优化目标。因此,损失函数在算法训练中扮演关键角色。本文选择交叉熵损失函数J作为CRPN算法训练过程中的损失函数,其表达式为
(13)
其中,M1为类别的数量;c为类别序号;δc为对应类别c的指示变量,当算法分类正确时取1,否则取0;pc为对于观测样本属于类别c的预测概率。一般情况下,对数以e为底。
训练优化过程中,损失函数对算法模型中各神经元权值求偏导,由链式法则可拆分为3项偏导的乘积:
(14)
式中,sci为解码后属于类别i的得分;wj为第j个权值参数;pk为属于类别k的输出概率。
将3项分别计算后,可得到损失函数对权值参数求偏导的最终表达式为
(15)
由于CRPN算法面对的是分类问题,δi,δk为对应类别i,k的指示变量,只有在分类正确时取1,其他类别均取0;xj为与权重wj对应的输入分量;σ为式(12)确定的概率输出函数。因此,最终求得的梯度为
(16)
在使用优化算法对参数更新的过程中,学习速度由学习率和梯度决定。学习率通常为提前设定的超参数,梯度由损失函数决定。由式(16)可知,梯度大小取决于xj和[σ(yi)-yi],后者反映了模型的错误程度。错误程度越大,则求得偏导数值越高,模型学习速度越快。因此,使用交叉熵损失函数可以根据模型错误程度调控学习速率,很好地衡量了算法训练效果。
在通过损失函数将损失值确立为算法的整体优化目标后,训练的主要目标即转变为借助合适的优化算法,参数不断迭代更新,使损失值达到最小。常用的优化算法有随机梯度下降(SGD)[29]、自适应矩估计(Adam)[30]等,不同的优化算法之间各有利弊:SGD收敛较好,但计算速度慢;Adam算法计算效率高,但容易陷入局部最优解。
为了兼顾训练效率和精度,笔者使用了由LIU Liyuan[31]于2019年提出的修正自适应矩估计(Rectified Adam)优化算法。该算法通过控制自适应率的方差改进了标准Adam算法的训练效果,兼有Adam和SGD两者的优点,既能保证收敛速度快,也不容易掉入局部最优解,而且收敛结果对学习率的初始值非常不敏感。煤矿井下环境复杂,工作面获取的图像往往干扰较大,Rectified Adam算法鲁棒性较高的特点适合用于煤岩图像识别任务。其具体步骤如下
算法输入参数为:步长st;衰减率α1,α2,用于计算移动均值和移动方差;初始参数θ0;损失函数Jt(θ)。
步骤1,将移动量的期望和方差初始化为μ0=0, σ0=0,计算出简单移动平均值(SMA)的最大长度ρ∞:
(17)
步骤2,计算第t步时的梯度gt:
gt=ΔθJt(θt-1)
(18)
式中,θt-1为t-1时步的参数值。
步骤3,计算移动量的方差σt:
(19)
步骤4,计算移动量的期望μt:
μt=α1μt-1+(1-α1)gt
(20)
步骤5,计算移动偏差的修正εt:
(21)
步骤6,计算简单移动平均值的最大值ρt:
(22)
步骤7,更新参数。如果ρ∞大于4,那么先计算移动量方差的修正值lt和方差修正范围rt:
(23)
(24)
再使用自适应性动量更新参数
θt=θt-1-strtεtlt
(25)
如果ρ∞≤4,则使用非自适应动量更新参数
θt=θt-1-stεt
(26)
步骤8,判断参数是否收敛,若收敛则结束计算,未收敛则重复步骤2~8。
笔者提出的CRPN网络模型在Rectified Adam算法下进行了50次迭代训练,训练过程中的正确率和损失值变化曲线如图13所示。
图13 模型训练效果
Fig.13 Model training effect
为验证和讨论笔者提出的CRPN算法模型在井下工作面煤岩图像识别任务中的应用效果,选择Segnet网络、U-net网络等常用图像分割模型进行对比分析。
现场原位煤岩图像数据库中用于测试的图像数量合计600张,图像尺寸统一为320 pix×212 pix。将笔者提出的CRPN模型与Segnet网络模型、U-net网络模型分别应用于测试数据集,执行煤岩图像识别任务,特征提取网络统一采用深度可分离网络模型,各算法识别效果如图14所示。
受篇幅所限,图14中选择8组典型识别结果进行展示,由左至右分别为原始输入图像、CRPN-HDC(使用混合空洞卷积结构的CRPN模型)识别效果、CRPN-DC(使用常规空洞卷积结构的CRPN模型)识别效果、U-net识别效果、Segnet识别效果。为便于展示,识别结果统一采用原图覆盖,绿色区域为算法识别的煤壁区域,红色区域为算法识别的岩壁区域,黑色区域为阴影区域。
图14 不同网络模型煤岩识别效果对比
Fig.14 Comparison of coal and rock recognition effects of different network models
图14可以看出,Segnet算法模型识别准确性较低,甚至在一些图像中出现了较大规模的识别错误。CRPN和U-net可以在无挂网支护遮挡的情况下有效区分出主要的煤、岩和阴影区域,但在有挂网支护遮挡时,U-net的煤岩识别显著降低,而笔者提出的CRPN则保持了识别准确性。此外,使用了混合空洞卷积的CRPN-HDC模型在细节处理上的判识效果更好,对煤岩分界线处的识别准确性更高。
对各算法模型煤岩识别效果进行定量的客观分析,笔者采用了像素准确度(PA)和交并比(IOU)作为主要评价指标。
PA指标表征图像中正确预测分类的像素所占百分比,如图15所示,图15(a)为各像素的真实类别,图15(b)为算法预测得到的像素分类,图15(c)为各像素点的属性,PA指标的计算公式如式(27)所示。
图15 PA指标计算过程
Fig.15 PA indicator calculation process
(27)
式中,Tm为像素点属于煤,且分类正确;Ty为该像素点属于岩,且分类正确;Fm为该像素点本应属于煤,但分类错误;Fy为该像素点本应属于岩,但分类错误。
IOU指标表征图像中各像素真实类别与预测类别之间的重叠程度,通过像素真实值与预测值交集与并集之间的比值进行计算:
(28)
式中,ti为属于i类的像素总数;nji为预测类别为j而实际类别为i的像素总数;nii为预测正确的像素总数。
在现场原位煤岩图像数据库中的测试图集上,使用PA指标、IOU指标和模型计算速度分别对CRPN-HDC模型、CRPN-DC模型、Unet模型和Segnet模型的煤岩识别结果进行定量评估,评估结果见表4。
通过对表4,表5中评估结果分析可以发现,笔者提出的CRPN模型对于井下原位煤岩图像的识别结果在PA和IOU指标下分别取得了96.38%和91.67% 的平均分值,在参与对比的算法模型中表现最佳。由表6可知,CRPN模型单张图像计算时间平均值为0.037 s,由于CRPN模型复杂度高于对比模型,因此在统一采用深度可分离网络作为特征提取网络的条件下在参与对比的算法模型中计算时间最长,但其0.037 s 的平均识别时间对应帧率为27.02 fps,高于井下防爆摄像设备25 fps的成像能力,故本模型具备现场应用部署条件。
表4 PA评估得分
Table 4 PA evaluation scores
图像样本不同模型PA评估得分/%CRPN-HDCCRPN-DCU-netSegnet197.5097.7096.1093.80297.6097.3096.8094.40392.2096.6095.3091.80496.6096.3096.2086.40597.1096.8095.9092.50695.8094.3093.4091.90794.5091.2090.2085.60897.1096.7089.7078.40平均值96.0595.8694.2089.35
表5 IOU评估得分
Table 5 IOU evaluation scores
图像样本不同模型IOU评估得分/%CRPN-HDCCRPN-DCU-netSegnet194.1093.9092.0089.60293.6093.4093.1090.20388.6092.5091.2087.60492.8092.6092.5082.10593.0092.9091.4088.30688.4087.5086.6084.70791.5084.4083.5078.50890.3089.8082.3070.20平均值91.5490.8889.0883.90
表6 单张图像计算速度
Table 6 Calculate speed per frame
图像样本不同模型单张图像计算速度/sCRPN-HDCCRPN-DCU-netSegnet10.0360.0370.0320.02720.0360.0360.0320.02730.0370.0350.0310.02940.0400.0390.0310.03150.0360.0360.0330.02860.0360.0360.0330.02670.0370.0360.0330.02780.0380.0400.0310.025平均值0.0370.0370.0320.028
在模型训练完成后,将训练好的CRPN算法模型应用于含有煤岩分界线的井下现场视频,进行动态条件下的应用测试。视频拍摄自陕西省神木市某矿井薄煤层综采工作面,采用高感光度本安型单反数码相机拍摄,清晰度为1 080P高清视频,视频格式为MP4。将CPRN算法模型、U-net算法模型分别应用于同一段视频,对比展示应用效果,如图16所示。
当视频稳定拍摄时,图像清晰度高,CRPN模型和U-net模型均可以取得良好的识别效果(图16(a),16(b))。但当相机移动、抖动、振动而造成视频图像模糊时,CPRN算法的识别准确性显著强于U-net模型(图16(c),(d))。CRPN算法在预测过程中会关注到更多的全局信息,因此具备更强的鲁棒性,更适合应用于煤矿井下对采、掘工作面煤岩分布状态的移动监测。
图16 不同网络模型动态识别效果对比
Fig.16 Comparison of dynamic recognition effects
(1)基于塔式池化架构和卷积神经网络提出了一种新的煤岩图像分割算法模型(CRPN),该模型使用深度可分离卷积构建了特征提取网络,显著降低了计算量。使用混合空洞卷积核替代标准卷积核,拓展了特征图的感受野。在残差卷积模块中嵌入全局注意力机制,从全局信息的角度强化了有效特征。采用基于塔式池化架构的计算框架,弱化了特征图内部不同区域之间关联信息的损失,获得了更多的全局信息。
(2)采集了薄煤层采煤工作面的煤岩图像信息,构建了煤矿井下原位煤岩高清图像数据库,涵盖了煤岩完整类、裂隙阴影类、暗光类等图像采集过程中可能面对的3类常见环境条件。经过添加噪声、改变图像特征和形态等数据预处理和信息标注,共形成6 400个有效样本。
(3)提出了基于交叉熵损失函数和修正自适应矩估计的模型训练优化算法。使用PA和IOU指标对训练后的CRPN模型煤岩识别效果进行评估,分别取得了96.05%和91.54%的平均分值,优于现有图像分割模型。将训练后的CRPN模型应用于工作面现场的动态视频,结果表明在稳定和抖动条件下均取得了良好的煤岩识别效果,验证了该方法的鲁棒性和实用性。
[1] 刘泉声,黄兴,时凯,等. 煤矿超千米深部全断面岩石巷道掘进机的提出及关键岩石力学问题[J]. 煤炭学报,2012,37(12):2006-2013.
LIU Quansheng,HUANG Xin,SHI Kai,et al. Utilization of full face roadway boring machine in coal mines deeper than 1 000 km and the key rock mechanics problems[J]. Journal of China Coal Society,2012,37(12):2006-2013.
[2] HUANG Xing,LIU Quansheng,SHI Kai,et al. Application and prospect of hard rock tbm for deep roadway construction in coal mines[J]. Tunnelling and Underground Space Technology,2018,73,105-126.
[3] LIU Yanbing,DHAKAL Sanjev,HAO Binyao. Coal and rock interface identification based on wavelet packet decomposition and fuzzy neural network[J].Journal of Intelligent & Fuzzy Systems,2020,38(4):3949-3959.
[4] 王国法. 加快煤矿智能化建设推进煤炭行业高质量发展[J]. 中国煤炭,2021,47(1):2-10.
WANG Guofa. Speeding up intelligent construction of coal mine and promoting high-quality development of coal industry[J]. China Coal,2021,47(1):2-10.
[5] DING Z,JIA J,LI X,et al. Experimental study and application of medium-length hole blasting technique in coal-rock roadway[J]. Energy Science & Engineering ,2020,8(5):1554-1566.
[6] 张斌,苏学贵,段振雄,等. YOLOv2在煤岩智能识别与定位中的应用研究[J]. 采矿与岩层控制工程学报,2020,2(2):94-101.
ZHANG Bin,SU Xuegui,DUAN Zhenxiong,et al. Application of YOLOv2 in intelligent recognition and location of coal and rock[J]. Journal of Mining And Strata Control Engineering,2020,2(2):94-101.
[7] 杨恩,王世博,王赛亚,等. 典型煤岩反射光谱无监督感知方法研究[J]. 工矿自动化,2020,46(1):50-58.
YANG En,WANG Shibo,WANG Saiya,et al. Research on unsupervised sensing methods of typical coal and rock based on reflectance spectroscopy[J]. Industry and Mine Automation,2020,46(1):50-58.
[8] 张强,刘志恒,王海舰,等. 基于截齿振动及温度特性的煤岩识别研究[J]. 煤炭科学技术,2018,46(3):1-9,18.
ZHANG Qiang,LIU Zhiheng,WANG Haijian,et al. Study on coal and rock identification based on vibration and temperature features of picks[J]. Coal Science and Technology,2018,46(3):1-9,18.
[9] 田立勇,戴渤鸿,王启铭. 基于采煤机摇臂销轴多应变数据融合的煤岩识别方法[J]. 煤炭学报,2020,45(3):1203-1210.
TIAN Liyong,DAI Bohong,WANG Qiming. Coal-rock identification method based on multi-strain data fusion of shearer rocker pin shaft[J]. Journal of China Coal Society,2020,45(3):1203-1210.
[10] 李力,欧阳春平. 基于超声相控阵的煤岩界面识别研究[J]. 中国矿业大学学报,2017,46(3):485-492.
LI Li,OUYANG Chunping. Research on coal-rock interface recognition based on ultrasonic phased array[J]. Journal of China University of Mining & Technology,2017,46(3):485-492.
[11] 杨健健,张强,王超,等. 煤矿掘进机的机器人化研究现状与发展[J]. 煤炭学报,2020,45(8):2995-3005.
YANG Jianjian,ZHANG Qiang,WANG Chao,et al. Status and development of robotization research on roadheader for coal mines[J]. Journal of China Coal Society,2020,45(8):2995-3005.
[12] 伍云霞,孟祥龙. 局部约束的自学习煤岩识别方法[J]. 煤炭学报,2018,43(9):2639-2646.
WU Yunxia,MENG Xianglong. Locality-constrained self-taught learning for coal-rock recognition[J]. Journal of China Coal Society,2018,43(9):2639-2646.
[13] 黄蕾,郭超亚. 基于变差函数和局部方差图的煤岩图像纹理特征提取[J]. 工矿自动化,2018,44(4):62-68.
HUANG Lei,GUO Chaoya. Texture feature extraction of coal-rock image based on variogram and local variance image[J]. Industry and Mine Automation,2018,44(4):62-68.
[14] 王星,高峰,陈吉,等. 基于GAN网络的煤岩图像样本生成方法[J]. 煤炭学报,2021,46(9):3066-3078.
WANG Xing,GAO Feng,CHEN Ji,et al. Generative adversarial networks based sample generation of coal and rock images[J]. Journal of China Coal Society,2021,46(9):3066-3078.
[15] 司垒,王忠宾,熊祥祥,等. 基于改进U-net网络模型的综采工作面煤岩识别方法[J]. 煤炭学报,2021,46(S1):578-589.
SI Lei,WANG Zhongbin,XIONG Xiangxiang,et al. Coal-rock recognition method of fully-mechanized coal mining face based on improved U-net network model[J]. Journal of China Coal Society,2021,46(S1):578-589.
[16] ZHAO H,SHI J,QI X,et al. Pyramid Scene Parsing Network[A]. 2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR)[C]. IEEE,2017.
[17] XIE S,GIRSHICK R,DOLLR P,et al. Aggregated residual transformations for deep neural Net-works[A]. 2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR)[C]. Honolulu:IEEE,2017:5987-5995.
[18] SIMONYAN K,ZISSERMAN A. Very Deep convolutional networks for large-scale image recognition[J]. Computer Science,2014.
[19] KRIZHEVSKY A,SUTSKEVER I,HINTON G. ImageNet classification with deep convolutional neural networks[A]. NIPS. Curran Associates Inc[C]. 2012.
[20] SZEGEDY C,VANHOUCKE V,IOFFE S,et al. Rethinking the Inception Architecture for Computer Vision[A]. 2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR)[C]. Las Vegas,NV:IEEE,2016:2818-2826.
[21] ZENG Y,XIAO Z,HUNG K W,et al. Real-time video super resolution network using recurrent multi-branch dilated convolutions[J]. Signal Processing Image Communication,2021,93(3):116167.
[22] HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al. Deep residual learning for image recognition[A]. IEEE Conference on Computer Vision & Pattern Recognition[C]. IEEE Computer Society,2016.
[23] SIMONCELLI E P,FREEMAN W T. The steerable pyramid:A flexible architecture for multi-scale derivative computation[A]. Proceedings of IEEE International Conference on Image Processing(ICIP)[C]. 1995:444-447.
[24] KARASARIDIS A,SIMONCELLI E. A filter design technique for steerable pyramid image transforms[A]. Proceedings of IEEE Conference on Acoustics,Speech,and Signal Processing(ICASSP)[C]. 1996:2387-2390.
[25] ALELAIWI A,ABDUL W,DEWAN M S,et al. Steerable pyramid transform and local binary pattern based robust face recognition for e-health secured login[J]. Computers and Electrical Engineer-ing,2016,53:435-443.
[26] GRAUMAN K,DARRELL T. The pyramid match kernel:Discriminative classification with sets of image features[A]. Tenth IEEE International Conference on Computer Vision[C]. Beijing:IEEE,2005:1458-1465.
[27] LAZEBNIK S,SCHMID C,PONCE J. Beyond bags of features:Sp-atial pyramid matching for recog-nizing natural scene categories[A]. Computer Vision and Pattern Recognition,2006 IEEE Computer Society Conference on[C]. IEEE,2006:2169-2178.
[28] HE K,ZHANG X,REN S,et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(9):1904-1916.
[29] THEODORIDIS S. Stochastic gradient descent[J]. Machine Learning,2015:161-231.
[30] KINGMA D,BA J. Adam:A Method for Stochastic Optimization[A]. Proceedings of the International Conference for Learning Representations(ICLR)[C]. San Diego,2015:1-15.
[31] LIU L,JIANG H,HE P,et al. On the variance of the adaptive learning rate and beyond[A]. Proceedings of the Eighth International Conference on Le arning Representations(ICLR)[C]. Addis Ababa,Ethiopia,2020:1-14.