PSMNet algorithm based on dual three-pooling attention mechanism
-
摘要:
为解决小型纹理类物体的视差计算及三维重建问题,提出了基于双重三池化注意力机制的PSMNet-ECSA算法。通过在残差网络主干中嵌入通道和空间注意力两个维度,每个维度以平均、最大、混合池化的方式进行特征维度融合,在一定程度上防止了过拟合现象,从而增强网络信息提取能力和泛化能力。在实验环境和数据集一致的条件下,经过SceneFlow、KITTI2015和真实场景实验分析,相对比原始PSMNet算法,本文算法在平均绝对误差、阈值误差等指标取得了10%的提升;将该算法应用于鲍鱼重建三维点云模型,长、宽、呼吸孔等距离测量平均相对误差在3%以内,能够以自动化的方式测量并记录小型海洋类生物的生长情况,具有良好的实际应用价值。
Abstract:To address the disparity calculation and 3D reconstruction problems for small textured objects, a PSMNet-ECSA algorithm based on a dual three-pooling attention mechanism was proposed. By embedding two dimensions of channel and spatial attention mechanisms into the backbone of the residual network, each dimension was fused using average pooling, maximum pooling, and mixed pooling techniques to merge feature dimensions, which prevented overfitting to some extent, thereby enhancing the network information extraction and generalization capabilities. Under the conditions of consistent experimental environments and datasets, an analysis was conducted through experiments on SceneFlow, KITTI2015, and real-world scenes. Compared to the original PSMNet algorithm, the proposed algorithm achieves a 10% improvement in metrics such as mean absolute errors and threshold errors. Applying this algorithm to reconstruct three-dimensional point cloud models of abalone, the average relative errors in distance measurements such as length, width, and breathing holes are within 3%, which can automatically measure and record the growth status of small marine organisms, and has promising practical application values.
-
Keywords:
- disparity map /
- stereo matching /
- stacked convolution /
- attention mechanism /
- three-pooling
-
引言
现代社会,随着生产、生活对水资源需求量的不断增加,不少地区出现了水资源短缺问题。与此同时,一些工业排放的污水、废水又使江河湖库受到污染,加剧了水资源的短缺。党的二十大报告明确提出要统筹水生态水环境治理,推动江河湖库生态保护治理,社会对水域环境污染问题越来越关注。
鉴于此,近年来越来越多的专家学者专注于水污染相关问题的研究。水域环境污染,往往最关注的是污染物浓度在水域中的时空变化趋势。依托相似学原理,研究者们通过建立物理模型模拟研究污染物在真实水域中的扩散、迁移规律。如在核废水处理领域,需要通过开展物理模型试验来模拟核电厂排放的液态放射性流出物在水域中的迁移、扩散规律,预测废水的迁移路径和扩散范围,为核废水处理措施的制定、核废水泄露事故的应急预案提供科学依据。开展物理模型试验是解决水域环境污染问题的重要手段之一,但由于物理模型水域面积大,很难实现水域中污染物浓度的实时精准监测,这个问题一直困扰着相关领域的研究者。
目前,国内外基于激光诱导荧光(LIF)原理的浓度测量技术大多应用于工业气体、粉尘以及一些特定溶液的浓度检测,针对水体浓度场测量的相关应用不多。国内,丁志群等基于LIF原理,采用355 nm光源激发水样,通过望远镜接收荧光光谱来实现水体有机物浓度检测[1];王勇等利用平面激光诱导荧光(PLIF)测量温排水物理模型中的垂直温度场[2];基于PLIF原理[3-4],张琦等对混合过程中的硼酸溶液浓度场进行了定量测量[5];赵懿珺等开发了基于PLIF原理的测量系统,应用于恒定横流中垂向浮射流浓度场的测量[6];黄真理等提出了基于三维激光诱导荧光(3DLIF)原理来实现流体浓度测量的技术方案[7];杨奎等概述了偏振成象技术的研究进展,为实现水域浓度场的实时测量提供了新的思路[8]。自21世纪初以来,国外研究者DELO C J[9]、COWEN E A[10]、SARATHI P[11]、REN J Y[12]、VALIORGUE P[13]等在早期LIF技术基础上研发了流体浓度测量技术,并扩展到基于3DLIF的流体浓度、温度等测量,推动了流体测量技术的快速发展。国际上目前仅有TSI、LaVision、Dantec Dynamics这3家专业从事流体测量设备研发的公司拥有水域浓度场相关的测量技术及设备,但受限于设备价格昂贵以及系统扩展性不强等因素,在国内水域浓度场的实时测量中未得到广泛应用。国内设备厂商近年来也在流体浓度测量技术研发方面力争突破,但受限于激光片光源技术、荧光物质选择、测量信号标定和校正算法等关键问题,国内尚没有可实现水域浓度场测量的成熟产品和设备。上述国内外浓度测量技术大都是限定于特定的玻璃水槽实验装置,采用高速摄像机拍摄图片,浓度测量范围仅有数平方米。但对于物理模型所需测量的浓度场面积小则数百平方米,大则数千平方米以上,上述浓度测量技术显然已不太适用。
本文研制了一种适用于物理模型的大面积水域多通道荧光浓度采集装置(本文中浓度均指质量浓度),每套装置包含24支独立的浓度测量传感器。实验前,把24支浓度传感器分别布设于浓度场待测区域,然后通过五芯电缆将传感器与测量装置主机连接,可实现24个离散测点的浓度在线测量。由于模型浓度场待测范围往往在数百平米以上,实验过程中,可根据实际需求将若干套浓度采集装置组成一个浓度测量系统,通过系统上位机采集软件遥测传感器,获取传感器实时浓度参数,通过后台软件进行数据处理,实现大面积水域浓度场的实时在线监测。
1 测量原理与系统组成
1.1 系统测量原理
激光诱导荧光(LIF)技术是20世纪70年代发展起来的一种激光测量方法,经过近五十年的发展,已广泛应用于环境科学等领域。污染物水动力稀释浓度场研究中,一般通过在模型水域中加入示踪剂来模拟污染物的扩散、迁移规律。多通道荧光浓度测量系统采用荧光素钠溶液作为示踪剂。荧光素钠是一种无毒、可降解的化学试剂溶液,模型试验时用量极少,基本不影响10℃以上温差水的密度效应。
系统测量传感器基于LIF原理设计研制。特定波长的单色光激发含有荧光素钠的水域,会产生比照射光波长稍长的光,这种光称为荧光。当激发光的波长和强度固定、液层的厚度固定、溶液的浓度较低时,激发产生的荧光强度与水域中荧光物质的浓度C成正比,通过测量荧光光强即可获取水域中的荧光物质浓度。测量传感器检测水域中的荧光光强,并转化为模拟电流信号输出,通过采集装置实现电流/电压转换(I/V)和模数转换(A/D),最终输出数字电压信号,通过上位机采集软件实时遥测数字电压信号,可实现模型水域浓度场的实时测量。当荧光素钠溶液的浓度范围为0.001 mg/L~0.040 mg/L时,数字电压信号与模型水域荧光物质浓度满足如下关系:
$$ \mathit{U} \mathrm= \mathit{k} \mathrm{\times } \mathit{C} \mathrm+ \mathit{a} $$ (1) 式中:U为上位机遥测采集得到的数字电压信号;C为水域荧光素钠浓度;k、a为“浓度-电压”线性关系特征常数。
1.2 系统总体设计
多通道荧光浓度测量系统采用基于LIF原理设计的浓度检测探头,离散布设于模型水域待测量点位。试验过程中,投放事先配制好剂量的荧光素钠溶液代替污染物模拟其在水域中的扩散、迁移规律。经RS485总线或无线通信网络,上位机采集软件遥测布设于水域中的数百个荧光浓度检测探头,实时获取测量区域离散点位的浓度参数,上位机后台软件进行数据处理后,以图片形式输出完整的浓度场分布图,直观反映水域荧光浓度场分布及其变化情况。
多通道荧光浓度测量系统硬件拓扑结构如图1所示,主要包括上位机、无线通信模块和测量系统。测量系统由若干台采集装置组成,每套采集装置配备24支测量传感器。从前端传感器端检测得到的模拟电流信号通过五芯带屏蔽线缆传输到采集装置,经采集装置内部电路实现I/V转换和A/D转换,最终输出数字电压信号,采集装置输出的数字电压信号通过无线通信模块传输到上位机,上位机采集软件设定为每5 s遥测一次前端测量传感器,可实现所有测量传感器数字电压信号的实时显示和存储,再通过上位机采集软件对后台数据进行分析处理,即可得到测量区域完整的浓度场分布情况。最终设计得到的浓度测量系统实物如图2所示。
2 测量系统设计
2.1 光电传感器
光电传感器主要负责采集水体中微弱的荧光光强信号并转换为模拟电流信号输出,是整个测量系统最关键最核心的部分[14-15]。传感器结构主要由4大部分组成,分别为发射部分、接收部分、隔离反光罩和外壳。其结构如图3所示。
光电传感器的发射部分包含大功率蓝光LED(功率3 W)和激发光光纤。为了避免环境光源对水体中荧光光强的影响,必须对激发光源LED(波长488 nm,蓝色)进行调制,对接收光电信号进行解调制。因此,LED采用频率调制的方波脉冲恒流源供电。研发前期,在惯用的1 kHz至数百kHz频率范围内反复测试,耗费大量时间,但测量结果不理想。后通过不断摸索,将频率范围下降至1 kHz以下,经过不断测试,确定在20 Hz~28 Hz的较低调制频率范围内可以达到较好的测量效果,其中24 Hz的调制频率效果最佳,采用此频率较有利于水体中极弱荧光信号的检出。此外,LED光源受温度影响较大,直接影响LED器件的发光效率、发光亮度及光源光谱波长的偏移。为避免温度可能对光源的影响,电路设计时采取了以下对策:在满足激发光光强的前提下,增大LED的限流电阻(180 Ω),以减小LED的供电电流,尽量减小LED的发热量,通过LED的散热板消化热量;在LED的限流电阻上并联一个负温度系数的热敏电阻(667 Ω),以稳定LED的供给电流。
接收部分包含接收光光纤、滤光片组及光电池。滤光片组采用两块滤光片叠加的方式。第一层滤光片选用510 nm(黄色)截止型滤光镜片,仅允许大于510 nm的光线通过,该滤色镜片510 nm的光通量为33%,520 nm的光通量为60%,第二层滤光片选用520 nm±5 nm(绿色)带通型滤光镜片,使515 nm~525 nm光谱范围内的激发光通过。光电池为光敏元件,负责接收被蓝光激发出的520 nm的黄绿光。选用型号为BPW21R的紫蓝硅光电池,该光电池仅对中心波长为520 nm的黄绿光敏感,且稳定性较好。
隔离反光罩主要用于定位传感器水体测量体积,即光纤端面下高10 mm、约1 cm3的荧光柱。如图4所示,反光罩形状酷似斗笠帽,由帽头、连杆、固定环三者构成,帽头与固定环相对面为120°圆锥面,表面为黑色光面喷塑,圆锥面可反射激发光(蓝光),使其不能进入接收光光纤,避免干扰测量。帽头与探头杆固定环以三支刚性连杆相连,保证了连接的强度与刚度。
反光罩的安装位置将影响单支传感器的“浓度-电压”线性关系特征系数k,a,需用不锈钢螺钉固定在光纤杆上,不可移动。此外在使用过程中需注意反光罩底部距离水体底面要有一定的高度,禁止接触底面,否则反光罩受力可能发生变形,导致传感器线性关系特征系数k,a发生改变。
光电传感器测量原理如图5所示,LED调制光电源发射出中心波长为488 nm的蓝光,通过发射光纤射入水体,激发含有荧光素钠溶液的水流产生黄绿色的荧光团(光谱中心波长为520 nm),荧光经接收光纤传输至滤光片组,滤除掉自然光源及干扰光源后的荧光传输至紫蓝硅光电池,紫蓝硅光电池输出模拟电流信号传输至信号处理电路。
传感器光电池接收到的光强微弱,导致输出的短路电流较小,需对获取的微弱电流信号进行放大后再滤波。信号处理电路主要负责采集光电池输出的模拟电流信号,经I/V转换、交流放大、滤波、调制解调、相敏检波、直流放大等过程处理后传输至采集装置。交流放大、直流放大信号处理电路原理图如图6所示,图中R、RW、C分别表示电阻、电位器、电容,AD795、OP37、OP07分别表示三种不同类型的运算放大器,9013为一种NPN型小功率三极管。
如图6所示,光电池输出的模拟电流信号首先通过AD795运算放大器实现精密电流到电压的转换,输出的电压信号通过OP37运算放大器实现交流前置放大,单级放大200倍,放大后的电压信号通过四级OP07运算放大器实现可调节性滤波,滤波后信号输入至MC14053芯片完成解调,由于解调无法识别调制信号的相位和频率,解调信号通过相敏检波电路,完成相位鉴别和频率选定,输出的直流电压信号经过二级OP07运算放大器实现直流放大,并输出4 mA~20 mA模拟电流信号。
2.2 采集装置
采集装置与光电传感器通过五芯带屏蔽电缆电气连接,作为连接前端传感器与上位机之间的桥梁纽带,一方面负责给前端传感器供电,另一方面需接收前端传感器输入的模拟电流信号,经采集装置转换为数字电压信号后传输给上位机。上位机采集软件发出遥测命令后,采集装置将其连接的24支传感器电信号处理后实时传输给上位机采集软件。如图7所示,每只采集箱内独立配有3套I-7017模块,每套模块设置有不同的通讯地址码,每个地址码对应8支前端传感器。采集箱背部面板接口1~8号、9~16号和17~24号分别对应机箱内部第1、2、3套数据采集模块地址码。
2.3 无线通信模块
由于模型水域测量范围大,若采用有线通信方式,从各个采集箱布设线缆至控制中心上位机通讯端口,不仅费时费力,且发生故障时难以排查。系统设计采用无线通讯方式,通过在浓度采集装置及上位机通讯端分别布设一套SRWF无线自组网通信模块来实现。经试验,其实际有效通讯距离超过千米,完全满足现场数据传输要求。在采集端,SRWF模块通过采集装置内部的开关电源供电,在上位机端,由独立的5 V电源模块给SRWF模块供电。
3 系统测试
对于大面积水域浓度场测量,需布设的传感器数量多达数百支,系统造价是研制的关键考虑点,必须采用相对廉价又高质量的元器件,严格按照试验规范要求,在测量精度、稳定性、可靠性等方面进行一系列试验,测试系统能否满足模型试验大面积水域浓度场的测量需求。
3.1 传感器标定
光电传感器“浓度-电压”线性关系特征系数标定工作在模型大厅实验水槽中进行。实验水槽长10 m、宽0.6 m、高0.8 m,两端配有电机,具备水体内循环流动功能。实验前,用高精度电子天平量取0.3 g荧光素钠粉末,转移至已盛满10 L水的塑料圆桶内,搅拌均匀,配制浓度为30 mg/L的荧光素钠水溶液。同时,在实验水槽内加入3 t自来水,开启水槽内循环装置,保持水槽内水体始终处于内循环流动状态,标定实验水槽如图8所示。
实验中,每隔20 min向水槽内加入100 mL配制好的荧光素钠水溶液标本,加液40次,可分别得到荧光素钠浓度范围为0.001 mg/L~0.040 mg/L,级差0.001 mg/L的样本水体(40次加液总共加入的3 L水量相较于水槽内已有的
3 000 L自来水,对浓度的影响在此可忽略不计)。图8所示的实验水槽,一次可标定40支传感器。测试选取1#~10#共计10支传感器,置入原始水体中,读取各传感器的水体本底电压数值。加液后,分别读取各传感器在上述40个水体样本中对应的电压数值,得到如图9所示的1#~10#传感器“浓度-电压”线性相关曲线。
1#~10#传感器的“浓度-电压”线性关系特征参数斜率k,截距a,决定系数R2如下表1所示。
表 1 传感器特征参数Table 1. Characteristic parameters of sensors传感器编号 k a R2 1# 48.515 0.1758 1.000 0 2# 37.756 0.6201 1.000 0 3# 40.525 0.6958 0.9997 4# 55.759 0.533 0 0.9998 5# 58.078 0.5914 0.9992 6# 47.418 0.927 0 0.9998 7# 29.706 0.512 0 0.9994 8# 33.303 0.6564 0.9999 9# 24.811 0.1006 0.9995 10# 33.301 0.5429 0.9983 3.2 测量误差
将上述1#~10#传感器固定于如图10所示的简易水循环装置固定支架上,配制荧光素钠水溶液浓度范围为0.010 mg/L~0.040 mg/L,级差0.005 mg/L,共计7份样本水体。1#~10#传感器的浓度测量结果如表2所示,1#~10#传感器的测量误差均值分别为2.61%、4.23%、4.36%、3.04%、3.77%、4.45%、3.16%、3.78%、3.02%、2.94%,测量数据较样本数值普遍偏大,传感器总体测量误差不大于5%。分析发现产生误差的主要原因是传感器对水体中微弱荧光信号的提取以及校正过程仍存在一定误差,后续需要对传感器的信号处理及校正电路进行不断优化,提高系统的整体测量精度。
表 2 浓度测量结果Table 2. Concentration determination results传感器
编号样本水体浓度/(mg/L) 0.010 0.015 0.020 0.025 0.030 0.035 0.040 1# 0.0104 0.0152 0.0209 0.0247 0.0313 0.0358 0.0412 2# 0.0105 0.0157 0.0203 0.0267 0.0313 0.0359 0.0419 3# 0.0105 0.0154 0.0209 0.0269 0.0311 0.0367 0.0409 4# 0.0107 0.0153 0.0205 0.0257 0.0314 0.0361 0.0407 5# 0.0106 0.0152 0.0206 0.0255 0.0315 0.0366 0.0418 6# 0.0105 0.0157 0.0204 0.0258 0.0313 0.0369 0.0426 7# 0.0103 0.0155 0.0205 0.0258 0.0295 0.0354 0.0429 8# 0.0098 0.0155 0.0208 0.0258 0.0313 0.0353 0.0435 9# 0.0109 0.0152 0.0207 0.0248 0.0297 0.0364 0.0406 10# 0.0097 0.0158 0.0206 0.0259 0.0308 0.0357 0.0396 3.3 温度影响测试
传感器内部分电子元器件对温度影响敏感,设计时采取了硬件温度补偿,将1#~10#传感器分别置于温控水箱中,调节水体温度从20℃缓慢升到30℃,读取传感器电压数据,所有传感器电压数据均未发生明显变化。打开空调,缓慢调节室内空气温度从35℃降到25℃,再次读取传感器电压数据,同样未发生明显变化。表3为水温升高至30℃时,1#~10#传感器的特征参数,与表1常温水体中传感器特征参数相比,差别较小,特征参数基本一致。
表 3 变温水体中传感器特征参数Table 3. Sensor characteristic parameters in variable water传感器编号 k a R2 1# 48.310 0.1939 1.000 0 2# 37.598 0.6236 0.9999 3# 40.821 0.6743 0.9997 4# 56.013 0.5436 0.9997 5# 57.864 0.5862 0.9993 6# 47.702 0.765 0 0.9998 7# 29.786 0.5014 0.9994 8# 33.464 0.648 0 0.9998 9# 24.886 0.1084 0.9996 10# 33.186 0.5486 0.9986 经测试,水体温度、环境温度对传感器的测量精度影响不大,在误差允许范围内。
3.4 光照干扰测试
模型试验持续时间较长,过程中可能会经历自然光源、电光源照射。因此,在室内交替采用自然光源、电光源模拟测试传感器可能会遇到的实验环境, 模拟结果显示传感器电压数据未发生明显变化。可见,自然光源、实验范围内合理使用的电光源对传感器测量精度影响不大。
多通道荧光浓度测量系统经多次测试,系统均稳定、可靠运行,可检测的荧光素钠溶液浓度范围为0.001 mg/L~0.040 mg/L,分辨率为0.001 mg/L,测量精度±5%,能够满足模型水域浓度场测量需求。
4 系统软件
系统采集软件是基于MCGS组态软件二次开发而来。软件的工作流程是:上位机采集软件发送遥测指令后,浓度采集装置采集分布于模型水域各布设点位上的传感器输出的电信号,通过电路转换为上位机可识别的数字电压信号,最后由RS232串口总线传入上位机,上位机采集软件通过实时采集输入的数字电压参数,根据“浓度-电压”线性关系计算得到水域中离散点位荧光物质的浓度,同时对浓度数据进行分析、存储,并在模型水域浓度场分布图中直观展示荧光物质浓度分布及变化状况。
采集软件主要具备以下功能:传感器“浓度-电压”线性关系特征参数k,a标定、水域本底浓度测量、界面实时显示水域浓度数据、画面显示水域浓度场分布以及浓度数据实时存档。
系统采集软件主要操作步骤如下:
1) 标定传感器。连接传感器和采集装置,系统上电,同时分别记录下采集装置编号,端口编号和端口上接入的传感器编号。点击“标定传感器”,进入端口配置界面,输入采集装置编号、端口编号和接入的传感器编号或由excel文件导入编号信息。配置好端口后,点完成配置键,打开数据标定窗口,设定9个已按均匀级差调配好的水体荧光物质样本浓度,对所有传感器依次进行标定,得到各传感器的“浓度-电压”线性关系特征参数k,a。
2) 采集浓度数据。采集端口、传感器k、a值正确配置。标定水体本底浓度,为排除水中杂质带来的干扰,每次换水实验前都要做本底检定,获取传感器在水体中的本底电压。打开“采集数据”窗口,点击“开始采集”,软件每5 s循环采集所有传感器的浓度数据并存档。
3) 浓度场分布图显示。输入模型离散测量点位坐标并载入实验模型图片。点击软件“立即绘制按钮”,系统将显示图片和点位,且每个点位的浓度值显示在点位对应的序号上。浓度大小不同,点的亮度不同,浓度越高颜色越亮。可设定浓度上下限值,超过上下限浓度值的测量点位一律显示为红色。
图11为传感器现场点位布设以及系统软件浓度场效果图。
5 结论
针对污染物扩散物理模型试验研究中难以实现大面积水域浓度场实时测量的现状,设计了一套多通道荧光浓度测量系统,提出了前端传感器检测、中端采集装置信号处理、顶端上位机采集软件遥测采集的系统组成方式。研制了一种基于LIF原理的单点光电浓度测量传感器。激发光源选用频率为24 Hz的方波脉冲恒流源供电,较好地解决了自然界干扰光源对荧光光源的影响。设计了斗笠帽形状样式的隔离反光罩,既可定位水体测量体积又可反射激发光源,避免干扰测量。创新性采用I/V转换、交流放大、可调滤波、调制解调、相敏滤波、直流放大等过程的信号处理电路,将水体中微弱的荧光电信号提取出,同时很好地解决了自然光源和干扰光源对电信号的影响。编写了上位机数据采集软件,可实现传感器参数标定、水体浓度实时采集、浓度场效果图直观展示等功能。
多通道荧光浓度测量系统已应用于“核电厂环境污染预报研究”等科研项目,较好地解决了项目中大面积水域浓度场难以实时测量的难题,为核电厂环境污染物理模型试验研究成果的正确性与可靠性奠定了基础,社会效益显著,在水质物理模型污染物扩散规律研究、水环境治理等领域具有较好的推广应用价值。
-
表 1 PSMNet-ECSA网络结构参数
Table 1 Structure parameters of PSMNet-ECSA network
结构 参数设置 输出维度 输入 $ H\times W\times 3 $ 双重三池化注意力 conv0_x $ [3\times 3]\times 3,32 $ $ \dfrac{1}{2}H\times \dfrac{1}{2}W\times 32 $ conv1_x $ \left[\begin{array}{c}3\times \mathrm{3,128}\\ 3\times \mathrm{3,128}\end{array}\right]\times 16 $,dila=2 $ \dfrac{1}{4}H\times \dfrac{1}{4}W\times 128 $ ca [maxpool,avgpool,mixpool], gamma=2, b=1 $ \dfrac{1}{4}H\times \dfrac{1}{4}W\times 128 $ sa [maxpool,avgpool,mixpool], k=3 $ \dfrac{1}{4}H\times \dfrac{1}{4}W\times 128 $ 空间金字塔池化 branch_x $ \left[\mathrm{64,32,16,8}\right] $ pool, $ 3\times \mathrm{3,32} $, 双线性插值 $ \dfrac{1}{4}H\times \dfrac{1}{4}W\times 32 $ concat[conv1_2,conv1_4,branch_1, branch_2,branch_3,branch_4] $ \dfrac{1}{4}H\times \dfrac{1}{4}W\times 320 $ fusion $ 3\times \mathrm{3,128}$
$1\times \mathrm{1,32} $$ \dfrac{1}{4}H\times \dfrac{1}{4}W\times 32 $ 代价体 左右特征级联 $ \dfrac{1}{4}D\times \dfrac{1}{4}H\times \dfrac{1}{4}W\times 64 $ 3D 堆叠卷积 3Dconv0 $ 3\times 3\times \mathrm{3,32} $
$3\times 3\times \mathrm{3,32} $$ \dfrac{1}{4}D\times \dfrac{1}{4}H\times \dfrac{1}{4}W\times 32 $ 3Dstack1_x $ \left[\begin{array}{c}\mathrm{c}\mathrm{o}\mathrm{n}\mathrm{v}\mathrm{ }3\times 3\times \mathrm{3,64}\\ \mathrm{d}\mathrm{e}\mathrm{c}\mathrm{o}\mathrm{n}\mathrm{v}\mathrm{ }3\times 3\times \mathrm{3,32}\end{array}\right]\times 4 $ $ \dfrac{1}{4}D\times \dfrac{1}{4}H\times \dfrac{1}{4}W\times 32 $ output_x $\left[ \begin{array}{c}3\times 3\times \mathrm{3,32}\\ 3\times 3\times \mathrm{3,1}\end{array}\right] \times 3 $ $ \dfrac{1}{4}D\times \dfrac{1}{4}H\times \dfrac{1}{4}W\times 1 $ output[output_1,output_2,output_3] 上采样 双线性插值 $ D\times H\times W $ 视差回归 $ H\times W $ 表 2 SceneFlow训练参数
Table 2 SceneFlow training parameters
参数类型 参数值 训练周期/epoch 10 训练时间/h 6 训练批次大小 6 测试批次大小 4 梯度下降优化器 Adam($ {\beta }_{1}=0.9,\;{\beta }_{2}=0.999 $) 固定学习率 0.001 最大视差 192 表 3 SceneFlow数据集消融实验结果
Table 3 Ablation experiment results of SceneFlow dataset
算法类型 模块结构 端点
误差通道注意力 空间注意力 平均
池化最大
池化混合
池化平均
池化最大
池化混合
池化MASTER 1.466 CA √ √ 1.435 SA √ √ 1.428 AVG √ √ 1.397 MAX √ √ 1.425 MIX √ √ 1.381 CSA √ √ √ √ 1.375 ECSA √ √ √ √ √ √ 1.349 表 4 SceneFlow测试集精度对比
Table 4 Comparison of accuracy on SceneFlow test set
算法 EPE PSMNet-ECSA 1.349 DeepPruner 1.673 GCNet 2.424 表 5 KITTI2015训练参数
Table 5 KITTI2015 training parameters
参数类型 参数值 训练周期/epoch 300 训练时间/h 5 训练批次大小 6 测试批次大小 4 初始学习率(前200个周期) 0.001 后期学习率(后100个周期) 0.0001 最大视差/pixel 192 表 6 KITTI2015数据集消融实验结果
Table 6 Ablation experiment results of KITTI2015 dataset
注意力
类型模块结构 3px-Err/% 通道注意力 空间注意力 平均
池化最大
池化混合
池化平均
池化最大
池化混合
池化MASTER 2.304 CSA √ √ √ √ 2.160 MIX √ √ 1.933 ECSA √ √ √ √ √ √ 1.917 表 7 鲍鱼重建点云精度对比
Table 7 Comparison of point cloud reconstruction accuracy for abalone
图像 类型 长度 宽度 呼吸孔12 呼吸孔23 呼吸孔34 E582 真实值/mm 94 67 15 13 16 PSMNet-MASTER测量值/相对误差/(mm/%) 91.2/3.0 64.4/3.9 13.8/8.0 14.2/9.2 16.8/5.0 PSMNet-ECSA测量值/相对误差/(mm/%) 92.9/1.2 65.5/2.2 14.2/5.3 12.6/3.1 15.5/3.1 0524 真实值/mm 79 55 11 12 − PSMNet-MASTER测量值/相对误差/(mm/%) 76.6/3.0 52.9/3.8 10.1/8.2 11.3/5.8 − PSMNet-ECSA测量值/相对误差/(mm/%) 77.6/1.8 53.5/2.7 10.5/4.5 11.8/1.7 − -
[1] KAKADE A, DESHPANDE M, SARDESHPANDE S, et al. 3D modelling using sequential and convolutional generative adversarial networks[C]// 2021 International Conference on Artificial Intelligence and Machine Vision, New York: IEEE, 2021: 1-4.
[2] MIN K, HAN S, LEE D, et al. SAE Level 3 Autonomous driving technology of the ETRI[C]// 2019 International Conference on Information and Communication Technology Convergence. New York: IEEE, 2019: 464-466.
[3] YANG J L, REN P R, ZHANG D Q, et al. Neural aggregation network for video face recognition[C]// IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2017: 5216–5225.
[4] ZENATI N, ZERHOUNI N. Dense stereo matching with application to augmented reality[C]// 2007 IEEE International Conference on Signal Processing and Communications. New York: IEEE, 2007: 1503-1506.
[5] HIRSCHMULLER H. Accurate and efficient stereo processing by semi-global matching and mutual information[J]. 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2005(2): 807-814.
[6] LIU T F, LIN D Y, LAN W Y. PatchMatch stereo - cross dynamic windows based on textured bithreshold rule[C]// Chinese Control Conference. New York: IEEE, 2023: 7382-7387.
[7] ZAGORUYKO S, KOMODAKIS N. Learning to compare image patches via convolutional neural networks[C]// IEEE Computer Vision and Pattern Recognition. New York: IEEE, 2015: 4353-4361.
[8] ZBONTAR J, LECUN Y. Stereo matching by training a convolutional neural network to compare image patches[J]. Journal of Machine Learning Research, 2016, 17(2): 1-32.
[9] YE X, LI J, WANG H, et al. Efficient stereo matching leveraging deep local and context information[J]. IEEE Access, 2017(5): 18745-18755.
[10] DOSOVITSKIY A, FISCHER P, ILG E, et al. FlowNet: learning optical flow with convolutional networks. [C]// IEEE International Conference on Computer Vision. New York: IEEE, 2015: 2758-2766.
[11] MAYER N, ILG E, HAUSSER P, et al. A large dataset to train convolutional networks for disparity, optical flow, and scene flow estimation[C]// IEEE Computer Vision and Pattern Recognition. New York: IEEE, 2016: 4040-4048.
[12] CHANG J, CHEN Y. Pyramid stereo matching network[C]// IEEE Computer Vision and Pattern Recognition. New York: IEEE, 2018: 5410-5418.
[13] YANG G, MANELA J, HAPPOLD M, et al. Hierarchical deep stereo matching on high-resolution images[C]// IEEE Computer Vision and Pattern Recognition. New York: IEEE, 2019: 5515-5524.
[14] KENDALL A, MARTIROSYAN H, DASGUPTA S, et al. End-to-end learning of geometry and context for deep stereo regression[C]// IEEE International Conference on Computer Vision. New York: IEEE, 2017: 66-75.
[15] CHENG X, ZHONG Y, HARAKEH A, et al. Learning stereo matching network with convolutional spatial propagation network[C]// IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2020: 156–165.
[16] TANKOVICH V, KAR A, HANE C, et al. Hitnet: hierarchical iterative tile refinement network for real-time stereo matching [C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition . New York: IEEE, 2021: 14362-14372.
[17] GUO M H, XU T X, LIU J J, et al. Attention mechanisms in computer vision: A survey[J]. Computational Visual Media, 2022, 8(3): 331-368. doi: 10.1007/s41095-022-0271-y
[18] GREGOR K, DANIHELKA I, GRAVES A, et al. DRAW: a recurrent neural network for image generation[C]// 32nd International Conference on Machine Learning. New York: Association of Computing Machinery, 2015: 1462–1471.
[19] FU J, LIU J, TIAN H J, et al. Dual attention network for scene segmentation[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition.New York: IEEE, 2019: 3141-3149.
[20] CHU X, YANG W, OUYANG W L, et al. Multi-context attention for human pose estimation[C]// IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2017: 5669-5678.
[21] XU T, ZHANG P C, HUANG Q Y, et al. AttnGAN: fine-grained text to image generation with attentional generative adversarial networks[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2018: 1316-1324.
[22] MNIH V, HEESS N, GRAVES A, et al. Recurrent models of visual attention[J]. 27th International Conference on Neural Information Processing Systems, 2014(2): 2204-2212.
[23] JADERBERG M, SIMONYAN K, ZISSERMAN A, et al. Spatial transformer networks[J]. 28th International Conference on Neural Information Processing Systems, 2015(2): 2017-2025.
[24] HU J, SHEN L, ALBANIE S, et al. Squeeze-and-excitation networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(8): 2011-2023. doi: 10.1109/TPAMI.2019.2913372
[25] MENZE M, GEIGER A. Object scene flow for autonomous vehicles[C]// IEEE Computer Society Conference on Computer Vision and Pattern Recognition.New York: IEEE, 2015: 3061-3070.
[26] HE K, ZHANG X, REN S, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[C]//European Conference on Computer Vision. Berlin: Springer, 2014: 346-361.
[27] GOODFELLOW I, BENGIO Y, COURVILLE A, et al. Deep Learning[M]. Cambridge: MIT Press, 2016.
[28] GIRSHICK R. Fast R-CNN[C]// IEEE International Conference on Computer Vision. New York: IEEE, 2015: 1440-1448.
[29] LAGA H, JOSPIN L V, BOUSSAID F, et al. A survey on deep learning techniques for stereo-based depth estimation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(4): 1738-1764.
[30] DUGGAL S, WANG S, MA W C, et al. DeepPruner: Learning efficient stereo matching via differentiable PatchMatch[C]// IEEE/CVF International Conference on Computer Vision. New York: IEEE, 2019: 4383-4392.