基于嵌入式GPU的特征畸变单目视觉定位系统的研究

陈泽鹏; 李文湧; 劳子健; 陈羽; 李佼洋; 王嘉辉; 郑民

doi:10.5768/JAO202344.0301001

基于嵌入式GPU的特征畸变单目视觉定位系统的研究

陈泽鹏^1,,
李文湧³,
劳子健¹,
陈羽¹,
李佼洋¹,
王嘉辉¹,
郑民^{1, 2, ,}

1.
中山大学物理学院，广东广州 510275
2.
湛江幼儿师范专科学校（岭南师范学院基础教育学院），广东湛江 524084
3.
中山大学电子与信息工程学院，广东广州 510275

基金项目: 广东省重点领域研发计划项目“虚拟现实视觉健康的关键评价技术及标准”（2019B010152001）；湛江幼儿师范专科学校科学研究重点项目“裸眼3D显示技术应用的研究”（ZJYZZD201903）；广东省普通高校特色创新项目（自然科学）“裸眼3D技术在青少年视力筛查中的应用”（2020KTSCX353）；2020年度湛江市非支助科技攻关计划项目“裸眼3D技术在湛江市农村青少年视力筛查与保健的应用”（2020B01205）；广东省高等教育教学改革项目“科产教深度融合的‘3+3’创客人才培养模式的探索”（粤教高函〔2020〕20号）

详细信息

作者简介:
陈泽鹏（1997—），男，硕士研究生，主要从事光学成像、机器学习研究。E-mail：chenzp8@mail.sysu.edu.cn

通讯作者:
郑民（1962—），男，副教授，主要从事光学工程、图像分析研究。E-mail：zjzhengmin@126.com

中图分类号: TN26;P228
计量
- 文章访问数: 253
- HTML全文浏览量: 91
- PDF下载量: 55
出版历程
- 收稿日期: 2022-05-31
- 修回日期: 2023-03-21
- 网络出版日期: 2023-04-25
- 刊出日期: 2023-05-14

Monocular visual positioning system with characteristic distortion based on embedded GPU

1.
School of Physics, Sun Yat-Sen University, Guangzhou 510275, China
2.
School of Basic Education, Lingnan Normal University, Zhanjiang 524084, China
3.
School of Electronics and Information Engineering, Sun Yat-Sen University, Guangzhou 510275, China

摘要

摘要:
视觉定位和导航在物流仓储等领域具有广泛的应用前景，传统单目视觉难以实现准确的定位，而双目视觉虽能完成精确的定位和导航，但硬件成本高且影响车体尺寸。提出一种基于特征物形变的单目定位技术，利用单个相机对地面铺设的特征物（带编码的圆环图案）的畸变进行记录，以嵌入式图像处理单元（graphics processing unit,GPU）进行分析，实现端到端的单目视觉定位。其中嵌入式GPU对相机采集的图像通过深度学习目标检测算法识别特征圆环的编码图案，经传统图像处理获取图案物像的形变信息，将该形变信息输入至经极端梯度提升算法（extreme gradient boosting，XGBoost）训练好的回归模型，预测出相机相对图案中心的坐标，同时结合该特征圆环的绝对坐标，最终解算出相机的室内绝对坐标。实验结果表明：在2 m×2 m 的范围内定位平均误差仅为0.55 cm，优于文献报道1个数量级，且算法在电脑端和在嵌入式GPU上的定位解算帧率分别为20帧和4帧，具有实时性。
- 嵌入式GPU /
- 室内定位 /
- 深度学习 /
- 回归模型 /
- 圆环编码图案
Abstract:
Visual positioning and navigation have a wide application prospect in logistics warehousing and other fields, but traditional monocular vision is difficult to achieve accurate positioning. Although binocular vision can achieve accurate positioning and navigation, the hardware cost is high and make vehicle to be bigger size. Therefore, a monocular positioning technology based on feature deformation was proposed. In this method, a single camera was used to record the distortion of features (ring patterns with encodings) laid on the ground with an embedded graphics processing unit (GPU) which analyzed the distortion, and achieved end-to-end monocular visual positioning. The embedded GPU recognized the encoded patterns of the feature ring through the deep-learning target detection algorithm for the images collected by the camera, and the deformation information of the pattern object through traditional image processing was obtained. The deformation information was input to a regression model trained by the extreme gradient boosting algorithm (XGBoost) to predict the coordinates of the camera relative to the center of the pattern. At the same time, combining the absolute coordinates of the feature ring, the indoor absolute coordinates of the camera were finally calculated. The experimental results show that the average positioning error in the range of 2 m×2 m is only 0.55 cm, which is one order of magnitude better than that reported in the literature. The algorithm has a real-time performance with a positioning solution frame rate of 20 frames on the computer and 4 frames on the embedded GPU.
- embedded GPU /
- indoor positioning /
- deep learning /
- regression model /
- ring encoded patterns

HTML全文

引言

随着人工智能的普及，各行各业开始步入智能化发展^[1]。近年来电子商务的蓬勃发展带动了物流行业，人们对物流配送速度的要求越来越高。自动导引运输车（automated guided vehicle，AGV）由于较高的自动化水平和可对货物实施智能运输的优点，已逐渐进入物流仓储行业。AGV在仓储环节中，主要是替代人工进行繁杂的分拣，实现24小时不间断工作。正因为AGV在室内应用越来越广泛，科研人员对室内定位表现出极大兴趣。关于室内定位，主要涉及二维码^[2]、射频识别（radio frequency identification ，RFID）^[3]、蓝牙^[4]、可见光^[5]、计算机视觉技术^[6-7]等。二维码定位技术相对比较成熟，但是需要定点扫描，导致其无法充分利用空间，降低了仓库空间的利用率，同时易造成标签磨损。对于蓝牙和RFID定位，其需要持续发射电磁信号，功耗较大，存在由信号干扰引起的定位漂移的情况。而可见光定位的短板则在于无法处理光遮挡问题，难以实际应用。尽管计算机视觉应用在定位技术上结构简单、硬件成本低廉，但研究起步较晚。2013年HAN S B等提出的基于标志物的粒子定位算法（label particle localization algorithm，LPLA），利用单目摄像头在1.6 m×2 m范围内实现标准差为7.1 cm的定位^[8]，但与其他技术相比，定位精度仍有差距。2017年，YANG Guojun等利用AR（augmented reality）标记物的旋转变形等信息实现单目视觉下精度为cm级的粗定位^[9]。2018年，曹小华等利用棋盘格在进行标定的同时，通过平面投影实现误差在3%～5%的单目视觉的距离求解，且该工作未涉及角度测量^[10]。现有单目视觉技术结构简单，虽然有望成为室内导航的主流技术，但是其定位精度仍有待提高。

因此，本文结合深度学习和计算机视觉，提出一种基于嵌入式GPU(graphics processing unit)的特征畸变单目视觉定位系统。该系统使用经特殊设计的圆环编码图案作为全局特征标签，其编码映射为自身坐标。通过目标检测算法识别和分割带畸变的特征圆环标签，利用特征标签的物像形变信息，输入至XGBoost算法训练的机器学习回归模型，预测出相机相对特征标签的坐标，结合该特征标签的绝对坐标和目前相机的朝向，解算出相机的室内绝对坐标。

1 系统原理

1.1 圆环编码图案及解码原理

对于计算机视觉定位而言，视觉标签的设计十分重要。首先视觉标签必须能够准确反映自身的绝对位置信息，并不具备二义性；其次要便于通过计算机视觉方法从背景分割、识别^[11]。根据以上两点要求，本文提出用一种黑白半圆环相间的圆作为定位的特征标签，如图1所示。该类型特征标签以一定间隔平整地铺设在地面上，并且规定小车有4个运动方向：前、后、左、右。

图 1 圆环编码图案及解码示意图(方向“1234”指相机所处位置)

Figure 1. Ring encoded pattern and schematic diagram of decoding (number 1 to 4 refers to position of camera)

下载: 全尺寸图片幻灯片

相机采集图像后，利用深度学习目标检测模型识别图像中的特征标签，并返回离相机最近的标志物边界框，设置图像ROI（region of interest）^[12]进行下一步处理。考虑到对于运动的小车，若要实现实时的目标检测，必须使用一种高效而精简的神经网络。因此目标检测模型采用YOLO(you only look once)网络模型^[13]，其优点是速度快，占用内存少，准确率高，非常适合在如嵌入式GPU等算力不强的设备中使用。

在获取标志物的图像后，按其中心纵轴坐标y₀以下若干个像素（本文取2个像素）的位置读取像素灰度值，并丢弃背景像素，最后运用Otsu法（即最大类间方差法）进行二值化。Otsu法可以自适应地确定最佳阈值，有效区分背景和目标。Otsu法计算阈值的公式为

$$ t=\arg\max\left[w_{0}(t) \cdot\left(u_{0}(t)-u\right)^{2}+w_{1}(t) \cdot\left(u_{1}(t)-u\right)^{2}\right] $$

(1)

式中：$ t $为灰度分割阈值；$ u $为图像平均灰度值；$ u_{0}(t) $、$ u_{1}(t) $分别为$ t $分割阈值下，背景的平均灰度值和目标物的平均灰度值；$ w_0(t) $、$ w_{1}(t) $分别为$ t $分割阈值下背景占比和目标物占比。

如图2所示，通过二值化后，横向读取的灰度信息将从0～255的分布变为0或255的分布。定义灰度0的像素读出值为0，灰度为255的像素读出值为1，再将相邻读出值相同的数据合并，此时所读取的像素灰度值即转换为一串二进制码（如图2所示读出值为010101010，其0对应黑色的圆环，1对应白色圆环），通过查表得到标志物的中心绝对坐标$ \left(x_{{\rm{m}}}, y_{{\rm{m}}}\right) $及其朝向。该映射表按照标志物在室内的摆放位置人为规定，例如可以按表1进行规定。

图 2 解码示意图

Figure 2. Schematic diagram of decoding

下载: 全尺寸图片幻灯片

表 1 码型与相机朝向映射表

Table 1. Code type and camera orientation mapping

圆环数	二进制码	中心绝对坐标/cm	相机朝向
2	010	（100，100）	东
	0101	（100，100）	南
	101	（100，100）	西
	1010	（100，100）	北
3	01010	（200，200）	东
	010101	（200，200）	南
	10101	（200，200）	西
	101010	（200，200）	北

下载: 导出CSV

| 显示表格

1.2 利用YOLO神经网络分割圆环编码特征物

YOLO神经网络是由美国华盛顿大学和脸书（Facebook）AI研究所于2016年提出的基于卷积神经网络的实时目标检测方法。顾名思义，该算法只需要通过神经网络进行一次前向传播来检测物体。这意味着整个图像中的预测是在单个算法运行中完成的。第三代YOLOv3的表现十分惊人，在与其他算法精度相当的条件下，其检测速度比其他模型快3倍到4倍。出于实时性考虑，本文选择YOLOv3神经网络作为圆环编码特征物识别以及将其从背景分割的工具。

1.3 利用XGBoost预测相对坐标

考虑到地面铺设的圆环编码图案成像到相机感光芯片后，其物像呈现为椭圆形，该映射规律涉及到复杂的光路变换，而且与环境变量紧密相关，如相机高度、俯仰角、镜头参数等。由此可见，要从中推导出标志物形变与相机之间相对坐标的关系比较困难，且鲁棒性不高，因此，本文采用机器学习的方法，通过已知数据，利用机器学习算法训练出回归模型，从模型输入标志物的关键特征，模型将预测出相机对于标志物的相对坐标$ \left(x_{{\rm{re}}}, y_{{\rm{re}}}\right) $。

由于标志物在图像中的形态为椭圆形，因此采用最小二乘法拟合椭圆的方法^[14-15]来获取标志物物像的5个特征量：标志物中心在图像坐标系中的坐标$ \left(x_{0}, y_{0}\right) $、长轴长度a（单位为像素）、短轴长度b（单位为像素）、短轴与水平线夹角θ，如下式：

$$ \begin{split} & \dfrac{{{{\left[ {\left( {x - {x_0}} \right)\cos \theta - \left( {y - {y_0}} \right)\sin \theta } \right]}^2}}}{{{a^2}}} + \\ &\dfrac{{{{\left[ {\left( {x - {x_0}} \right)\sin \theta + \left( {y - {y_0}} \right)\cos \theta } \right]}^2}}}{{{b^2}}} = 1 \end{split} $$

(2)

回归算法采用极限梯度提升算法（XGBoost）^[16]，其致力于突破提升树的计算极限，实现快速运算和高效性能。对比经典的GBDT（gradient boosting decision tree）算法，XGBoost主要进行了如下主要改进：

1）对损失函数进行二阶泰勒展开，利用了一阶和二阶导数信息，从而减少优化过程中产生的误差，而GBDT仅用到一阶导数信息；

2）损失函数添加正则化项，控制模型复杂度，防止过拟合；

3）支持并行运算。

XGBoost可表示为加法模型，利用模型上一次迭代（由t-1棵树组合而成的模型）的预测产生的残差，建立下一棵树（第t棵树）：

$$ \hat{y}_{i}^{(t)}=\sum\nolimits_{k=1}^{t} f_{k}\left(x_{i}\right)=\hat{y}_{i}^{(t-1)}+f_{t}\left(x_{i}\right) $$

(3)

式中：$ \hat{y}_{i}^{(t)} $表示样本在t次迭代时模型对样本$ x_{i} $的预测结果；$ f_{k} $为第k棵树；$ f_{t} $为新添加的树。

添加的规则是在现有的t-1棵树的基础上，使得目标函数最小。目标函数为

$$ {f_{\rm{obj}}}^{(t)} = \sum\nolimits_{i = 1}^n l \left[ {{y_i},\hat y_i^{(t - 1)} + {f_t}\left( {{x_i}} \right)} \right] + \varOmega \left( {{f_t}} \right) + {\rm{c}}$$

(4)

式中：l为损失函数；$\varOmega $为正则项，用于惩罚复杂模型；$ { {\rm{c}} } $为常数项。二阶泰勒展开为

$$\begin{split} {f_{\rm{obj}}}^{(t)} =& \sum\nolimits_{i = 1}^n {\left[ {l\left( {{y_i},\hat y_i^{(t - 1)}} \right) + {g_i}{f_t}\left( {{x_i}} \right) + \frac{1}{2}{h_i}f_t^2\left( {{x_i}} \right)} \right]} +\\ &\varOmega \left( {{f_t}} \right) + {\rm{c}} \end{split}$$

(5)

$$ {g_i} = {\partial _{\hat y_i^{(t - 1)}}}l\left( {{y_i},\hat y_i^{(t - 1)}} \right),{h_i} = \partial _{\hat y_i^{(t - 1)}}^2l\left( {{y_i},\hat y_i^{(t - 1)}} \right)\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; $$

(6)

利用XGBoost分别对相对坐标$ x_{{\rm{re}}} $、${y}_{{\rm{re}}}$训练回归模型：

$$\left\{ {\begin{array}{*{20}{l}} {{x_{{\rm{re}}}} = \hat y_x^{(t)}\left( {{x_0},{y_0},a,b,\theta } \right)}\\ {{y_{{\rm{re}}}} = \hat y_v^{(t)}\left( {{x_0},{y_0},a,b,\theta } \right)} \end{array}} \right. $$

(7)

最后结合对特征标签解码所得的标签绝对坐标$\left(x_{{{\rm{m}}}}, y_{{\rm{m}}}\right)$，即可求得相机室内绝对坐标$ \left(x_{a b}, y_{a b}\right) $：

$$\left\{ {\begin{array}{*{20}{l}} {{x_{ab}} = {x_{\rm{m}}} \pm {x_{{\rm{re}}}}}\\ {{y_{ab}} = {y_{\rm{m}}} \pm {y_{{\rm{re}}}}} \end{array}} \right.\;\;\left( {正负号由相机朝向决定} \right) $$

(8)

相比文献[9]和[10]的AR标志物和棋盘格标志物，圆环编码在完成相对坐标测量的同时，也能实现求解朝向（如表1所述）的依据。

2 系统设计与工作流程

由于面向仓储的室内AGV有不同的尺寸，大型的尺寸如小汽车，可以搭载如工业控制计算机作为处理终端；而小型室内AGV只有30 cm～50 cm的边长，仅能搭载便携的嵌入式设备作为处理终端。所以，小型AGV需要在嵌入式设备上运行深度学习YOLO网络模型，同时需要实现快速运算，显然对设备的计算力要求比较高，普通的嵌入式开发板无法满足，因此该系统选用嵌入式GPU硬件平台NVIDIA Jetson TX2^[17]，如图3所示，其内部集成了256个NVIDIA CUDA 核心和一个6核64位的ARMv8处理器集群，拥有8 GB LPDDR4 128位内存，非常适合运行深度学习网络，且容易部署在移动设备上。

图 3 NVIDIA Jetson TX2+载板

Figure 3. NVIDIA Jetson TX2 and its loading board

下载: 全尺寸图片幻灯片

系统在开发过程中，YOLO网络的训练以及代码的运行都先在电脑端上进行开发和测试。当代码可以正常运行后，再将整套算法移植至嵌入式设备GPU中测试最终效果。嵌入式设备的参数见表2。

表 2 嵌入式设备参数

Table 2. Embedded device parameters

系统环境	软件环境	硬件环境
Ubuntu 16.04	Python 3.5.2	NVIDIA Jetson TX2模块*
	OpenCV 3.4.4	瑞泰RTSO-9001载板
	CUDA-9.0	罗技C270摄像机，300万像素
*运存与显存共用，容量为8 G，外存容量30 G。

下载: 导出CSV

| 显示表格

实验主机的软件环境与嵌入式设备保持一致，硬件参数见表3。

表 3 实验用电脑参数

Table 3. Experimental host parameters

系统环境	硬件环境
Ubuntu 18.04	GPU：Nvidia GTX1080Ti，10 G显存
	CPU：Intel(R) Core(TM) i7-7700 CPU @ 3.60 GHz
	32 G RAM内存

下载: 导出CSV

| 显示表格

该定位系统的完整运行流程框图如图4所示。系统先调用相机采集定位场景，利用YOLO找出标志物，给出①标志物的朝向解码和它的世界坐标、②标志物的中心在图像坐标系中的坐标(x₀，y₀)、长轴长度a、短轴长度b、短轴与水平线夹角θ，并将这些参数输送XGBoost模型，得到相机和标志物相对坐标。最后，将标志物世界坐标和相机与标志物相对坐标结合，便得到相机（即AGV）的世界坐标。

图 4 系统框图

Figure 4. Flow chart of system

下载: 全尺寸图片幻灯片

实验场景设置如图5所示。地板上铺设2 m×2 m的KT板，颜色为浅灰色，在CMYK(cyan-magenta-yellow-black)色域表示为（C: 0, M: 0, Y: 0, K: 50-60）。在与KT板底边相距15.0 cm处平行放置光学导轨，光学导轨滑块上架设罗技M270摄像机。

图 5 系统搭设

Figure 5. System construction

下载: 全尺寸图片幻灯片

3 系统测试与数据分析

3.1 实验效果

首先进行图像采集工作，在KT板中线放置5个不同圆环数的特征标签，相机每次以1 cm的步长水平移动，每个位置采集一张图像。相机在光学导轨上从左端到右端共99个位置。在所有水平位置都采集到图像后，全部标签整体下移5 cm，重复上述步骤继续拍摄。拍摄的同时，记录每个特征标签相对相机的坐标，标签以相机为原点，水平导轨为x轴，过相机点垂直于水平导轨为y轴。最后采集到有效图像共1266张。

利用采集所得的图像，在电脑端上训练出YOLO网络。每训练1000个循环，模型生成一个权重文件，当损失收敛时停止训练。每一张图像视野内完整的特征标签包含的圆环数有多个（2～5个），共从1266张图像中提取出5483 组圆环编码图案椭圆拟合信息$ \left(x_{0}, y_{0}, a, b, \theta\right) $，用于训练XGBoost回归模型。训练完毕后，定位系统调用权重文件，对每一帧图像实时预测出相机的室内绝对坐标。系统运行效果图如图6所示。

图 6 系统运行效果图（position/cm：相机绝对坐标）

Figure 6. Effect diagram of system operation (position/cm: absolute coordinates of camera)

下载: 全尺寸图片幻灯片

系统各模块在实验主机和NVIDIA Jetson TX2平均运行时间如表4所示。

表 4 各模块平均运行时间

Table 4. Average running time of each module ms

模块	电脑主机	TX2
YOLO	35	280
椭圆拟合	1	6
预测坐标	8	15
解码	1	9
合计	45	310

下载: 导出CSV

| 显示表格

3.2 误差分析

测试集误差情况如表5所示。模型的平均误差在1.00 cm以内，其中x方向的平均误差为0.31 cm，y方向平均误差为0.52 cm，坐标平均误差近似为0.55 cm。坐标x最大误差不超过2 cm，坐标y最大误差不超3 cm。对比LPLA^[8]测量距离标准差7.1 cm有明显提升。将测试集的x坐标和y坐标的绝对误差制作成绝对误差热度图分布，如图7所示。由热度图可见，误差最大的数据点主要在最远端，这是因为远端的标志物物像较小，清晰度不够。出于实时性考虑（因为亚像素边沿提取需要使用矩进行卷积，所以耗时较大），本文未采用亚像素处理，所以该部分区域的圆环拟合出现比其他区域略大的偏差，从而影响了相机和特征标签之间的相对坐标预测。根据分析可知，摄像机清晰度和边沿精确提取是定位精度最大的两个因素，故未来随着处理终端（如电脑、嵌入式GPU）算力的提升，可以采用更高分辨率的摄像头和引入亚像素处理，以提高定位的准确性。

表 5 测量误差

Table 5. Measuring errors cm

参数	平均误差	标准差	误差最大值
坐标x	0.31	0.28	1.57
坐标y	0.52	0.51	2.91
距离$ \left(\sqrt{x^{2}+y^{2}}\right) $	0.55	0.53	3.31

下载: 导出CSV

| 显示表格

图 7 绝对误差热度分布图

Figure 7. Heat distribution diagram of absolute errors

下载: 全尺寸图片幻灯片

4 结论

为克服单目视觉定位精度低的短板，本文提出一种可在嵌入式GPU上运行，基于特征圆环标签畸变解算的轻量化单目视觉定位系统。该系统运用多个全局特征标签—带编码的圆环图案进行定位。实际工作中，利用单个通用相机拍摄地面上铺设的特征标签，并做图像识别和分析，根据标签的畸变预测出相机与特征标签之间的相对坐标，对标签所包含圆环进行解码，得到标签的室内绝对空间位置及相机朝向，进而计算出相机的室内绝对空间位置。1266张图片的5483组实验数据表明，在2 m×2 m范围内，该定位系统的平均测量误差仅为0.55 cm，对比文献报道的LPLA有明显提升。因此，只要合理铺设特征标签，利用该系统可实现AGV在（如仓库等）室内场景中任意位置准确地定位，有望为AGV实施货物自动分拣等工作提供辅助。

图 1 圆环编码图案及解码示意图(方向“1234”指相机所处位置)

Figure 1. Ring encoded pattern and schematic diagram of decoding (number 1 to 4 refers to position of camera)

下载: 全尺寸图片幻灯片

图 2 解码示意图

Figure 2. Schematic diagram of decoding

下载: 全尺寸图片幻灯片

图 3 NVIDIA Jetson TX2+载板

Figure 3. NVIDIA Jetson TX2 and its loading board

下载: 全尺寸图片幻灯片

图 4 系统框图

Figure 4. Flow chart of system

下载: 全尺寸图片幻灯片

图 5 系统搭设

Figure 5. System construction

下载: 全尺寸图片幻灯片

图 6 系统运行效果图（position/cm：相机绝对坐标）

Figure 6. Effect diagram of system operation (position/cm: absolute coordinates of camera)

下载: 全尺寸图片幻灯片

图 7 绝对误差热度分布图

Figure 7. Heat distribution diagram of absolute errors

下载: 全尺寸图片幻灯片

表 1 码型与相机朝向映射表

Table 1 Code type and camera orientation mapping

圆环数	二进制码	中心绝对坐标/cm	相机朝向
2	010	（100，100）	东
	0101	（100，100）	南
	101	（100，100）	西
	1010	（100，100）	北
3	01010	（200，200）	东
	010101	（200，200）	南
	10101	（200，200）	西
	101010	（200，200）	北

下载: 导出CSV

表 2 嵌入式设备参数

Table 2 Embedded device parameters

系统环境	软件环境	硬件环境
Ubuntu 16.04	Python 3.5.2	NVIDIA Jetson TX2模块*
	OpenCV 3.4.4	瑞泰RTSO-9001载板
	CUDA-9.0	罗技C270摄像机，300万像素
*运存与显存共用，容量为8 G，外存容量30 G。

下载: 导出CSV

表 3 实验用电脑参数

Table 3 Experimental host parameters

系统环境	硬件环境
Ubuntu 18.04	GPU：Nvidia GTX1080Ti，10 G显存
	CPU：Intel(R) Core(TM) i7-7700 CPU @ 3.60 GHz
	32 G RAM内存

下载: 导出CSV

表 4 各模块平均运行时间

Table 4 Average running time of each module ms

模块	电脑主机	TX2
YOLO	35	280
椭圆拟合	1	6
预测坐标	8	15
解码	1	9
合计	45	310

下载: 导出CSV

表 5 测量误差

Table 5 Measuring errors cm

参数	平均误差	标准差	误差最大值
坐标x	0.31	0.28	1.57
坐标y	0.52	0.51	2.91
距离$ \left(\sqrt{x^{2}+y^{2}}\right) $	0.55	0.53	3.31

下载: 导出CSV

参考文献(17)

[1]	李宁. 基于网络时代下的人工智能发展分析[J]. 现代电子技术,2016,39(7):112-114. LI Ning. Analysis of artificial intelligence development in Internet age[J]. Modern Electronics Technique,2016,39(7):112-114.
[2]	李照, 舒志兵. 一种改进二维码视觉精定位AGV技术研究[J]. 控制工程,2019,26(6):1049-1054. doi: 10.14107/j.cnki.kzgc.161448 LI Zhao, SHU Zhibing. Research on AGV vision precision positioning technology by an improved two-dimensional code[J]. Control Engineering of China,2019,26(6):1049-1054. doi: 10.14107/j.cnki.kzgc.161448
[3]	董永峰, 王安娜, 周艳聪, 等. 一种新的基于RFID的室内移动机器人自定位方法研究[J]. 计算机应用研究,2016,33(3):749-753. doi: 10.3969/j.issn.1001-3695.2016.03.025 DONG Yongfeng, WANG Anna, ZHOU Yancong, et al. Research on novel self-localization method for indoor robot based on RFID[J]. Application Research of Computers,2016,33(3):749-753. doi: 10.3969/j.issn.1001-3695.2016.03.025
[4]	温拓朴, 丁文浩, 潘长勇. 基于定向天线的蓝牙室内定位系统[J]. 现代电子技术,2019,42(3):6-9. doi: 10.16652/j.issn.1004-373x.2019.03.002 WEN Tuopu, DING Wenhao, PAN Changyong. Bluetooth indoor localization system based on directional antenna[J]. Modern Electronics Technique,2019,42(3):6-9. doi: 10.16652/j.issn.1004-373x.2019.03.002
[5]	吴楠, 杨爱英, 冯立辉, 等. 可见光定位关键技术的研究与展望[J]. 南京信息工程大学学报(自然科学版),2017,9(2):159-167. WU Nan, YANG Aiying, FENG Lihui, et al. Research and prospect of key technologies for visible light localization[J]. Journal of Nanjing University of Information Science and Technology(Natural Science Edition),2017,9(2):159-167.
[6]	王海亮, 陈登旭, 刘吉, 等. 基于单目视觉的矩形靶面弹着点测量[J]. 应用光学,2021,42(1):131-136. doi: 10.5768/JAO202142.0103006 WANG Hailiang, CHEN Dengxu, LIU Ji, et al. Measurement of impact point of rectangular target surface based on monocular vision[J]. Journal of Applied Optics,2021,42(1):131-136. doi: 10.5768/JAO202142.0103006
[7]	黄伟. 计算机视觉技术及产业化应用态势分析[J]. 信息通信技术与政策,2018(9):59-62. HUANG Wei. Computer vision technology and industrial application situation analysis[J]. Information and Communications Technology and Policy,2018(9):59-62.
[8]	HAN S B, KIM J H, MYUNG H. Landmark-based particle localization algorithm for mobile robots with a fish-eye vision system[J]. IEEE/ASME Transactions on Mechatronics,2012,18(6):1745-1756.
[9]	YANG Guojun, SANIIE J. Indoor navigation for visually impaired using AR markers[C]// 2017 IEEE International Conference on Electro Information Technology (EIT), New York: IEEE, 2017: 1-5.
[10]	曹小华, 任晓玉. 基于平面投影的单目视觉 AGV 定位算法[J]. 起重运输机械,2018(4):103-106. doi: 10.3969/j.issn.1001-0785.2018.04.026 CAO Xiaohua,REN Xiaoyu. Monocular vision AGV localization algorithm based on planar projection[J]. Lifting and Transportation Machinery,2018(4):103-106. doi: 10.3969/j.issn.1001-0785.2018.04.026
[11]	韩思奇, 王蕾. 图像分割的阈值法综述[J]. 系统工程与电子技术,2002,24(6):91-94. doi: 10.3321/j.issn:1001-506X.2002.06.027 HAN Siqi, WANG Lei. A survey of thresholding methods for image segmentation[J]. Systems Engineering and Electronics,2002,24(6):91-94. doi: 10.3321/j.issn:1001-506X.2002.06.027
[12]	张万祥, 庞其昌, 赵静, 等. 中药光谱成像图像自适应区域增长分割方法[J]. 应用光学,2010,31(1):78-82. doi: 10.3969/j.issn.1002-2082.2010.01.018 ZHANG Wanxiang, PANG Qichang, ZHAO Jing, et al. Self-adaptive region growing algorithm to segment images of spectral imaging for TCM assessment[J]. Journal of Applied Optics,2010,31(1):78-82. doi: 10.3969/j.issn.1002-2082.2010.01.018
[13]	郭贵松, 林彬, 杨夏, 等. 基于斑马鱼图像特征的鱼群检测算法[J]. 应用光学,2022,43(2):257-268. doi: 10.5768/JAO202243.0202004 GUO Guisong, LIN Bin, YANG Xia, et al. Fish stock detection algorithm based on zebrafish image features[J]. Journal of Applied Optics,2022,43(2):257-268. doi: 10.5768/JAO202243.0202004
[14]	FITZGIBBON A, PILU M, FISHER R B. Direct least square fitting of ellipses[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,1999,21:476-480. doi: 10.1109/34.765658
[15]	闫蓓, 王斌, 李媛. 基于最小二乘法的椭圆拟合改进算法[J]. 北京航空航天大学学报, 2008, 34(3): 295-298. YAN Bei, WANG Bin, LI Yuan. Optimal ellipse fitting method based on least-square principle[J]. Journal of Beijing University of Aeronautics and Astronautics, 34(3): 295-298.
[16]	CHEN T Q, GUESTRIN C. XGBoost: a scalable tree boosting system[R]. New York, USA: Association for Computing Machinery, 2016: 785-794.
[17]	齐健. NVIDIA Jetson TX2平台: 加速发展小型化人工智能终端[J]. 智能制造,2017(5):20-21. doi: 10.3969/j.issn.1671-8186.2017.05.005 QI Jian. NVIDIA Jetson TX2 platform: accelerating the development of miniaturized artificial intelligence terminal[J]. Intelligent Manufacturing,2017(5):20-21. doi: 10.3969/j.issn.1671-8186.2017.05.005

施引文献

资源附件(0)

图(7) / 表(5)

计量

文章访问数: 253
HTML全文浏览量: 91
PDF下载量: 55
被引次数: 0

引言
1 系统原理
1.1 圆环编码图案及解码原理
1.2 利用YOLO神经网络分割圆环编码特征物
1.3 利用XGBoost预测相对坐标
2 系统设计与工作流程
3 系统测试与数据分析
3.1 实验效果
3.2 误差分析
4 结论

基于嵌入式GPU的特征畸变单目视觉定位系统的研究

作者简介:
陈泽鹏（1997—），男，硕士研究生，主要从事光学成像、机器学习研究。E-mail：chenzp8@mail.sysu.edu.cn

通讯作者:
郑民（1962—），男，副教授，主要从事光学工程、图像分析研究。E-mail：zjzhengmin@126.com

计量

Monocular visual positioning system with characteristic distortion based on embedded GPU