技术与服务
技术资料
> 技术支持 > 技术资料
深度学习
2020-02-25  来源:   字号: 

       传统机器学习的方法大都是区域选择、特征提出及建立分类器三步曲,在应用过程中效率常常成为最大的困扰。在区域选择策略上效果较差,时间效率不高,提取的特征鲁棒性不高,常常直接影响着机器视觉技术项目的实施。

       深度学习(Deep Learing,DL)是一种以深(多)层神经网络结构(DeepNeural Network, DNN)为主要特点的机器学习模型和算法,是机器学习的一种新方式。它是以人工神经网络( Artificial Neural Network,  ANN)为基础,利用 DNN 建立模型,配合有效的参数调整和优化方法。

深度学习的发展

       深度学习出现的时间较早,一直以来发展不快,直到 2006 年才步入新的快速发展的阶段,大量地应用于各类工程技术问题的解决。

       2006 年加拿大高级研究院(CIFAR)组织进行 DNN 的研究并取得较好的实际效果;同年 G.E.Hinton 提出深度学习的概念,并成功解决了阻碍多层深度学习结构的关键问题,自此深度学习才拉开大幕。

深度学习的模型

       深度学习已建立多种模型,常常用于语音、自然语言、视频、图像等领域,机器视觉技术指的是图像及视频的处理。工业和工程领域涉及的被测物特征主要有几何形状、形态、色彩、纹理等,玖瑞科技均有一定程度的研究。

      常用的深度学习模型如下

卷积神经网络( Covolutional Nerual Networks ,CNN )

       CNN 是深度学习中一种重要的方法和模型,它主要的特点是网络结构中有大量的卷积层和池化层,通过大量的卷积层(Convolutional Layer)和池化层(Pooling Layer)依次叠加,对图像数据进行逐层的特征提取、组合和抽象,从而能够学习到分类识别的更高层次的特征描述。

       CNN 模型是受生物视觉识别的模型启发而产生的,模拟了动物视觉信号处理的方式,与动物视觉 LNG-V1-V2-V4-IT 的层级神经认知回路在图像处理上是近似的。

       以下是 2012 年 G.E. Hinton 在 ILSVRC 竞赛中提出的 AlexNet 模型。

        此模型做了一些根本性的改变,自此深度学习的 CNN 发生了质变进入到新的发展阶段。

        AlexNet 模型,包括由此而产生的新系列模型能够有较大发展,同样也得益于计算技术(如 CPU、GPU 等)及单位运算成本的大幅度下降,硬件技术为其提供了物理基础。

基于深度学习的计算机视觉( Computer Vision )

       基于深度学习的计算机视觉大致分为 3 个研究领域:图像分类、目标检测和图像语义分割。

       图像分类,是一种根据各类图像所反映的不同特征,把不同类别的目标区分开来的图像处理方法。典型的基于深度学习的图像分类网络包括:VGGNet、ResNet 等。VGGNet 是由牛津大学和 Google DeepMind 公司一起研发的深度卷积神经网络,它探索了卷积神经网络的深度和其性能之间的关系。VGGNet 获得了 ILSVRC 2014 年比赛的亚军和定位项目的冠军,在 top5上的错误率为 7.5%。目前为止,VGGNet 依然被大量网络用来提取图像的特征。ResNet(Residual Neural Network)由微软研究院的 Kaiming He 等人提出,通过使用 ResNet Unit 成功训练出了 152 层的神经网络,并ILSVRC2015 比赛中取得冠军,在 top5 上的错误率为 3.57%,同时参数量比VGGNet 低,效果非常突出。ResNet 的结构可以极快地加速神经网络的训练,模型的准确率也有比较大的提升。

       目标检测的任务是找出图像中所有感兴趣的目标(物体),确定它们的位置和大小,是机器视觉领域的核心问题之一。由于各类物体有不同的外观、形状、姿态,加上成像时光照、遮挡等因素的干扰,目标检测一直是机器视觉领域最具有挑战性的问题。与深度学习相关的目标检测方法大致分为两派:基于区域提名的方法,如 R-CNN、Fast R-CNN、Faster R-CNN等,无需区域提名的方法,如:YOLO 系列、SSD 等。

       图像语义分割就是按照语义对图像中的每个像素点进行分类。语义分割不仅需要解决图像中包含哪些物体,还需要解决每个像素点属于哪个物体。当前代表性的网络主要有 FCN、UNet、DeepLab 等。另外还有用于实例分割的 Mask R-CNN 可以实现目标检测和图像语义分割的双重功能。实例分割的意思是,算法用目标检测方法从图像中检测到不同实例,再用语义分割方法在不同实例区域内进行逐像素分割。


(本文由玖瑞科技技术部视觉与测控技术实验室整理提供,本文参考了 2018 年 6月山西农业大学王(JIE)博士、2018 年 12 月中国地质大学王振华博士的论文)