《中国人工智能学会通讯》——5.26 受视觉通路的整体结构启发

更新时间：2022-09-30 15:07:03

5.26 受视觉通路的整体结构启发

一般认为层级的视觉系统有两条通路，即腹侧通路和背侧通路。一般腹侧通路处理与识别相关的信息，而背侧通路处理和物体空间位置以及运动有关的信息。在视频处理中，静态图像的信息和动作信息同时起作用。为了利用动作信息，常用的做法包括将前后多帧的图像信息在处理的某个阶段进行融合，比如早融合将多张图像一起输入，晚融合分别处理多张图像然后将它们的输出组合在一起。递归神经网络也经常用来辅助模型以提取时序上的动作信息。与这些做法不同，文献 [10] 将双通路的CNN 用于视频中的动作识别（如图 6 所示），其中空间流 CNN 模仿腹侧通路处理静态图像，时域流CNN 模仿背侧通路处理光流图片（光流图片提取了动作信息）。空间流 CNN 以单帧图像为输入，该CNN 能够识别出图像中包含的物体类别，由于动作本身是由物体发出的，静态图像的信息对动作识别有重要作用。时域流 CNN 以根据多帧图像计算出的光流图像作为输入进行处理。有趣的是，用图像分类任务对时域流 CNN 做预训练对这个任务仍然有辅助作用。模型在动作识别中取得了优异的效果，是目前做视频分类的基准模型，很多新的模型都是在此基础上的改进版，如文献 [11]。《中国人工智能学会通讯》——5.26 受视觉通路的整体结构启发

上一篇 : ：《中国人工智能学会通讯》——5.27 受人类概念学习过程的启发下一篇 : 《中国人工智能学会通讯》——5.25 受神经线路连接模式的启发

《中国人工智能学会通讯》——5.26 受视觉通路的整体结构启发

5.26 受视觉通路的整体结构启发

相关阅读

推荐文章