您好、欢迎来到现金彩票网!
当前位置:秒速快3 > 数据依赖 >

在多个数据集的光流预测任务上大幅提升了预测性能

发布时间:2019-07-17 07:29 来源:未知 编辑:admin

  视觉领域的基本任务。在3D目标跟踪、处理和重建等实际任务中,经常需要对被遮挡的光流进行预测。本文介绍在CVPR2019上发表的一篇论文,在多个数据集的光流预测任务上大幅提升了预测性能。

  光流是计算机视觉的一个基本任务,它描述了视频中的运动信息,相关技术广泛应用于视频理解和处理、物体跟踪、三维重建、自动驾驶等场景。近日,来自香港中文大学和腾讯AI实验室团队的一篇论文入选了CVPR2019。

  论文题为《一种自监督的光流学习方法》。论文团队探索了使用卷积神经网络估计光流的一个关键挑战:预测被遮挡像素的光流。

  论文第一作者刘鹏鹏详细阐述了该论文的意义:“首先,我们提出了一种从没有标注的数据中学习光流的自监督训练框架。这个方法会人为创造一些遮挡,然后利用已经学习到的比较准确的没有被遮挡像素的光流去指导神经网络学习被遮挡像素的光流。其次,我们设计一个可以利用多帧图像时序连续性的网络结构来更好地学习光流。

  基于这两个原则,我们的方法在MPI Sintel, KITTI2012和KITTI 2015等数据集上取得了最好的无监督学习效果。更重要的是,我们的无监督方法得到的模型为有监督的微调提供了一个很好的初始化,消除了训练光流神经网络对仿真数据的依赖。经过有监督微调,我们的模型在以上三个数据集上取得了目前最优的性能,这是光流研究历史上第一次不使用额外仿真数据达到的最高准确度。

  我们在写这篇文章的时候(2018年11月),我们的模型在Sintel评测集上取得EPE=4.26,超过来自世界各地研究机构的所有180多种已经提交的方法。直到今天,我们的算法在Sintel榜单上还是第一。”

  表1:与基于最先进学习的光流估计方法的比较。我们的方法优于所有数据集上的所有无监督光流学习方法。我们的监督微调模型在Sintel Final数据集和KITTI 2012数据集上实现了最高精度。除KITTI 2012和KITTI 2015测试集的最后一列外,所有数字均为EPE,我们报告了所有像素(Fl-all)上的错误像素百分比。( - )表示未报告相应方法的结果。括号表示训练和测试是在同一数据集上执行的。粗体字为无监督和监督方法中的最佳结果。

  图2 在每个级别的网络架构(类似于PWC-Net)。˙wl表示水平l的初始粗流,F l表示翘曲的特征表示。在每个级别,将初始流量和成本量作为输入交换,以便同时估计前向流量和后向流量。再将这些估计传递到l-1层上,估计更高分辨率的流。

  图3 多帧自训练的数据流。为了估计三帧流学习的遮挡图,我们使用五个图像作为输入。这样,我们可以进行前后一致性检查,以分别估计I t和I t + 1之间,I t和I t-1之间的遮挡图。

  图5 在Sintel Clean培训和Sintel Final测试数据集的不同设置下的定性比较。遮挡处理,多帧制定和自我监督不断提高性能

  如表1所示,我们在所有评估指标下的所有数据集上实现了无监督和监督光流学习的最新结果。图4所示为Sintel和KITTI的样本结果。

  本文中的方法在基准测试中实现了无监督学习方法的最高精度。在Sintel Final基准测试中,将之前的最佳EPE从7.40 降低到6.57,相对提升幅度为11.2%。这甚至比包括FlowNetS,FlowNetC和SpyNet在内的几种完全监督方法更优秀。在KITTI数据集上的改进更为明显。

  对于训练数据集,我们实现了EPE = 1.69,KITTI 2012的相对改进幅度为28.1%,EPE = 4.84,与之前最佳无监督方法DDFlow相比,KITTI 2015的相对改进为15.3%。在KITTI 2012测试集中,实现了Fl-all = 7.68%,这比包括FlowNet2,PWC-Net,ProFlow和MFF在内的最先进的监督学习方法实现了更好的性能。在KITTI 2015基准测试中,实现了Fl-all=14.19%,优于所有无监督方法。其中一些无监督学习的结果也优于一些完全监督的方法,包括DCFlow和ProFlow等。

  使用Ground-truth流程进一步对无监督学习模型进行微调后,模型在所有三个数据集上都获得了最先进的结果,KITTI 2012上的Fl-all = 6.19%,KITTI 2015上的Fl-all = 8.42%。最重要的是,我们的方法在Sintel Final数据集上实现了EPE = 4.26 ,在所有提交的方法中实现Sintel了基准测试的最高精度。所有这些都表明,我们的方法减少了预训练对合成数据集的依赖,不必再遵循不同数据集来专门制定训练计划。

  本文提出了一种自我监督的方法来学习准确的光流估计,此方法将噪声注入到超级像素中以创建遮挡,让一个模型引导另一个模型来学习遮挡像素的光流。我们通过简单的CNN有效地聚合来自多个帧的时间信息,改进流量预测精度。大量实验表明,我们的方法明显优于所有现有的无监督光流学习方法。在使用我们的无监督模型进行微调后,模型在所有领先的基准测试中实现了最先进的流量估算精度结果。我们的研究可以完全降低预训练过程对合成标记数据集的依赖,并通过对未标记数据进行自监督的预训练,实现优异的预测性能。

  原文标题:港中大等打造光流预测新模型SelFlow,自监督学习攻克遮挡难题 CVPR 2019

  文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

  David,加州大学物理博士,美国著名电商数据科学家。本课程介绍什么是深度学习, 深度学习与机器学习的关系,几种神经网络

  行人再识别起源于多摄像头跟踪,指在非重叠视角域多摄像头网络下进行的行人匹配,即确认不同位置的摄像头在....

  如何开始一个 AI 业务是一个难题,需不需要 AI 来进行业务的辅助?是否需要组建一个自己的算法团队....

  根据麦肯锡的数据,从现在到2030年这十几年间,人工智能将会为美国新创造大约13万亿美元的国内生产总....

  卷积神经网络是一个多层的神经网络,每层由多个二维平面组成,而每个平面由多个独立神经元组成。

  开源的深度学习神经网络正步入成熟,而现在有许多框架具备为个性化方案提供先进的机器学习和人工智能的能力....

  研究人员利用基于神经网络的新算法,成功模拟了量子系统的“稳态”。利用神经网络估计并模拟波函数和密度矩....

  《创世纪》里,神用7天创造了这个世界。而现在,你可能也有机会体验这个过程,创造一个属于自己的宇宙。

  近期谷歌大脑团队发布了一项新研究:只靠神经网络架构搜索出的网络,不训练,不调参,就能直接执行任务。

  将A图片的风格转移到B图片上,指的是将A图片的抽象艺术风格(如线条、色彩等等)和B图片的内容框架合成....

  为了对这一现象进行解释,本文对标签平滑对网络倒数第二层表示的影响进行了可视化,发现标签平滑使同一类训....

  英特尔两款面向推理和训练的Nervana神经网络处理器,将在今年年底发布

  在2019年百度AI开发者大会上,英特尔公司副总裁兼人工智能产品事业部总经理Naveen Rao以“....

  目前很多网络轻量化的工作[1,2,3]利用结构稀疏正则化(下文简称为结构正则化)来对神经网络进行通道....

  有人评论:像这样的论文今天几乎会被所有 “顶级” 人工智能会议和期刊拒绝,但我不得不说,我很欣赏它的....

  我认为图灵机制在诞生在很早的生命阶段,现在的图灵机制是大脑皮层高度扩大之后,提供的扩展能力呈现出来的....

  英特尔正与百度合作开发英特尔® Nervana™神经网络训练处理器(NNP-T)。这一合作包括全新定....

  好在医院可以通过改善卫生条件来扭转这一局面。无论在医院、机场还是餐馆之类的公共场合,手部卫生都是预防....

  当今物理和天文实验所产生的海量信息,没有任何一个人或者团队可以完整的处理。有些实验数据每天以千兆字节....

  这篇文章将非常详细地介绍计算机视觉领域中的目标跟踪,尤其是相关滤波类方法,分享一些作者认为比较好的算....

  本文整理自腾讯云AI和大数据中心AI技术专家-叶聪在极客说上的精彩分享。

  霍金的弟子,约翰霍普金斯大学教授Alan Yuille提出“深度学习在计算机视觉领域的瓶颈已至。

  摘要: 本文主要介绍计算机视觉中主要的五大技术,分别为图像分类、目标检测、目标跟踪、语义分割以及实例....

  文章主要介绍了斯坦福AI实验室如何通过计算机视觉技术监测医院内的手部清洁工作来改善医院卫生条件。

  视觉使人类得以看见和感知这个世界,计算机视觉即通过电子化的方式来感知和理解影像,利用人工智能方面的科....

  计算机视觉是在图像处理的基础上发展起来的新兴学科。OpenCV是一个开源的计算机视觉库,是英特尔公司....

  我们都知道,人类有学习的能力。由于人类不断的追求学习和进步,我们今天才处于一个美好的文明社会。百科上....

  DeepNude 软件使用神经网络技术能将女性图片中的衣物消除,让照片看上去就像是真实裸照,尤其裸露....

  至今中国人工智能企业共计1093家,其中78%的企业成立于2012年以后,另有44家企业于2018年....

  一、资源介绍今天给大家推荐一本超简单计算机视觉书,这本书名字叫做《Vision-Based Deep Lear

  在过去的几年里,使用深度学习来完成各种技术和商业成就(自驾汽车、有针对性的广告、智能手机上的语音助手....

  人工智能的目标是让机器像人类一样学会学习。算法训练、深度学习等都需要大量数据支持,数据挖掘是人工智能....

  在训练D3M之后,研究人员对6亿光年的箱形宇宙进行了模拟,并将结果与慢速和快速模型的结果进行了比较。....

  再现《钢铁侠》全息黑科技在ACM SIGMOD 2019上发表的该项目的研究论文中,研究人员详细介绍....

  近年来,人们对持续学习(也称为终身学习)的兴趣再度兴起,这是指以在线方式从可能与不断增加的任务相关的....

  无需翻译的无监督复述的新方法:允许从输入句子生成多样化、但语义上接近的句子

  理论上来看,翻译技术可能是自动复述的有效解决方案,因为翻译技术是从语言实现中抽象出语义内容。例如,将....

  本文试图通过研究一个未开发的数据体系来解决这个复杂的问题:使用外部社交媒体上数十亿的带有标签的图像作....

  本周,两位从事地震分析的数据科学家Arnaud Mignan和Marco Broccardo也撰文指....

  目前,人工智能基础性算法已经较为成熟,各大厂商纷纷发力建设算法模型工具库,并将其封装为软件框架,供开....

  科大讯飞夺冠2019年度计算机视觉顶级会议CVPR和ICDAR多项评测

  科大讯飞A.I.研究院联合中科大语音及语言信息处理国家工程实验室(NELSLIP)(以下统称为讯飞-....

  在VR应用中,让研究参与者使用带有触觉反馈的手柄来切割树木,体验造纸的过程。

  即使 L3 及以上自动驾驶汽车必须有高精地图辅助已经成了业界共识,特立独行的马斯克认为高精度地图是浪....

  晓推自研的视频情景分析技术可以识别出视频中每一帧画面的内容,并且打上特定的标签,如图1所示,该技术可....

  6月20日,张韵东所在的中星微 “数字多媒体芯片技术”国家重点实验室举行新闻发布会称,其发明的中国首....

  电子发烧友总结了以“人工智能”为主题的5月精选干货,今后每月一个主题为一期,希望对各位有所帮助!(点击标题即可进入页面下载...

  i.MX 8开发工具从相机获取数据并使用一个GPU并应用图像分割算法。然后将该信息馈送到专用于识别交通标志的神经网络推理引擎...

  【Elecfans社区精华帖】(190507):快上车!32年老司机教你优化模拟集成!

  电子发烧友总结了以“神经网络”为主题的精选干货,今后每天一个主题为一期,希望对各位有所帮助!(点击标题即可进入页面下载相...

  NNoM (Neural Network on Microcontroller) 是一个轻量化,纯C实现的一个机器学习和神经网络包。AIoT那么火,为...

  【PYNQ-Z2试用体验】基于PYNQ-Z2的神经网络图形识别[结项]

  前言前面我们简单讲解了神经网络的基本概念和工作原理,接下来,将通过具体的python代码来完成基于神经网络的图形识别。这里使用...

  【PYNQ-Z2试用体验】基于PYNQ的神经网络自动驾驶小车-搭建神经网络

  在之前的帖子中,我们完成了神经网络自动驾驶小车的硬件搭建与底盘控制。当小车通过WiFi无线连接到网络后,已经可以对其进行远...

http://talkingwithjon.com/shujuyilai/648.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有