视频表示学习已用于场景预测或基于视觉的计划。首先,将图像编码为潜在场景表示。然后,预测未来的帧。基于神经网络的模型无需解释物理量(例如质量,位置或速度)即可学习此表示形式。因此,这样的模型可能具有有限的解释性,并且很难针对新任务和场景进行概括。
最近的一项研究提出了一种从视频中识别对象物理参数的方法。图像被编码为物理状态,并借助可区分的物理引擎预测未来的场景。模拟了诸如将块推到平面上,块与另一个块碰撞,或块自由下落并在倾斜平面上向下滑动等场景。使用监督学习和自我监督学习都获得了令人满意的视频预测结果。
去哪儿今日正式纽交所上市最大融资额1 47亿美元。...
重庆银行H股上市终亮相助力小微企业融资突围。三家...
乳粉行业重组方案已上报国务院待批业界仍有争议。...
众筹平台Kickstarter迎来里程碑发展成功融资项目超...