小亦不凡,大疆研发团队揭秘 Spark 幕后设计历程
5 月 24 日,DJI 发布了“晓”Spark 无人机(点击蓝字了解详情),它颠覆了此前人们对于 DJI 无人机的认知,巴掌大的 Spark 蕴藏着巨大能量,创造了 DJI 无人机中许多个第一。掌上起落、手势控制、一键短片等功能让人眼前一亮。如此有“魔力”的 Spark 是如何诞生的?DJI 研发团队带你揭秘 Spark 幕后的设计历程。
历经一年多时间,我们从最简单的构思开始——要做出一款具备独特交互体验的小型智能航拍无人机,使无人机更贴近生活。于是开始在 DJI 集思广益慢慢让方案成型,逐步把我们这些年积累起来的一些技术解密出来,从游击队到正规军,从 demo 到量产。如今产品发布,回想那些很有意思的产品打磨历程,在此与大家分享。
从 0 到 1 对于脑洞大开的我们而言困难并不大,但如何在有限时间内在无数个可能性之间做出正确选择、在技术与艺术面前找到最恰到好处的答案、在错综复杂的技术架构中重构一个极简的工程、推进实现简单易用的用户体验、从 1 台到 10 万台... 这才极富挑战,也是最令我们兴奋无比的部分。
她是我们所有人的亲生宝贝,刚刚呱呱坠地,呈现在你们面前。她叫“晓”Spark,简单纯粹。
小而简单,不简单
“晓”有多小?只有巴掌大小,是名副其实的一台“掌机”。“麻雀虽小,五脏俱全”,我们第一次把这么多精密传感器,压缩在如此令人惊叹的体积,同时,重量也只有 300 克。
DJI 不同系列无人机
即使小,也不忘保留两轴机械增稳云台与高精度镜头,使拍摄画面平稳出众。
即使小,却也具备两组相机、3D 传感系统、红外测高模块、GPS / GLONASS 双模卫星定位系统、高精度惯性测量单元以及 24 核高性能计算单元,使其稳定、安全、聪明。
即使小,也只有结合避障功能,具备了以 GPS 飞控系统为基础的自主飞行能力,才能具备电子围栏技术,才能在合法飞行区域中享受飞行与航拍的乐趣,才能确保最最基本的安全稳定。这是我们设计产品之初,便坚定不移认为的必须要素。可以说,是否具备这项要素,是在斑马线上睁着眼睛走路与闭着眼睛走路的区别。
因此她不是一个玩具,而是具备感知、懂得思考的一个活着的智能生物。
创造 Spark,最大的挑战在于把这么多东西塞到那么小的空间里,要同时兼顾成本、可生产性、可靠性、散热、减震、动力效率、电磁干扰、射频性能,那么系统功能更是一件难上加难的事。
为了在结构把云台和飞控的减震支架合并,我们做了无处次实验。为了减少不同环境对指南针的干扰,许多其他模块为此做了专门的软件优化。Spark 的“手臂”很小,要把各种根筋(电调连接线)和身体(主控)连接起来,我们得改变传统的办法,把五根筋做成了三根并确保其性能,为此付出了很大的努力。
FlightAutonomy 中的视觉定位系统,就是基于这些基础来感知立体信息,计算位置和速度的。过程中我们挑战过 Spark 在各种高低不平场景的稳定性(如楼梯),和她贴地高速飞行、高空飞行等性能,调优后能够让 Spark 在复杂环境下仍能保持精准悬停与实时感知障碍物。
这些不同模块之间各司其职,彼此紧密协调沟通,聚合成一个完美的独立个体。在狭小空间中穿越飞行,就犹如空中一条平稳的滑轨。不仅如此稳定,在确保其性能的前提下,Spark 还能达到机动性的释放,在运动档下竟可达到 50 公里/小时。静如处子,动如脱兔!
本能的,极简手势控制交互
从口袋拿出 Spark,电源启动后,在 10 秒内即可完成人脸扫描并从你掌上起飞*,你使用手掌控制飞行器移动,她完成自动跟随、拍照等一系列动作后返回到你的掌心。我们内部称之“脱控一条龙”,因为通过手势控制,你无需依赖任何控制设备!
*使用该功能时,建议搭配桨叶保护罩
那么,这个计算机视觉交互的里程碑是如何实现的呢?
首先我们都是星战迷,感受到原力这种古老而神奇的力量,犹如一种命运感召,不遗余力要完成这项伟大的绝地复兴使命。(呵呵,开玩笑)
事实上我们从用户场景出发,认为交互一定首先得是人类本能的,一种自然而然的操控方式。我们期待用户不需要理解任何“遥控器通道”、“杆量”、“飞行姿态”、“横滚俯仰油门”这些晦涩难懂的概念,只需简单地认知——手势是一种人与人之间最原始交流的方式。在人机交互当中,你能够与 Spark 进行直接沟通。你做出一个手势,她“晓得了”即点头并做出回应,有来有往,彼此形成一种默契。
因而我们研究了大量的手语,也参考了机场停机坪操作手如何表达复杂的组合性指令,设计了很多套控制手势,想办法与飞行器的传感器结合起来。
简单而言,除了主要用以航拍的摄像头,Spark 的额头还有一个小型深度相机(TOF),不断采集三维空间里的手势视觉信息。采集到的这些手势图像传输给飞行器 CPU 进行运算分析,完成后给飞行器发送特定的指令。在现有手势识别算法无法满足传感器要求的情况下,我们的工程师为了确保飞行器能对近距离的用户手势进行快速、准确地响应,从最底层开始重写所有模块,算法上做了大量的优化,让 Spark 真正成为了你手臂的延伸。
AR 指点飞行,所见即可达
这一次,我们把去一个地方这回事,做到了极简。这是为 Spark 全新设计的 AR 指点功能,你只需要在手机屏幕上轻轻一点,一个目标即刻生成在世界坐标当中,飞行器随即沿着此目标安全抵达!
很多年以来,学会飞行一直是很麻烦的事情,你极容易在多通道按键的传统遥控器面前不知所措。即使采用虚拟摇杆的方式在手机上操控飞行器,也只是照搬物理遥控器,需要左右手精细配合才能控制好。尤其是支持室内飞行的小型机,稍有不慎紧张操作即刻失控碰壁。
当前无人驾驶话题热火朝天,因为技术的发展允许大家敢于向传统发问,我们要开车去一个地方为什么还要学会各种操作、学会刹车、学会方向盘?在不远的未来,我们不再需要学习复杂的驾驶。
我们决定勇敢先迈出无人机行业的这一步,用触摸屏上最简单的交互方式——[点击],并辅助增强现实的办法来解决“去一个地方”的命题。
交互很简单,但一定要确保在室内的狭小空间也能安全抵达目的地,我们干脆就直接挑战研发办公室里贯穿南北的狭长通道,从最初的磕磕碰碰,通过不断调试,最终使其在窄距空间也能自如穿行。为此我们前台的保安大哥在深夜的时候经常会被呼啸而过的 Spark 惊吓到。
目的地会显示一个 AR 圆盘贴附在地面上,这是通过计算云台的角度、相机 FOV 角以及当前飞行器的高度进行空间假设而显示出来的,是我们迄今为止最为直观的一种目的地显示办法,做到了真正的“所见即所达”。
更令人惊叹的是,我们的工程师甚至做到了当你点击的目标点前方有障碍物,Spark 会提前寻找空间自动绕行过去!这得益于 Spark 强大的整机性能基础与深度相机达到精准视觉定位,让她在立体空间里能不断感知周围事物并进行自主导航。
一键短片,即刻分享
“到手即飞”是我们很长时间以来的一个研发思路,也是许多消费级航拍机的产品定位。但这一次我们尝试了更进一步,往“到手即出片”的方向突破,做到了把确定拍摄对象、进行拍摄、调色剪辑并分享的过程,简化到“一键即可出片”。
在这个闭环里,只需轻轻一点,Spark 立即以你为中心拍出一个高质量的 10 秒航拍视频。
如何做到呢?
我们先研究了大量用户使用飞行器进行自拍的视频,分析其背后推动此分享行为的深层原因,得出以下三个结论:
1. 我是谁(要有特写)
2. 我在哪(要有远景)
3. 我很酷(要有音乐)
要满足这三点,我们的工程师为此升级了“智能跟随”的技术方案。飞行器会根据锁定的目标,自动执行特定飞行轨迹并录制一段视频。有了基本思路,就可以通过最优秀的电影镜头语言,把 Spark 的空中滑轨潜能给释放出来,最终最终确定了“冲天”、“渐远”、“环绕”、“螺旋”四种拍摄轨迹。
不只是让人物处于画面中央,我们还特意考虑了地平线与人物构图的关系,使得镜头远离的时候还能出现 1/3 的黄金分割地平线。而在“螺旋”动作模式中,为了达到一个优美的拍摄曲线,也参考了斐波纳切数列。
想达到一个最佳的 10 秒短片,我们在 DJI GO 4 中把视频的中间部分进行抽帧压缩,让这片子能达到从特写到远景的最佳过渡。同时邀请了国内外几个新锐的作曲为我们这个功能创作了大量 10 秒原创音乐。
从场景上考虑,你在执行动作模式的过程当中,若需要释放双手进行欢呼,相信双指上滑的全屏锁屏功能可以带给你惊喜。这时手机揣裤兜里不必担心误触,飞行器完成模式拍摄后将会自动返回到你面前,就像一个回旋镖。
这就是诚意满满的“一键短片”功能,融合了我们研发对用户需求的挖掘、理解与技术积累,让原来需要复杂操作才能完成的动作,变得无比简单。
生于大疆,意义非凡
我们很长时间都只是为 Spark 保持一个特定的研发代号,直到接近发布的时刻才知道她的名字,这一刻仿佛赋予了其灵魂。对于我们来说,也赋予了我们存在与努力的意义。
我们和深圳这个城市一样年轻、大胆,勇于突破自己。研发的工程师们都来自不同地方,有很多主力甚至是刚毕业的应届生,彼此纯粹、重视沟通,大家在模块的成本、重量、功耗中找到平衡点,反复迭代设计以得到最好的系统性能。
研发楼层里有一个空旷的室内飞场,因为不停地有很多飞行器盘旋在半空进行调试,声音很大。因此这里常常有激烈的辩论,彼此表达观点,俗称“当面撕逼”。我们一旦确定了解决办法,肯定、干脆,大家即刻会快速执行出来并迅速迭代。
在产品 Proposal 阶段,我们项目组就要求相关模块的同事一起协同完成,集思广益、人人参与。随着产品开发过程的深入,会指定相应系统应用级的功能代表来以最终用户体验的角度来驱动功能迭代开发。大家一起紧密协调,简化应用场景,精简功能逻辑。
回想这一切,都让我们感到 Spark 的面世,浓缩了我们的理想、才智、坚持不懈的努力与对极致产品的追求,意义非凡。
历经一年多时间,我们从最简单的构思开始——要做出一款具备独特交互体验的小型智能航拍无人机,使无人机更贴近生活。于是开始在 DJI 集思广益慢慢让方案成型,逐步把我们这些年积累起来的一些技术解密出来,从游击队到正规军,从 demo 到量产。如今产品发布,回想那些很有意思的产品打磨历程,在此与大家分享。
从 0 到 1 对于脑洞大开的我们而言困难并不大,但如何在有限时间内在无数个可能性之间做出正确选择、在技术与艺术面前找到最恰到好处的答案、在错综复杂的技术架构中重构一个极简的工程、推进实现简单易用的用户体验、从 1 台到 10 万台... 这才极富挑战,也是最令我们兴奋无比的部分。
她是我们所有人的亲生宝贝,刚刚呱呱坠地,呈现在你们面前。她叫“晓”Spark,简单纯粹。
小而简单,不简单
“晓”有多小?只有巴掌大小,是名副其实的一台“掌机”。“麻雀虽小,五脏俱全”,我们第一次把这么多精密传感器,压缩在如此令人惊叹的体积,同时,重量也只有 300 克。
DJI 不同系列无人机
即使小,也不忘保留两轴机械增稳云台与高精度镜头,使拍摄画面平稳出众。
即使小,却也具备两组相机、3D 传感系统、红外测高模块、GPS / GLONASS 双模卫星定位系统、高精度惯性测量单元以及 24 核高性能计算单元,使其稳定、安全、聪明。
即使小,也只有结合避障功能,具备了以 GPS 飞控系统为基础的自主飞行能力,才能具备电子围栏技术,才能在合法飞行区域中享受飞行与航拍的乐趣,才能确保最最基本的安全稳定。这是我们设计产品之初,便坚定不移认为的必须要素。可以说,是否具备这项要素,是在斑马线上睁着眼睛走路与闭着眼睛走路的区别。
因此她不是一个玩具,而是具备感知、懂得思考的一个活着的智能生物。
创造 Spark,最大的挑战在于把这么多东西塞到那么小的空间里,要同时兼顾成本、可生产性、可靠性、散热、减震、动力效率、电磁干扰、射频性能,那么系统功能更是一件难上加难的事。
为了在结构把云台和飞控的减震支架合并,我们做了无处次实验。为了减少不同环境对指南针的干扰,许多其他模块为此做了专门的软件优化。Spark 的“手臂”很小,要把各种根筋(电调连接线)和身体(主控)连接起来,我们得改变传统的办法,把五根筋做成了三根并确保其性能,为此付出了很大的努力。
FlightAutonomy 中的视觉定位系统,就是基于这些基础来感知立体信息,计算位置和速度的。过程中我们挑战过 Spark 在各种高低不平场景的稳定性(如楼梯),和她贴地高速飞行、高空飞行等性能,调优后能够让 Spark 在复杂环境下仍能保持精准悬停与实时感知障碍物。
这些不同模块之间各司其职,彼此紧密协调沟通,聚合成一个完美的独立个体。在狭小空间中穿越飞行,就犹如空中一条平稳的滑轨。不仅如此稳定,在确保其性能的前提下,Spark 还能达到机动性的释放,在运动档下竟可达到 50 公里/小时。静如处子,动如脱兔!
本能的,极简手势控制交互
从口袋拿出 Spark,电源启动后,在 10 秒内即可完成人脸扫描并从你掌上起飞*,你使用手掌控制飞行器移动,她完成自动跟随、拍照等一系列动作后返回到你的掌心。我们内部称之“脱控一条龙”,因为通过手势控制,你无需依赖任何控制设备!
*使用该功能时,建议搭配桨叶保护罩
那么,这个计算机视觉交互的里程碑是如何实现的呢?
首先我们都是星战迷,感受到原力这种古老而神奇的力量,犹如一种命运感召,不遗余力要完成这项伟大的绝地复兴使命。(呵呵,开玩笑)
事实上我们从用户场景出发,认为交互一定首先得是人类本能的,一种自然而然的操控方式。我们期待用户不需要理解任何“遥控器通道”、“杆量”、“飞行姿态”、“横滚俯仰油门”这些晦涩难懂的概念,只需简单地认知——手势是一种人与人之间最原始交流的方式。在人机交互当中,你能够与 Spark 进行直接沟通。你做出一个手势,她“晓得了”即点头并做出回应,有来有往,彼此形成一种默契。
因而我们研究了大量的手语,也参考了机场停机坪操作手如何表达复杂的组合性指令,设计了很多套控制手势,想办法与飞行器的传感器结合起来。
简单而言,除了主要用以航拍的摄像头,Spark 的额头还有一个小型深度相机(TOF),不断采集三维空间里的手势视觉信息。采集到的这些手势图像传输给飞行器 CPU 进行运算分析,完成后给飞行器发送特定的指令。在现有手势识别算法无法满足传感器要求的情况下,我们的工程师为了确保飞行器能对近距离的用户手势进行快速、准确地响应,从最底层开始重写所有模块,算法上做了大量的优化,让 Spark 真正成为了你手臂的延伸。
AR 指点飞行,所见即可达
这一次,我们把去一个地方这回事,做到了极简。这是为 Spark 全新设计的 AR 指点功能,你只需要在手机屏幕上轻轻一点,一个目标即刻生成在世界坐标当中,飞行器随即沿着此目标安全抵达!
很多年以来,学会飞行一直是很麻烦的事情,你极容易在多通道按键的传统遥控器面前不知所措。即使采用虚拟摇杆的方式在手机上操控飞行器,也只是照搬物理遥控器,需要左右手精细配合才能控制好。尤其是支持室内飞行的小型机,稍有不慎紧张操作即刻失控碰壁。
当前无人驾驶话题热火朝天,因为技术的发展允许大家敢于向传统发问,我们要开车去一个地方为什么还要学会各种操作、学会刹车、学会方向盘?在不远的未来,我们不再需要学习复杂的驾驶。
我们决定勇敢先迈出无人机行业的这一步,用触摸屏上最简单的交互方式——[点击],并辅助增强现实的办法来解决“去一个地方”的命题。
交互很简单,但一定要确保在室内的狭小空间也能安全抵达目的地,我们干脆就直接挑战研发办公室里贯穿南北的狭长通道,从最初的磕磕碰碰,通过不断调试,最终使其在窄距空间也能自如穿行。为此我们前台的保安大哥在深夜的时候经常会被呼啸而过的 Spark 惊吓到。
目的地会显示一个 AR 圆盘贴附在地面上,这是通过计算云台的角度、相机 FOV 角以及当前飞行器的高度进行空间假设而显示出来的,是我们迄今为止最为直观的一种目的地显示办法,做到了真正的“所见即所达”。
更令人惊叹的是,我们的工程师甚至做到了当你点击的目标点前方有障碍物,Spark 会提前寻找空间自动绕行过去!这得益于 Spark 强大的整机性能基础与深度相机达到精准视觉定位,让她在立体空间里能不断感知周围事物并进行自主导航。
一键短片,即刻分享
“到手即飞”是我们很长时间以来的一个研发思路,也是许多消费级航拍机的产品定位。但这一次我们尝试了更进一步,往“到手即出片”的方向突破,做到了把确定拍摄对象、进行拍摄、调色剪辑并分享的过程,简化到“一键即可出片”。
在这个闭环里,只需轻轻一点,Spark 立即以你为中心拍出一个高质量的 10 秒航拍视频。
如何做到呢?
我们先研究了大量用户使用飞行器进行自拍的视频,分析其背后推动此分享行为的深层原因,得出以下三个结论:
1. 我是谁(要有特写)
2. 我在哪(要有远景)
3. 我很酷(要有音乐)
要满足这三点,我们的工程师为此升级了“智能跟随”的技术方案。飞行器会根据锁定的目标,自动执行特定飞行轨迹并录制一段视频。有了基本思路,就可以通过最优秀的电影镜头语言,把 Spark 的空中滑轨潜能给释放出来,最终最终确定了“冲天”、“渐远”、“环绕”、“螺旋”四种拍摄轨迹。
不只是让人物处于画面中央,我们还特意考虑了地平线与人物构图的关系,使得镜头远离的时候还能出现 1/3 的黄金分割地平线。而在“螺旋”动作模式中,为了达到一个优美的拍摄曲线,也参考了斐波纳切数列。
想达到一个最佳的 10 秒短片,我们在 DJI GO 4 中把视频的中间部分进行抽帧压缩,让这片子能达到从特写到远景的最佳过渡。同时邀请了国内外几个新锐的作曲为我们这个功能创作了大量 10 秒原创音乐。
从场景上考虑,你在执行动作模式的过程当中,若需要释放双手进行欢呼,相信双指上滑的全屏锁屏功能可以带给你惊喜。这时手机揣裤兜里不必担心误触,飞行器完成模式拍摄后将会自动返回到你面前,就像一个回旋镖。
这就是诚意满满的“一键短片”功能,融合了我们研发对用户需求的挖掘、理解与技术积累,让原来需要复杂操作才能完成的动作,变得无比简单。
生于大疆,意义非凡
我们很长时间都只是为 Spark 保持一个特定的研发代号,直到接近发布的时刻才知道她的名字,这一刻仿佛赋予了其灵魂。对于我们来说,也赋予了我们存在与努力的意义。
我们和深圳这个城市一样年轻、大胆,勇于突破自己。研发的工程师们都来自不同地方,有很多主力甚至是刚毕业的应届生,彼此纯粹、重视沟通,大家在模块的成本、重量、功耗中找到平衡点,反复迭代设计以得到最好的系统性能。
研发楼层里有一个空旷的室内飞场,因为不停地有很多飞行器盘旋在半空进行调试,声音很大。因此这里常常有激烈的辩论,彼此表达观点,俗称“当面撕逼”。我们一旦确定了解决办法,肯定、干脆,大家即刻会快速执行出来并迅速迭代。
在产品 Proposal 阶段,我们项目组就要求相关模块的同事一起协同完成,集思广益、人人参与。随着产品开发过程的深入,会指定相应系统应用级的功能代表来以最终用户体验的角度来驱动功能迭代开发。大家一起紧密协调,简化应用场景,精简功能逻辑。
回想这一切,都让我们感到 Spark 的面世,浓缩了我们的理想、才智、坚持不懈的努力与对极致产品的追求,意义非凡。
本文为作者 北京智影会科技有限公司 分享,影视工业网鼓励从业者分享原创内容,影视工业网不会对原创文章作任何编辑!如作者有特别标注,请按作者说明转载,如无说明,则转载此文章须经得作者同意,并请附上出处(影视工业网)及本页链接。原文链接 https://cinehello.com/stream/91717
北京智影会科技有限公司
点击了解更多
北京智影会科技有限公司是集无人机销售,无人机驾驶员培训,无人机应用服务三位一体式综合平台。是全球最顶尖的
无人飞行器控制系统研发和生产商DJI大疆创新的中国区一级授权代理,现其产品线涵盖高端无人机飞行控制系统,专业影视
航拍飞行平台,顶级商用手持云台,高清远距离数字图像传输等大疆全系列产品。同时也是“zhiyun/智云”、“飞宇”、
“锐拍”等手持摄像设备,inst360全景视频相机的一级代理。
智影会旗下“未来智能”飞训中心,拥有多名优秀飞手和优越的培训基地,已经培训一批又一批优秀学员,拥有一流的
无人机金牌飞手的顶尖航拍团队长期与中央电视台及各省卫视,中影,新影及港台欧美的导演、摄影机构长期合作,旗下专注
于摄影器材销售研发于一体的“锐祥广视”摄影器材销售中心,代理销售电影/电视剧拍摄的广播级的摄影摄像器材品牌有:
RED旗下阿莱、松下,宝莱克斯,索尼,以及蔡司佳能、尼康、适马、徕卡等众多品牌。
智影会依托分布于全国各地实体体验店面+强大的网上商城打造您最可信赖的天地一体摄影器材专业平台。作为智能硬件厂
商与消费者之间的桥梁,智影会致力于提供精品智能硬件,为消费者提供更好的技术支持、销售支持.让智能领域最优秀的产
品在第一时间得以展现。良好的信誉,口碑。更优质的售前售后服务,更先进的产品呈现给消费者是我们长久的理念。同时
欢迎有志于想开展智能硬件产品的经销商洽谈二级代理批发合作业务。
扫码关注
北京智影会科技有限公司
北京智影会科技有限公司