图森互联CTO侯晓迪：加州理工博士创业做自动驾驶

　　最近自动驾驶新闻频频，如沃尔沃Uber联手自动驾驶，福特、Uber争相发布无人驾驶商用时间线，comma。ai开源，tesla首例自动驾驶致死车祸......由此我们也能看到自动驾驶的热度，看起来像未来商务，但我们是否清楚这份技术离我们到底有多远？

　　InfoQ有幸采访到图森互联CTO，联合创始人侯晓迪。

　　侯晓迪，2003年进入上海交大，并于大三发表了高引用论文；加州理工计算与神经系统博士，计算机视觉和认知科学领域专家。创立了基于频域的视觉注意机制理论。是近10年来在视觉注意机制最有影响力的研究。是计算机视觉领域全球华人博士中学术文章被引用最多的作者，学术论文Saliency detection: A spectral residual approach（发表于CVPR）、Image signature: Highlighting sparse salient regions（发表于IEEE transactions on pattern analysis and machine intelligence ）在学术领域具有重要影响。

　　InfoQ：在加州理工读完博士后，是什么原因诱使您选择创业呢？

　　侯晓迪：对我而言，创业是早在读PhD之初就已经决定了的。我希望能够用更先进的生产关系，试着冲破玻璃天花板，解决一些学术圈本身解决不了的问题。

　　在外人看来，Caltech是个标准的faculty的摇篮。但其实，沐浴在加州的资本阳光下，在校内跨领域跨学科合作浪潮的鼓动下，我校毕业生的创业比例却高得吓人。比如我所在的Computation & Neural Systems系，上下三届20位同学中就有4个人选择毕业后直接创业。

　　InfoQ：请问有lidar和无lidar优缺点是什么？他们的可靠性差别有多大？图森是如何选择的？

　　侯晓迪：信息量非负，多加任何传感器，肯定不会帮倒忙。哪怕该信息已经可以通过其他渠道获得，加入后也可以起到交叉校验、降低噪音等功能。

　　通过发射激光，LiDAR可以很准确地测出光朝着某个方向前进，走多远会碰到障碍物。这个信息虽然很有用，但也不过是自动驾驶千里长征的第一步。光靠分析点的距离，我们并不能直接读出一坨点云对应的是什么物体，物体如何运动；更无法猜出汽车牌照、车道线标记、交通标志内容这些无法反映在3D点云上的信息。而且，一旦遇到下雨下雪或者重度雾霾这种会干扰激光的场景，LiDAR都会罢工。

　　LiDAR的好处是，可以一步跨越3D测距这个非常难的问题，从一个比较容易的起点开始做自动驾驶。

　　我司没有用LiDAR，主要的考虑是成本。今天32线LiDAR的市价是8万美元，在三年后，LiDAR的成本会不会是自动驾驶普及的最大拦路虎？这个问题现在当然没人知道，图森选择的道路是，宁可从比较难的起点多花些功夫，做我们擅长做的事（不借助LiDAR，直接基于机器视觉研发算法），也不要让我们的商业化之路受制于我们无法控制的事情。

　　InfoQ：最近tesla出现的识别失败导致的车祸事故可以避免吗?或者误识别的概率多大，以tesla最近的车祸场景为例？针对辅助驾驶/无人驾驶有哪些算法上的改进?（是否有paper或者专利？）

　　侯晓迪：首先，Mobileye的EyeQ3本身只是一个辅助驾驶系统。但是市场接受TESLA的概念的时候，是作为自动驾驶来炒作的。这相当于TESLA提前消费了大众对自动驾驶这项技术的信任。这是很糟糕的事情。

　　其次，小概率事件不意味着它绝对不会发生，所以哪怕是一百年后，我相信自动驾驶的车祸事故也不会100%完全避免。所以我在这里只谈谈现行系统的问题。

　　当前的模式识别学术界（以及衍生自学术界的工业界）过度地以“正确率”作为单一的优化目标。一方面大家都知道，算法正确率越高，进一步攀升的难度也就越大；另一方面，却很少有人关注“如果识别错了怎么办”这一问题。通用的做法是错一次就扣一分，不管你是没看到一辆近在眼前的大卡车，还是把路旁的兔子识别成了狗。

　　在图森，我们一直非常强调的一项技术积累是self-consciousness of AI——即，我们的算法不但需要进行各种识别，还需要对“自己是否识别对了”进行预估。从而进一步提升系统可靠性。

　　我们申请了一些专利，也有paper发表。

　　InfoQ：您对最近开源的comma。ai的有何看法？

　　侯晓迪：comma。ai是典型的深度学习福音派。这种思路一般称作end-to-end learning，认为只要把大量输入（摄像头拍摄画面）输出（油门角度、方向盘力度）数据扔给深度神经网络进行训练，就能教会机器如何驾驶。所有的算法的问题，最终都可以转化为训练数据的问题，并乘着大数据的东风迎刃而解。

　　这个想法听起来很棒。但实际操作起来却隐患重重。当系统碰到训练集里没有的突发情况时，谁也无法保证会发生什么。其实end-to-end的问题并不是第一天才发现，业界很多人都尝试过，并汇报了类似结果。比如今年GTC 16上，NVidia也介绍了他家的end-to-end driving system，一个最大的特点是，如果一切在预料中，汽车可以很神奇地保持行进路线；但只要稍微偏离，错误变会积累，偏差越来越大。换言之，系统不具备把自己从未知的意料之外的状态中修正回来的能力。

　　相比来说，我司并不反对deep learning，但是我们坚持认为不能简单粗暴地把deep learning等价于machine learning，因为这种“未知的意料之外”是无论积累多少训练数据都还是会存在的。接着我刚才讲的self-consciousness of AI，我们需要让算法发现自己的错误，并将自我纠错以先验的形式加入到系统中来。想做到这一步，还时需要回过头来借助许多传统的，非deep的machine learning方法。

　　另外，comma。ai已经公布的代码和数据都很业余，充其量是研究生课程《自动驾驶》的期末课程作业，跟工业级算法系统完全没有可比性（可能也正因此，comma。ai才舍得将其开源吧）。

　　InfoQ：对于智能驾驶，您觉得是应该以改进算法为主还是以积累驾驶数据训练优化为主？对于在中国，普及实现自动驾驶主要难点有哪些？是否存在“中国特色”？

　　侯晓迪：改进算法和积累驾驶数据训练优化是一对相辅相成的过程，缺一不可。我认为一个健康的商业模式一定会同时促进这两者。

　　在中国做自动驾驶，一个难点在于很多公开的学术圈数据集都是国外采集的（德国最多）。另一个难点是由于政策原因导致测绘数据的不完整。这两点会对没人手也没钱的学术工作者和超早期创业团队增加一些麻烦。我也确实见过有几家国内公司，为了给自己强行造壁垒，每次在谈到Mobileye的时候，都拿中国马路上常见的超载大货车说事儿。但说实话，只要Mobileye想把有中国特色的大货车纳入到他们的平台里，从采数据到训练/迁移模型，分分钟就能做好，根本不会有什么战略壁垒。

　　算法的迁移和泛化相比整套系统，只是非常小的一部分工作量。更何况到了产品层，各家肯定都是自己在准备数据。所以自动驾驶各家比拼到最后，还是得硬碰硬。

评论排行

推荐阅读

专题