汽车智驾, 有三个致命缺陷!
- 2025-07-12 20:01:19
- 927
对于汽车智驾,从厂商到某些车主和吃瓜群众,都表现出一种莫名其妙的兴奋和乐观,对其中的致命风险却避而不谈或视而不见。老话说“生死事大”,然而,某些人在智驾这事儿上偏偏“生死看淡”。
智驾频频出事。然而,你也知道现在厂商的手段很厉害,“坏消息”很快会被处理掉,只剩下那些网红们的惊叹赞美:“哇,真是丝滑”、“堪比老司机”、“全程零接管”。
关于所谓智驾,工信部前不久特意要求厂商“杜绝拿用户做测试”。意思很明白,智驾并不成熟,有些厂商把车主当小白鼠用,而有些车主轻信了厂商的鼓吹,也欣然甘当实验品。
前两篇说了智驾的“眼睛”(感知硬件):摄像头、毫米波雷达和激光雷达,各有各的优势,又都有缺陷。这次接着说智驾的“大脑”,智驾看上去越来越聪明,在很多情况下表现也算正常,但实际上,智驾的“大脑”是缺几根弦的。
智驾的算法架构现在有三个大缺陷无法克服,而这三大缺陷的病根是AI(人工智能)技术的先天不足,换句话说,胎里带的病,除不了根儿。
智驾“大脑”的这些缺陷会让汽车偶尔撒癔症,如同精神失常一样出现怪异表现,对于高速奔跑的钢铁机械来说,后果可能是致命的。
幻觉、黑盒与长尾
据《法制日报》5月份的一个报道:上海车主张先生驾驶某新能源汽车途经积水路段时,车载系统突然警示“行人横穿马路”并紧急刹停,但实际路面空无一人。车企事后承认,这是视觉算法受雨水干扰引发的误判。
另据《中国汽车报》报道,今年3月3日,美国亚利桑那州,一辆特斯拉Model Y在十字路口将一名横穿马路的行人误判为“静止障碍物”,导致行人当场丧生。
这就是智驾的第一大缺陷:“幻觉”。
智驾的“幻觉”五花八门,比较多见的是“幽灵刹车”,很多品牌车型都曝出毫无征兆乱刹车的问题。此外,还有把广告牌当红灯的、有把交通锥桶当行人的、有好端端地就突然扑向路中间绿化带的、有突然和车主争抢方向盘的、有突然急加速一往无前的……
人类搞不清楚智驾系统为什么会出现“幻觉”,不明白它到底“看到了什么”,当时是“咋想的”,为什么会有令人费解的怪异动作。
这就涉及智驾第二个特别棘手的问题:黑盒。
智驾的“大脑”是AI,AI的核心是人工神经网络,而目前流行的神经网络架构,都是“黑盒”。黑盒这个叫法很直白,意思是这些模型都是“暗箱操作”,不管输出的结果是对是错,人类只能被动接受。
近期影响最大的一起智驾车祸,是小米SU7夜间撞上高速公路施工路段的隔离桩,三个年轻人失去生命。这起车祸的起因,除传感器问题外,很可能和智驾模型对某些场景的训练数据不足有关。
通俗点说,就是智驾系统碰到不熟悉的场景时,有可能不知所措,或者乱做主张。
在小米SU7这起车祸中,夜间+施工+路障封闭自车道+改道至逆向车道……这些因素组合起来,就是让智驾发懵的罕见场景。现实世界如此复杂,智驾系统注定要面对没完没了的不熟悉场景,这就是智驾面临的第三个大障碍:“长尾问题”。
Transformer让“端到端”爆红
2023年8月,马斯克在一场直播中演示了特斯拉的“端到端”自动驾驶能力(FSD Beta V12),惊艳一时。
随后,行业群起仿效,“端到端”陡然风靡,成自动驾驶主流技术路线。
特斯拉的“端到端”,一端是摄像头,另一端是方向盘和油门刹车。摄像头感知到的数据,通过一个深度神经网络的处理,直接转化成控制汽车行动的指令。
在此之前,自动驾驶的算法是模块化架构,感知、预测、决策、执行几个模块各司其职。
模块化架构主要是“规则驱动”,工程师要编写几十万行代码,告诉汽车在什么情况下应该什么办。
而端到端架构是“数据驱动”,能从人类的驾驶行为数据中找到规律,自己“学习”怎么开车。
端到端自动驾驶的根基,是2017年问世的一种新型神经网络架构Transformer。
Transformer的首次爆红,是用在一款叫ChatGPT的聊天机器人上,它貌似能解答万物,而且反应极快、巧舌如簧。随后,一批语言、视频生成的模型雨后春笋一般冒出,Transformer模型还能写代码、分析数据、炒股、看CT片、分析蛋白质结构……看上去多才多艺,前途无量。
神经网络,一听就是在模拟人脑,它是AI最重要、最主流的方向。神经网络是受人类大脑构造和运行方式的启发,设计出的一种数学模型,比如CNN(卷积神经网络)是从大脑处理视觉的机制中获得灵感,RNN(循环神经网络)则模仿了大脑语言和记忆处理机制。
在Transformer之前,CNN和RNN是最重要的两种神经网络,也是汽车自动驾驶最依赖的两种模型,Transformer一出,它们就黯然失色了。
Transformer自然不是几句话能说清,简单来说,它最大的本事就是能统揽全局,不像CNN主要擅长处理图像、RNN专注于处理序列,而Transformer则是多面手,同时能干很多活儿还有条不紊。
自动驾驶能做到“端到端”,就是因为有了Transformer,你把摄像头、毫米波雷达、激光雷达感知到的数据一古脑喂给它,它就能指挥车子行动自如。
神经网络的先天缺陷
人脑何其复杂,何其神秘,人类对自己大脑的运作机制不过是略知皮毛。通过神经科学的研究,人们知道了大脑的基本单位是神经元,近1000亿个神经元通过突触连接成庞大的网络,彼此之间用电脉冲和化学信号来传递信息。
神经元构成不同的网络,可以应对视觉、听觉、运动和抽象思考等各种任务。人工神经网络,是模仿大脑神经元工作机制的数学模型,但囿于对大脑的粗浅了解和数学模型本身的局限,这些模型的能力仍有诸多缺憾。
人工神经网络已经可以像人一样“学习”,基于Transformer的端到端自动驾驶模型,能从人类的驾驶方式中找到“经验”。比如,人类开车遇到前边有个人就减速停车,模型学习了若干个这样的例子,就知道“遇见人要停”。
这就是所谓“数据驱动”,喂给它的数据越多、数据质量越高,它学到的本事越大。这也就是大佬们挂在嘴边的“越开越好开”。
但问题也跟着来了,对于没学习过的场景,它会不知所措。
自动驾驶面临一个特别棘手的麻烦,那就是如何应对“长尾问题”。如上所说,所谓长尾问题,就是现实世界中没完没了的罕见场景。
人开车,也会遇到“长尾问题”。比如你开车跟着一辆货车跑,货车上突然掉下来个一个箱子,这种事儿很少见,就是个“长尾问题”。碰上这种状况,人想都不用想就知道刹车避让,但“智驾”如果在数据训练时没见过这场面,可能就没头没脑地撞上去了。
人类对世界是有常识和理解的,也懂得事物之间的因果。神经网络只是一种数学模型,听上去很是高深,实际上在很多方面跟白痴无异。
究其本质,神经网络的“学习”是在数据中找到统计意义上的相关性,从而总结出模式。它学习到车见了人不能撞,却不懂为什么不能撞;它见了红灯也知道停车,但不理解为什么这个地方要有个红灯。
说穿了,这些数学模型对物理世界的常识一无知,也理解不了什么是因果关系。车上掉下个箱子,人虽然貌似不假思索,但根据常识就知道这东西最好别撞,也明白撞上去会有什么后果,但面对此情此景,模型的“大脑”可能一片空白。
长尾问题对于智驾是个特别大的麻烦,神经网络无法基于常识去推演,面对陌生场景的随机应变能力极差。
靠“数据驱动”的神经网络还有个毛病,就是不懂装懂,后果就是出现“幻觉”。
为什么会不懂装懂?因为它只能模仿而不能真正思考,而且它真的对这个世界毫无常识,用古话说,就是知其然而不知其所以然。
特斯拉的智驾曾经把天上的月亮识别成黄灯,很自觉地减速慢行。这让人觉得啼笑皆非,但在神经网络眼里,“圆的+发亮的+黄色的+悬空的”,这么一个东西,它就应该是个黄灯。
现在的神经网络模型,还有一个很不好的毛病,就是办事不透明,是不可解释的“黑盒”。
神经网络的内部计算过程极其复杂,且难以用人类可理解的方式解释,因此我们往往只能看到输入和输出,而无法清晰地理解中间“发生了什么”。
“规则驱动”的模型,出了问题能顺藤摸瓜找到病根;“端到端模型”出了问题,人类只能干瞪眼,根本搞不懂错在哪里。
智驾有时候会突然发神经。比如,有报道说,某品牌电动汽车开启智驾在高速公路上跑,以120公里的时速超过右侧一辆大货车后,突然急刹,差点导致后方车追尾。
碰上这种情况,人们无法知道智驾系统为什么会紧急制动,就算因此出了车祸,也无法搞清楚原因,更无法区分是谁的责任。
下一代神经网络靠谱吗?
幻觉、长尾和黑盒,神经网络目前有这三大难题悬而未决。
你和ChatGPT或豆包聊天,它们偶尔会一本正经地胡诌。听到几句荒唐的话可以付之一笑,但智驾让高速行驶的汽车突然发狂,人还笑得出来吗?
神经网络引发的智驾神经病,还要靠改进神经网络来治。
长尾问题实际上是无穷无尽的,雨雪雾等天气情况+路面上的车祸现场、掉落物、塌陷、施工、动物出现等等+强行变道、强超强会、不规范使用灯光、行人和电动车鬼探头等等……在现实世界中,这些意外状况的随机组合有无数种,不论给智驾大模型喂多少数据,总会有学不到的corner case(又称难例或边缘状况)。
光靠车子在路上收集现实中数据,corner case猴年马月也学不完。于是就有厂商干脆开发所谓“世界模型”,用仿真的手段模拟出各种状况,让大模型在虚拟世界中训练。
好处是可以生成现实中很少出现的corner case,加快训练速度,但虚拟的究竟是虚拟的,训练好的模型放到真实环境中不一定好使。再说,就算虚拟能力再强,总会有虚拟不到的场景。
至于幻觉和黑盒问题,现有的这些神经网络肯定是没指望解决了,业界都把希望寄托在下一代神经网络技术上。
目前有厂商在尝试VLA,也就是“视觉语言行动模型”,大概意思就是让语言模型去解释视觉和行动模型。比如现在的智驾中,汽车减速刹车不会给出说法,用上VLA后,模型会解释一下:前方有行人,所以制动减速。
这貌似能改善黑盒问题,但实际上作用可能很有限。因为语言只能给出表面化的解释,模型的黑盒本质无法改变。
理想汽车正在VLA上使劲,李想说,VLA走的是一个技术上的无人区,结果无法预测。
目前业内认为比较靠谱的下一代神经网络,是“神经+符号”,用神经网络把感知到的东西转化成可以解释的符号,再由符号人工智能(基于规则和逻辑)去进行推理和规划。
神经符号系统的内部运作是有迹可循的,有望解决大模型的黑盒问题。但实现“神经+符号”的有机结合不是说说那么简单,这种思路目前还处于原型验证的实验阶段,至于什么时候能用到自动驾驶上,不好说。
实话实说,现在的智驾离真正的自动驾驶貌似只有一步之遥,但这一步能不能迈过去、什么时候能迈过去,谁也不好说;而且,就算做为驾驶辅助,智驾的问题也有很多,远远做不到某大佬说的“想撞车都难”。
广汽埃安的一位高管最近说过良心话,他说热爱智驾的都是热血青年,不能让他们去当小白鼠,“不然的话,不管是做人还是做企业,我认为都是不讲良心的”。
言下之意是:珍爱生命,慎用智驾。
- 上一篇:连救人小伙说以为再也没法尽孝了
- 下一篇:原来排卵期一直都在被误解