转载:https://auto.zol.com.cn/882/8820805.html
2024-07-06 14:00:19·[??中关村在线 原创??]·作者:林有三
理想汽车在今晚的夏季发布会上宣布了端到端+视觉语言模型早鸟计划,这旨在让车辆更加智能化和接近人类。该计划主要优势在于“高效传递”和“高效计算”,即通过一体化模型将信息内部传递,从而实现更高上限,并让用户感受到更像人一样的整套系统的动作和决策。
理想汽车表示,这种一体化模型可以在GPU中一次性完成推理,并且端到端延迟更低,用户可以感受到“眼”、“手”协调一致,车辆动作反应迅速。此外,该计划还实现了端到端的可训练性,完全数据驱动。
关于视觉语言模型方面,整体算法架构由统一的Transformer模型组成。系统使用Prompt(提示词)文本进行Tokenizer(分词器)编码,并对前视120度和30度相机的图像以及导航地图信息进行视觉信息编码。通过图文对齐模块进行模态对齐后交给VLM模型进行自回归推理。VLM输出的信息包括对环境的理解、驾驶决策和驾驶轨迹,并将其传递给控制系统。
官方表示,该系统整体设计存在三个亮点:“流式视频编码器”的设计可以缓存更长时序的视觉信息;增加了记忆模块来解决超长上下文推理时延问题;设计了智能驾驶Prompt问题库,系统能够根据当前驾驶环境给出合理建议,并且在不同场景下调用不同Prompt问题与系统进行互动。