理想汽车启动端到端+视觉语言模型早鸟计划：车辆具备思考能力

转载：https://auto.zol.com.cn/882/8820805.html

2024-07-06 14:00:19·[??中关村在线原创??]·作者：林有三

理想汽车在今晚的夏季发布会上宣布了端到端+视觉语言模型早鸟计划，这旨在让车辆更加智能化和接近人类。该计划主要优势在于“高效传递”和“高效计算”，即通过一体化模型将信息内部传递，从而实现更高上限，并让用户感受到更像人一样的整套系统的动作和决策。

理想汽车表示，这种一体化模型可以在GPU中一次性完成推理，并且端到端延迟更低，用户可以感受到“眼”、“手”协调一致，车辆动作反应迅速。此外，该计划还实现了端到端的可训练性，完全数据驱动。

关于视觉语言模型方面，整体算法架构由统一的Transformer模型组成。系统使用Prompt（提示词）文本进行Tokenizer（分词器）编码，并对前视120度和30度相机的图像以及导航地图信息进行视觉信息编码。通过图文对齐模块进行模态对齐后交给VLM模型进行自回归推理。VLM输出的信息包括对环境的理解、驾驶决策和驾驶轨迹，并将其传递给控制系统。

官方表示，该系统整体设计存在三个亮点：“流式视频编码器”的设计可以缓存更长时序的视觉信息；增加了记忆模块来解决超长上下文推理时延问题；设计了智能驾驶Prompt问题库，系统能够根据当前驾驶环境给出合理建议，并且在不同场景下调用不同Prompt问题与系统进行互动。