理想汽车启动端到端+视觉语言模型早鸟计划:车辆具备思考能力

rm25db5

时间 2024年7月6日 预览 24

转载:https://auto.zol.com.cn/882/8820805.html

2024-07-06 14:00:19·[??中关村在线 原创??]·作者:林有三

理想汽车在今晚的夏季发布会上宣布了端到端+视觉语言模型早鸟计划,这旨在让车辆更加智能化和接近人类。该计划主要优势在于“高效传递”和“高效计算”,即通过一体化模型将信息内部传递,从而实现更高上限,并让用户感受到更像人一样的整套系统的动作和决策。

理想汽车表示,这种一体化模型可以在GPU中一次性完成推理,并且端到端延迟更低,用户可以感受到“眼”、“手”协调一致,车辆动作反应迅速。此外,该计划还实现了端到端的可训练性,完全数据驱动

关于视觉语言模型方面,整体算法架构由统一的Transformer模型组成。系统使用Prompt(提示词)文本进行Tokenizer(分词器)编码,并对前视120度和30度相机的图像以及导航地图信息进行视觉信息编码。通过图文对齐模块进行模态对齐后交给VLM模型进行自回归推理。VLM输出的信息包括对环境的理解、驾驶决策和驾驶轨迹,并将其传递给控制系统。

官方表示,该系统整体设计存在三个亮点:“流式视频编码器”的设计可以缓存更长时序的视觉信息;增加了记忆模块来解决超长上下文推理时延问题;设计了智能驾驶Prompt问题库,系统能够根据当前驾驶环境给出合理建议,并且在不同场景下调用不同Prompt问题与系统进行互动。

Copyright2023未知同城服务科技
拨打电话拨打电话
Copyright2023未知同城服务科技