专家多模态大模型将会重写自动驾驶系统，无需再重新扫描新城市

蓝海情报网 2024-04-29 06:07:20 277

专家：多模态大模型将会重写自动驾驶系统，无需再重新扫描新城市

图片来源：摄图网

2024年亚布力中国企业家论坛第24届年会于2月21日-23日举行，美国国家工程院外籍院士，北京智源研究院学术顾问委员会主任张宏江出席闭幕式并演讲。张宏江在演讲中分享了他对大模型发展的观察。

关于自动驾驶方面，张宏江谈到，我们有理由相信在AI1.0的时代，在深度学习已经快速发展15年的时候，自动驾驶还依然没法落地，但是大模型的落地一定会比AI1.0来得快，而且快很多。

张宏江表示，多模态最好的方式是把多模态的数据，包括视频、语音、图像也做成token，从而跟语言一起来做训练，能够训练出能够理解物理世界的大模型。今天我们看到Sora是一个文生视频的模型，但事实上多模态远远超越文生图、文生视频，包括图生文，更包括视频的理解，一反一正是非常非常重要的，这是我们对于物理世界理解的核心的核心的一点。

张宏江指出，过去这些年来，所有的自动驾驶的公司，每到一个新的城市必须得花3到6个月重新扫描这个城市的街道，这件事也许就不需要做了，也许大模型就能够帮你解决了。所以，多模态将会重写自动驾驶的系统。

随着人工智能技术的深度发展，大模型已成为研究和应用的热点。大模型在自然语言处理、计算机视觉和强化学习等领域展现出巨大潜力，能够更准确地理解和处理复杂数据。然而，大模型也带来了巨大的计算和存储压力，需要庞大的计算资源来训练和部署。因此，如何有效地优化大模型的计算效率、减少资源消耗成为当前研究和实践的重要方向。

——AI大模型是一种新的智能计算范式

超大规模智能模型，简称大模型，是近年兴起的一种新的人工智能计算范式。和传统AI模型相比，大模型的训练使用了更多的数据，具有更好的泛化性，可以应用到更广泛的下游任务中。按照应用场景划分，AI大模型主要包括语言大模型、视觉大模型和多模态大模型等。业界典型的自然语言大模型有GPT-3、源、悟道和文心等。视觉大模型也已广泛应用于自动驾驶、智能安防、医学影像等领域。基于多模态大模型的以文生图技术也迅速发展，AI内容生成(AI Generated Content，AIGC)已成为下一个AI发展的重点领域。

专家：多模态大模型将会重写自动驾驶系统，无需再重新扫描新城市