[深度学习] 大模型学习7-多模态大模型全景解析 – 落痕的寒假 – 博客园 落痕的寒假 今天也要加油鸭 首页 新随笔 联系 –> 管理 [深度学习] 大模型学习7-多模态大模型全景解析 多模态(Multimodality)是指融合并处理两种或两种以上类型信息或数据的方法与技术。
在机器学习和人工智能领域,常见的数据类型包括文本、图像、视频、音频及传感器数据等。
多模态系统旨在利用多种模态的信息,以提升任务性能、丰富用户体验,或实现更全面的数据分析。
事实上,人类在感知世界时总是依赖多种信息通道:看书时处理文字,遇到红灯时依赖视觉信号,听到警报声时依赖听觉。
而过去的AI能力相对单一,更类似于单模态系统。
多模态AI能实时融合文本、图像、视频、音频和传感器数据,能够像人一样理解场景、解读情绪并预测行为,让机器对复杂世界的感知更自然、更智能。
来源:博客园











