特牛网址导航

写了一篇关于 多模态学习 综述的综述!-CSDN博客

网友收藏
文章浏览阅读368次。什么是多模态?多模态指的是多种模态的信息,包括:文本、图像、视频、音频等。它像人类利用视觉、嗅觉、味觉、听觉等多感官理解现实世界一样,希望充分利用文本、图像、语音和视频等多种模态,这就是「多模态学习」。多模态学习的研究时间不算太长,但应用前景非常广泛,如淘宝搜图、AI字幕、AI虚拟数字人、仿人交互、智能助手、商品推荐和信息流广告、视频帧人脸帧的图向量检索、语音交互等等。不过, 要说多模态技术真正实..._多模态数据驱动综合集成方法论学习感悟