当前位置：小狮博客 > 技术专栏 > 正文

【BLIP】解读BLIP

2025-05-26 分类：技术专栏阅读(241) 评论(0)

主流的多模态模型，基本分为两种：基于encoder和基于encoder-decoder。两者都存在一定的劣势，前者不能完成文本生成任务，例如图像字幕生成，而后者基本没有在图像-文本检索的任务上成功过。