欢迎光临
我们一直在努力

【BLIP】解读BLIP

主流的多模态模型,基本分为两种:基于encoder和基于encoder-decoder。两者都存在一定的劣势,前者不能完成文本生成任务,例如图像字幕生成,而后者基本没有在图像-文本检索的任务上成功过。

赞(0)
未经允许不得转载:小狮博客 » 【BLIP】解读BLIP
分享到: 更多 (0)