OFA(One For All)是字节跳动提出的多模态预训练模型,支持视觉问答、图像描述、图像编辑等多种任务,其中视觉问答(VQA)是最常用的功能之一——输入一张图片和一个英文问题(该模型仅支持英文),模型就能输出对应的答案(比如输入“瓶子”图片+问题“What is the main subject?”,输出“a water bottle”)。
超详细!OFA 视觉问答(VQA)模型部署教学(避坑完整版)
未经允许不得转载:小狮博客 » 超详细!OFA 视觉问答(VQA)模型部署教学(避坑完整版)
小狮博客