视觉语言模型BLIVA:让AI更擅长阅读图像……
文章概要: 1. BLIVA是视觉一种视觉语言模型,擅长读取图像中的模型文本。 2. BLIVA结合了InstructBLIP的更擅学习查询嵌入和LLaVA的编码修补嵌入。 3. BLIVA在多个数据集上表现优异,长阅可用于识别路牌、读图食品包装等场景。视觉 站长之家(ChinaZ.com)8月28日 消息:BLIVA 是模型一种视觉语言模型,擅长读取图像中的更擅文本,使其在许多行业的长阅现实场景和应用中发挥作用。 加州大学圣地亚哥分校的读图研究人员开发了 BLIVA,这是视觉一种视觉语言模型,旨在更好地处理包含文本的模型图像。视觉语言模型 (VLM) 通过合并视觉理解功能来扩展大型语言模型 (LLM),更擅以回答有关图像的长阅问题。 这种多模态模型在开放式视觉问答基准方面取得了令人印象深刻的读图进展。一个例子是 OpenAI 的GPT-4,它的多模式形式可以在用户提示时讨论图像内容,尽管此功能目前仅在“Be my Eyes”应用程序中可用。 然而,当前系统的一个主要限制是处理带有文本的图像的能力,这在现实场景中很常见。 BLIVA 结合了 InstructBLIP 和 LLaVA 视觉语言模型通过合并视觉理解功能来扩展大型语言模型,以回答有关图像的问题。 BLIVA结合了两种互补的视觉嵌入类型。一种是Salesforce InstructBLIP提取的学习查询嵌入,用于关注与文本输入相关的图像区域;另一种是受Microsoft LLaVA启发提取的编码修补嵌入,直接从完整图像的原始像素修补中获得。 研究人员表示,这种双重方法允许BLIVA同时利用针对文本定制的精炼查询嵌入,以及捕捉更多视觉细节的更丰富的编码修补。 BLIVA 使用大约550,000个图像标题对进行了预训练,并使用150,000个视觉问答示例调整了指令,同时保持视觉编码器和语言模型冻结。 在多个数据集上,BLIVA的表现明显优于InstructBLIP等其他模型。例如,在OCR-VQA数据集上,BLIVA的准确率达到65.38%,而InstructBLIP只有47.62%。 研究人员认为这证明了多嵌入方法对广泛的视觉理解的益处。BLIVA还在YouTube视频缩略图数据集上取得了92%的准确率。BLIVA识读图像文本的能力可应用于许多行业,如识别路牌、食品包装等。BLIVA有望改善现实世界中的多种应用。 项目网址:https://huggingface.co/datasets/mlpc-lab/YTTB-VQA
-
上一篇
-
下一篇
- 最近发表
- 随机阅读
-
- 9月15日—17日,四川阿坝州将在马尔康市举行建州70周年系列活动
- 商汤大语言模型应用“商量SenseChat”即日起全面向广大用户开放服务
- OPPO Find N3 Flip自拍体验
- 文心一言全面开放,大模型会是百度的“第二曲线”吗?
- 疯狂的沙特联赛,疾驰的沙特足球
- 夸克扫描王App上线 应用AI大模型技术提升手机扫描精度与效率
- 韩国非存储芯片市场份额仅 3.3%,约为中国大陆一半
- 36氪专访
- 这?有球迷拿着C罗球衣来到迈阿密vs洛杉矶的比赛现场...
- 小米高端成了 中国区手机均价大涨24%:MIX Fold 3领衔#手机 #小米
- 荣耀V Purse可以当背包,少女们会心动吗?Purse
- 数百名员工受影响,消息称苹果10月砍掉社交平台、社区客服人员
- 英超彩经:曼城轻取升班马 纽卡力克利物浦
- 微软公布 Win11 八月可选更新蓝屏故障调查结果:不兼容导致
- 可以让它“滚”的机器人
- 中国移动发布全球首个“元宇宙就绪5G超级网络”,支持4K90帧传输
- 记者:巴萨将加薪续约哈维,并会退还当初他自费加盟俱乐部的费用
- 每个人都用过的实体光碟,为什么要被淘汰了?
- AI 聊天机器人平台 Poe 发布更新,将接入 Llama 2 模型
- 消息称 Meta 加拿大新闻禁令对 Facebook 日活基本没有影响
- 搜索
-
- 友情链接
-
- 苹果将 2017 款 Touch Bar 版 MacBook Pro 电脑列为过时产品
- 英特尔支持文档暗示微软 Win10 无法支持 Wi
- 迅雷学生卡上线:1.99 元
- IEEE Spectrum 2023 年度编程语言榜单排名揭晓,Python 稳坐多项第一
- MIUI 带壳截图功能全量推送,覆盖近三年几乎所有小米、Redmi 手机
- 利民预售新款刺灵 AS120 EVO 散热器:4 热管设计,109 元
- 牛班创始人胡彦斌谈音乐教育:伟大的事情从好玩开始
- 牛班创始人胡彦斌谈音乐教育:伟大的事情从好玩开始
- realme 真我 Buds Air5 耳机发布:50dB 深度降噪,售价 299 元
- 极摩客推出 Gbook 笔记本:i5 + 14 英寸 4K 屏