视觉语言模型BLIVA:让AI更擅长阅读图像……
文章概要: 1. BLIVA是视觉一种视觉语言模型,擅长读取图像中的模型文本。 2. BLIVA结合了InstructBLIP的更擅学习查询嵌入和LLaVA的编码修补嵌入。 3. BLIVA在多个数据集上表现优异,长阅可用于识别路牌、读图食品包装等场景。视觉 站长之家(ChinaZ.com)8月28日 消息:BLIVA 是模型一种视觉语言模型,擅长读取图像中的更擅文本,使其在许多行业的长阅现实场景和应用中发挥作用。 加州大学圣地亚哥分校的读图研究人员开发了 BLIVA,这是视觉一种视觉语言模型,旨在更好地处理包含文本的模型图像。视觉语言模型 (VLM) 通过合并视觉理解功能来扩展大型语言模型 (LLM),更擅以回答有关图像的长阅问题。 这种多模态模型在开放式视觉问答基准方面取得了令人印象深刻的读图进展。一个例子是 OpenAI 的GPT-4,它的多模式形式可以在用户提示时讨论图像内容,尽管此功能目前仅在“Be my Eyes”应用程序中可用。 然而,当前系统的一个主要限制是处理带有文本的图像的能力,这在现实场景中很常见。 BLIVA 结合了 InstructBLIP 和 LLaVA 视觉语言模型通过合并视觉理解功能来扩展大型语言模型,以回答有关图像的问题。 BLIVA结合了两种互补的视觉嵌入类型。一种是Salesforce InstructBLIP提取的学习查询嵌入,用于关注与文本输入相关的图像区域;另一种是受Microsoft LLaVA启发提取的编码修补嵌入,直接从完整图像的原始像素修补中获得。 研究人员表示,这种双重方法允许BLIVA同时利用针对文本定制的精炼查询嵌入,以及捕捉更多视觉细节的更丰富的编码修补。 BLIVA 使用大约550,000个图像标题对进行了预训练,并使用150,000个视觉问答示例调整了指令,同时保持视觉编码器和语言模型冻结。 在多个数据集上,BLIVA的表现明显优于InstructBLIP等其他模型。例如,在OCR-VQA数据集上,BLIVA的准确率达到65.38%,而InstructBLIP只有47.62%。 研究人员认为这证明了多嵌入方法对广泛的视觉理解的益处。BLIVA还在YouTube视频缩略图数据集上取得了92%的准确率。BLIVA识读图像文本的能力可应用于许多行业,如识别路牌、食品包装等。BLIVA有望改善现实世界中的多种应用。 项目网址:https://huggingface.co/datasets/mlpc-lab/YTTB-VQA
- 最近发表
-
- DIY从入门到放弃:压缩包密码可以绕过吗?
- 年营收2000多亿的上海医药突发公告:原副总裁等4人被查!
- 国外牛人发明智能假肢,截止病人佩戴上后,就和原手一样灵活!
- 博尔捷复合用工管理云平台摘得深圳市人力资源服务创新发展大赛二等奖
- 博主首拆华为Mate 60 Pro:采用海思麒麟处理器 #华为Mate60 #华为Mate60Pro体验
- 玩家失望 微软明确不做掌机#微软 #游戏掌机
- 王者归来!6999元Mate 60 Pro突发上市:销量有望突破600万#Mate60Pro #华为 #销量
- 2023年“上海慈善周”启动 “行善”正成为一种生活方式
- 穆帅赛后与球员在更衣室发生争吵?罗体主编驳斥传闻:一派胡言
- iQOOZ8:千元全能战士?小超人启动
- 随机阅读
-
- 双重打击💔夏奇拉:当我父亲进ICU时,我得知皮克出轨背叛
- AI再显神通!将大脑信号转为语音 准确率最高达100%
- 黑客要价 2.13 美元,兜售 260 万语言学习平台多邻国用户数据
- 抖音“抢食” 美团为何还见好?
- 巴萨欧冠27人大名单:莱万领衔、菲利克斯、坎塞洛、亚马尔在列
- 谷歌新模型的算力已是GPT
- 未来,2023.8.29会被写进历史! #麒麟芯片 #麒麟9000
- 国外牛人发明智能假肢,截止病人佩戴上后,就和原手一样灵活!
- 网络直播更轻松 云犀导播直播一体机闪耀BIRTV2023
- Ubuntu 23.10/24.04 LTS 仍默认使用基于 DEB 的CUPS 打印堆栈
- 用好“四联”机制,动真碰硬抓实整改整治
- 19位专家学者受聘 福建泉州推进国家知识产权强市建设
- 西甲彩经:马竞需防平局,巴萨再下一城
- AirPods Max被集体起诉!为何苹果做不好高端耳机?
- 奏响数字建设最强音
- AirPods Max被集体起诉!为何苹果做不好高端耳机?
- 东航联合上海机场公安开展依法处置“机闹”事件模拟演练
- AI视野:OpenAI发布企业版ChatGPT;谷歌浏览器也可搭载Bing Chat
- 美妆品牌的焦虑,谁能解决?
- 马斯克直播演示特斯拉FSD V12:时长45 分钟,大秀端到端技术
- 搜索
-