以下是关于多模态提取图片中表格信息的相关内容:
在多模态任务和评测方法方面,有以下任务及相关信息:
|任务名称|简称|数据集名称|数据集大小|指标计算|
||||||
|Video Action Recognition|VAR|UCF101|101 类共 13K 个视频片段|Accuracy|
|||HMDB51|51 类共 7K 个视频片段|Accuracy|
|||Moments in Time|339 类共 1M 个视频片段|Accuracy|
|||Kinetics400|400 类且每类 400 个视频片段|Accuracy|
|||Kinetics600|600 类且每类 600 个视频片段|Accuracy|
|||Kinetics700|700 类且每类 700 个视频片段|Accuracy|
|Image Text Retrival|Retrival 任务|Flickr30K|31K 张图片,155K 文字描述|R@1|
|||MSCOCO|113K 张图片,567K 文字描述|R@1|
|Image Caption|Caption 任务|Visual Genome|108K 图片,5.41M 文字描述|CIDEr|
|||CC3M|3.01M 对图片和文字描述|CIDEr|
|||SBU|867K 对图片和文字描述|CIDEr|
|||LAION400M|400M 图片|CIDEr|
|Visual QA|VQA|VQAv2|265K 张图片|Accuracy|
|||VisDial|130K 图片|Accuracy|
Gemini 模型本身是多模态的,展示了无缝结合跨模态能力,例如从表格、图表或图形中提取信息和空间布局,以及语言模型的强大推理能力。
GPT4V 在视觉编码能力方面,图 46 进一步展示了其将输入图像中的表格重构为 MarkDown/LaTex 代码。
2024-09-20