Chat with Wiki - 使用多模态提取图片中的表格信息

Answer

以下是关于多模态提取图片中表格信息的相关内容：

在多模态任务和评测方法方面，有以下任务及相关信息： |任务名称|简称|数据集名称|数据集大小|指标计算| |-|-|-|-|-| |Video Action Recognition|VAR|UCF-101|101 类共 13K 个视频片段|Accuracy| |||HMDB-51|51 类共 7K 个视频片段|Accuracy| |||Moments in Time|339 类共 1M 个视频片段|Accuracy| |||Kinetics400|400 类且每类 400 个视频片段|Accuracy| |||Kinetics600|600 类且每类 600 个视频片段|Accuracy| |||Kinetics700|700 类且每类 700 个视频片段|Accuracy| |Image Text Retrival|Retrival 任务|Flickr30K|31K 张图片，155K 文字描述|R@1| |||MS-COCO|113K 张图片，567K 文字描述|R@1| |Image Caption|Caption 任务|Visual Genome|108K 图片，5.41M 文字描述|CIDEr| |||CC3M|3.01M 对图片和文字描述|CIDEr| |||SBU|867K 对图片和文字描述|CIDEr| |||LAION400M|400M 图片|CIDEr| |Visual QA|VQA|VQAv2|265K 张图片|Accuracy| |||VisDial|130K 图片|Accuracy|

Gemini 模型本身是多模态的，展示了无缝结合跨模态能力，例如从表格、图表或图形中提取信息和空间布局，以及语言模型的强大推理能力。

GPT-4V 在视觉编码能力方面，图 46 进一步展示了其将输入图像中的表格重构为 MarkDown/LaTex 代码。

Content generated by AI large model, please carefully verify (powered by aily)

References

（4）多模态的大一统之路

汇总以上的信息，总结成表格，方便查询|任务名称|简称|数据集名称|数据集大小|指标计算| |-|-|-|-|-| |Video Action Recognition|VAR|UCF-101|101类共13K个视频片段|Accuracy| |||HMDB-51|51类共7K个视频片段|Accuracy| |||Moments in Time|339类共1M个视频片段|Accuracy| |||Kinetics400|400类且每类400个视频片段|Accuracy| |||Kinetics600|600类且每类600个视频片段|Accuracy| |||Kinetics700|700类且每类700个视频片段|Accuracy| |Image Text Retrival|Retrival任务|Flickr30K|31K张图片，155K文字描述|R@1| |||MS-COCO|113K张图片，567K文字描述|R@1| |Image Caption|Caption任务|Visual Genome|108K图片，5.41M文字描述|CIDEr| |||CC3M|3.01M对图片和文字描述|CIDEr| |||SBU|867K对图片和文字描述|CIDEr| |||LAION400M|400M图片|CIDEr| |Visual QA|VQA|VQAv2|265K张图片|Accuracy| |||VisDial|130K图片|Accuracy|

Gemini report 中文翻译

Gemini模型本身就是多模态的。这些模型展示了无缝结合跨模态能力的独特能力（例如从表格、图表或图形中提取信息和空间布局），以及语言模型的强大推理能力（例如在数学和编码方面的最新性能），如图5和12中的示例所示。这些模型在识别输入中的细微细节、在空间和时间上聚合上下文，以及在一系列视频帧和/或音频输入上应用这些能力方面也表现出强大的性能。下面的部分提供了对模型在不同模态（图像、视频和音频）上的更详细评估，以及模型在图像生成和跨不同模态的信息组合能力方面的定性示例。

解读 GPT-4V 《多模态的新时代》

图45展示了根据手写数学方程生成LaTeX代码的能力。这项功能可以帮助用户更高效地用LaTeX编写方程。尽管模型无法为较长的方程生成代码，但它可以有效处理较短的方程。通过将较长的方程分解为较短的组件，模型能够生成适当的代码。图46进一步展示了GPT-4V如何将输入图像中的表格重构为MarkDown/LaTex代码。图47显示了编写Python、TikZ和SVG代码以复制输入图形的示例。尽管生成的输出不是完全匹配，但布局相似，代码可以轻松修改以满足特定需求。