Donut：无需 OCR 理解文档内容

110次阅读

Donut：无需 OCR 理解文档内容

Donut是一种新的文档理解方法，使用无OCR端到端Transformer模型，在各种视觉文档理解任务上显示出最先进的性能。此外，SynthDoG是一种合成文档生成器，帮助模型预训练在各种语言和领域上具有灵活性。预训练模型和Web演示可用于文档解析、文档分类、文档VQA和（伪）文本阅读任务。代码和数据集在MIT许可下在GitHub上可用。