
简便来说,文档明白(Document Parsing)的中枢任务,即是将 PDF 文献、扫描图像或相片等载体中的非结构化数据,自动升沉为运筹帷幄机系统约略胜仗交融和贬责的结构化数据,是一个信息索取和组织的智能化过程。
那么,它和咱们时时领路的 OCR 见解有何差异呢?
OCR,即光学字符识别,最早不错记忆到早期方法识别研究,它的中枢才智是将图片中的笔墨区域识别出来,并将其诊治为可剪辑、可搜索的文本字符。早期的 OCR 系统识别精度有限,主要针对特定印刷字体。跟着本事跨越,荒谬是深度学习在运筹帷幄机视觉边界的庸俗应用,OCR 的精度和速率得到了质的飞跃,不仅能更准确地识别多样印刷体,敌手写体的识别才智也大大增强,为后续的信息贬责奠定了基础。
但是,在如今的 AI 时间,只是将图像造成文本字符(OCR 的输出)是远远不够的。一份文档的价值不仅在于其中的笔墨,更在于笔墨所代表的具体信息偏捏高下文联系。举例,发票上的“金额”数字旁时时会有“¥”或其他货币秀气,而一份简历中的“责任陶冶”会如时辰限定陈设在特定区域。
因此kaiyun官方网站复漫笔档明白本事的中枢难点即是约略在大模子交融才智的匡助下,交融著作段落版式,准确索取出文档中的种种信息,并保证限定逻辑正确。而TextIn在复漫笔档明白边界的冲突即是它在 OCR 提供的原始文本基础上,进一步欺诈布局分析(交融文档的物理结构,如段落、表格、标题位置)和语义交融(识别关节实体如姓名、日历、金额、条件,交融它们之间的联系),得到完好意思信息片断,并将其高度结构化地输出为 Markdown、JSON 或胜仗导入数据库的圭臬表率。
咱们不错通过一个案例简便交融其平差异:
因此,文档明白是 OCR 才智的蔓延和升级,从单纯的“识字”到真确的“交融文档”,文档明白为企业的自动化经由和数据分析提供了可胜仗使用的“原料”。
