当前动态:CCIG2022| 合合信息丁凯:增强文档图像质量是OCR技术的重要研究方向

时间:2022-08-24 16:51:18       来源:环球网


(资料图片)

【环球网科技综合报道】“OCR技术的进阶之路上,文档图像质量的增强是重要的研究方向,需克服页面弯曲、阴影遮挡、摩尔纹、图片模糊等现代文本图像处理中常见的干扰状况。”近日,在2022中国图象图形大会(CCIG 2022)期间,合合信息自然语言算法研发总监丁凯表示。

丁凯认为,尽管OCR(光学字符识别)技术已走过一个世纪的发展,现今仍存在文档图像质量退化严重、文字检测及版面分析困难、非限定条件文字识别率低、结构化智能理解能力差等亟待解决的问题。OCR技术的进阶之路上,文档图像质量的增强是重要的研究方向,需克服页面弯曲、阴影遮挡、摩尔纹、图片模糊等现代文本图像处理中常见的干扰状况。通过引入AI(人工智能)技术,合合信息智能文字识别及图像处理技术能够帮助各应用领域简化下游文档处理任务,提升文字识别效率与准确性。

以弯曲矫正为例,丁凯介绍了基于文本行线拟合和坐标变换、基于文本行线优化矫正的方法原理和优缺点,并提到合合信息采用的基于位移场网络学习的方法的系统架构,可有效解决多种弯曲文档图像的矫正问题。除此之外,在教育领域,合合信息“字迹擦除”技术融合了内容切分、手写字迹分离网络、文档质量增强技术,对复杂场景进行准确处理,实现作业及试卷笔记“一键擦除”。

此外,在丁凯看来,文档数字化流程的建立是加速企业数字化转型的关键,也是技术落地中的痛点。为了更好地解决不同业务中存在的文档版式繁杂、训练样本匮乏、模型定制化调优周期长且效率低的问题,合合信息推出了TextIn Studio智能文字识别训练平台,可将底层资源、数据、模型训练、集成部署和服务管理应用多个模块整合在一起,针对性解决各项问题的同时,建立业务流程之间的闭环,实现模型自动化训练和部署。

据悉,TextIn Studio生产出了大量不同场景的文档数字化模型,涉及近百种文档图像预处理、文字识别与理解、文档格式转换等方面的服务,较为全面地覆盖了企业和个人工作生活相关的文档类型。目前,合合信息相关智能文字识别及图像处理技术已被应用于公司旗下扫描全能王等C端APP中及行业解决方案中。

本次大会由中国科学技术协会指导,中国图象图形学学会主办,四川大学承办,电子科技大学协办。

关键词: 图像处理