草庐IT

tesseract-ocr

全部标签

AI+OCR赋能古彝文数字化—让经典重新跳动

1️⃣彝文与古彝文概况文化是一个民族社会历史发展到一定程度的产物,代表着文明发展的程度,而文字是文化的一种载体,文字的出现是社会进入文明阶段的重要标志之一,其生动记录着一个民族的智慧成果,深刻反映着一个民族的发展历史,集中体现这一个民族的文化。中国远古时代的彝族,是相当庞大的部落族群,其生息的区域,从西部、西南部往中原地区延伸到东海之滨,以刻划文字和十月太阳历为标志,可追溯达万年历史的古彝人,对世界本源、人类发展史的认识,都达到了极高的程度,中国的文明史时序,由此向前推进了一大步。古彝文字义对照图(网络资料+邵文苑供图)邵文苑:古彝文数字化项目发起人,上海大学社会学院人类学民俗学研究所讲师彝文

AI+OCR赋能古彝文数字化—让经典重新跳动

1️⃣彝文与古彝文概况文化是一个民族社会历史发展到一定程度的产物,代表着文明发展的程度,而文字是文化的一种载体,文字的出现是社会进入文明阶段的重要标志之一,其生动记录着一个民族的智慧成果,深刻反映着一个民族的发展历史,集中体现这一个民族的文化。中国远古时代的彝族,是相当庞大的部落族群,其生息的区域,从西部、西南部往中原地区延伸到东海之滨,以刻划文字和十月太阳历为标志,可追溯达万年历史的古彝人,对世界本源、人类发展史的认识,都达到了极高的程度,中国的文明史时序,由此向前推进了一大步。古彝文字义对照图(网络资料+邵文苑供图)邵文苑:古彝文数字化项目发起人,上海大学社会学院人类学民俗学研究所讲师彝文

C#使用Spire.OCR框架识别图片中的字母,数字,文字等

OCROCR(opticalcharacterrecognition),光学字符识别。   OCR文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。   如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题。    衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。   OCR技术的实现,总体上可以分为五步:预处理图片、切割字符、识别字符、恢复版面、后处理文字。中间的三步是核心,头尾两

C#使用Spire.OCR框架识别图片中的字母,数字,文字等

OCROCR(opticalcharacterrecognition),光学字符识别。   OCR文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。   如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题。    衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。   OCR技术的实现,总体上可以分为五步:预处理图片、切割字符、识别字符、恢复版面、后处理文字。中间的三步是核心,头尾两

Python使用EasyOCR库对行程码图片进行OCR文字识别介绍与实践

关注「WeiyiGeek」点我,点我设为「特别关注」,每天带你在B站玩转网络安全运维、应用开发、物联网IOT学习!希望各位看友【关注、点赞、评论、收藏、投币】,助力每一个梦想。文章目录0x00快速了解EasyOCR介绍EasyOCR参考来源0x01安装部署环境依赖环境安装方法参数0x02实践案例批量识别行程码图片0x03入坑出坑0x00快速了解EasyOCR介绍Q:什么是EasyOCR?描述:EasyOCR是一个用于从图像中提取文本的python模块,它是一种通用的OCR,既可以读取自然场景文本,也可以读取文档中的密集文本。目前支持80多种语言和所有流行的书写脚本,包括:拉丁文、中文、阿拉伯文

Python使用EasyOCR库对行程码图片进行OCR文字识别介绍与实践

关注「WeiyiGeek」点我,点我设为「特别关注」,每天带你在B站玩转网络安全运维、应用开发、物联网IOT学习!希望各位看友【关注、点赞、评论、收藏、投币】,助力每一个梦想。文章目录0x00快速了解EasyOCR介绍EasyOCR参考来源0x01安装部署环境依赖环境安装方法参数0x02实践案例批量识别行程码图片0x03入坑出坑0x00快速了解EasyOCR介绍Q:什么是EasyOCR?描述:EasyOCR是一个用于从图像中提取文本的python模块,它是一种通用的OCR,既可以读取自然场景文本,也可以读取文档中的密集文本。目前支持80多种语言和所有流行的书写脚本,包括:拉丁文、中文、阿拉伯文

基于百度智能云的OCR接口进行图文识别

由于一些客户的内部系统需要提取一些记录信息,如果手工录入会变得比较麻烦,因此考虑使用百度云的OCR进行图片文字的提取处理,综合比较了一下开源免费的Tesseract类库进行处理,不过识别效果不太理想,因此转为了百度的OCR云接口处理方式,测试的效果比较理想,基本上较少出现错别字。本篇随笔介绍如何利用百度OCR进行图片文字的提取处理,以便从别的系统中批量化获得响应的系统数据,然后进行相应的格式化处理。1、百度OCR服务申请百度的OCR接口调用是收费的接口,不过一般是在超过一定量的情况后进行收费,我们可以申请获得每月免费的额度。百度智能云地址:https://login.bce.baidu.com

基于百度智能云的OCR接口进行图文识别

由于一些客户的内部系统需要提取一些记录信息,如果手工录入会变得比较麻烦,因此考虑使用百度云的OCR进行图片文字的提取处理,综合比较了一下开源免费的Tesseract类库进行处理,不过识别效果不太理想,因此转为了百度的OCR云接口处理方式,测试的效果比较理想,基本上较少出现错别字。本篇随笔介绍如何利用百度OCR进行图片文字的提取处理,以便从别的系统中批量化获得响应的系统数据,然后进行相应的格式化处理。1、百度OCR服务申请百度的OCR接口调用是收费的接口,不过一般是在超过一定量的情况后进行收费,我们可以申请获得每月免费的额度。百度智能云地址:https://login.bce.baidu.com

文本纠错:提升OCR任务准确率的方法理解

​文本纠错:提升OCR任务准确率的方法理解摘要:错字率是OCR任务中的重要指标,文本纠错需要机器具备人类水平相当的语言理解能力。随着人工智能应用的成熟,越来越多的纠错方法被提出。近年来深度学习在OCR领域取得了巨大的成功,但OCR应用中识别错误时有出现。错误的识别结果不仅难以阅读和理解,同时也降低文本的信息价值。在某些领域,如医疗行业,识别错误可能带来巨大的损失。因此如何降低OCR任务的错字率受到学术界和工业界的广泛关注。合合信息通过本文来讲解文本纠错技术帮助更多人解决业务问题。通常文本纠错的流程可以分为错误文本识别、候选词生成和候选词排序三个步骤。文本纠错方法可包括基于CTC解码和使用模型两

文本纠错:提升OCR任务准确率的方法理解

​文本纠错:提升OCR任务准确率的方法理解摘要:错字率是OCR任务中的重要指标,文本纠错需要机器具备人类水平相当的语言理解能力。随着人工智能应用的成熟,越来越多的纠错方法被提出。近年来深度学习在OCR领域取得了巨大的成功,但OCR应用中识别错误时有出现。错误的识别结果不仅难以阅读和理解,同时也降低文本的信息价值。在某些领域,如医疗行业,识别错误可能带来巨大的损失。因此如何降低OCR任务的错字率受到学术界和工业界的广泛关注。合合信息通过本文来讲解文本纠错技术帮助更多人解决业务问题。通常文本纠错的流程可以分为错误文本识别、候选词生成和候选词排序三个步骤。文本纠错方法可包括基于CTC解码和使用模型两