我正在尝试构建一个允许我在图像中搜索文本的 shell 脚本。基于文本,脚本将尽力从图像中获取文本。我希望您对此提出意见,因为此脚本似乎适用于大多数图像,但不适用于文本字体颜色类似于文本周围较小环境的那些图像。
# !/bin/bash
#
# imt-ocr.sh is image magick tessearc OCR tool that is used for finding out text in image
#
# Arguments:
# 1 -- image filename (with path)
# 2 -- text to search in image (default to '')
# 3 -- occurence of text (default to 1)
# Usage:
# imt-ocr.sh [image_filename] [text_to_search] [occurence]
#
image=$1
txt=$2
occurence=$3 # Default to 1
if [ "$occurence" == "" ]
then
occurence=1
fi
get_major_color ()
# Returns the major color of an image with its hex value
# Parameter: Image filename (with path)
# Return format: Returns a string "hex_val_of_color major_color_name"
{
convert $1 -format %c histogram:info: > x.txt
cat x.txt | awk '{print $1}' > x1.txt
h=$(sort -n x1.txt | tail -1);
color_info=$(cat x.txt | grep "$h" | cut -d '#' -f2)
rm -rf x.txt x1.txt
echo "$color_info"
}
invert_color()
# Inverts the color hex value
# Parameter: Hex value to be inverted
# Return format: Returns in hex
{
input_color_hex=$1 # Input color's hex value
white_color_hex=FFFFFF # White color's hex vlaue
inv_color_hex=`echo $(printf '%06X\n' $((0x$white_color_hex - 0x$input_color_hex)))`
echo $inv_color_hex
}
start_scale=100
end_scale=300
increment_scale=100
tmp_img=dst.tif
attempt=1
for ((scale=$start_scale, attempt=$attempt; scale <= $end_scale ; scale=scale+$increment_scale, attempt++))
do
echo "IMT-OCR-LOG: Scaling image to $scale% in attempt #$attempt"
convert $image -type Grayscale -scale $scale% $tmp_img
tesseract $tmp_img OUT
found_oc=$(grep -o "$txt" OUT.txt | wc -l)
echo "IMT-OCR-LOG: Found $found_oc occurence(s) of text '$txt' in attempt #$attempt"
if [ $occurence -le $found_oc ] && [ $found_oc -ne 0 ]
then
echo "IMT-OCR-LOG: Printing out the last text found on image"
echo "IMT-OCR-LOG: ======================================================"
cat OUT.txt
echo "IMT-OCR-LOG: ======================================================"
rm -rf $tmp_img OUT.txt
exit 1
else
echo "IMT-OCR-LOG: Getting major color of image in attempt #$attempt"
color_info=`get_major_color $image`
true_color=$(echo $color_info | awk '{print $2}')
true_val=$(echo $color_info | awk '{print $1}')
echo "IMT-OCR-LOG: Major color of image is '$true_color' with hex value of $true_val in attempt #$attempt"
# Blur the image
echo "IMT-OCR-LOG: Bluring image in attempt #$attempt"
convert $tmp_img -blur 1x65535 $tmp_img
# Flip the color
inverted_val=`invert_color $true_val`
echo "IMT-OCR-LOG: Inverting the major color of image from 0x$true_val to 0x$inverted_val in attempt #$attempt"
convert $tmp_img -fill \#$inverted_val -opaque \#$true_val $tmp_img
# Sharpen the image
echo "IMT-OCR-LOG: Sharpening image in attempt #$attempt"
convert $tmp_img -sharpen 1x65535 $tmp_img
# Find text
tesseract $tmp_img OUT
found_oc=$(grep -o "$txt" OUT.txt | wc -l)
echo "IMT-OCR-LOG: Found $found_oc occurence(s) of text '$txt' in attempt #$attempt"
if [ "$found_oc" != "0" ]
then
if [ $occurence -le $found_oc ]
then
echo "IMT-OCR-LOG: Printing out the last text found on image"
echo "IMT-OCR-LOG: ======================================================"
cat OUT.txt
echo "IMT-OCR-LOG: ======================================================"
rm -rf $tmp_img OUT.txt
exit 1
fi
fi
fi
rm -rf OUT.txt
done
rm -rf $tmp_img
这是一个有问题的示例, 图片(test.jpeg)http://www.igoipad.com/wp-content/uploads/2012/07/03-Word-Collage-iPad.jpeg
[admin@ba-callgen image-magick-tesseract-processing]$ sh imt-ocr.sh test.jpeg Common
IMT-OCR-LOG: Scaling image to 100% in attempt #1
Tesseract Open Source OCR Engine with Leptonica
IMT-OCR-LOG: Found 0 occurence(s) of text 'Common' in attempt #1
IMT-OCR-LOG: Getting major color of image in attempt #1
IMT-OCR-LOG: Major color of image is 'grey96' with hex value of F5F5F5 in attempt #1
IMT-OCR-LOG: Bluring image in attempt #1
IMT-OCR-LOG: Inverting the major color of image from 0xF5F5F5 to 0x0A0A0A in attempt #1
IMT-OCR-LOG: Sharpening image in attempt #1
Tesseract Open Source OCR Engine with Leptonica
IMT-OCR-LOG: Found 0 occurence(s) of text 'Common' in attempt #1
IMT-OCR-LOG: Scaling image to 200% in attempt #2
Tesseract Open Source OCR Engine with Leptonica
IMT-OCR-LOG: Found 1 occurence(s) of text 'Common' in attempt #2
IMT-OCR-LOG: Printing out the last text found on image
IMT-OCR-LOG: ======================================================
Settings M...
Text
Common words
Exclude numbers
word case
Theme & Layuul
Color theme
Fnnl
Word layout
Clrien lalion
7301
Lrmclsc ape
\u2018OTC
Ergl sw v.-ords >
li( `
I):Jntc1'\:1r\qa )
Landon Spring >
Hough Trad >
H3'fJ|1d :-Ialf >
H L
IMT-OCR-LOG: ======================================================
[admin@ba-callgen image-magick-tesseract-processing]$
[admin@ba-callgen image-magick-tesseract-processing]$
[admin@ba-callgen image-magick-tesseract-processing]$
[admin@ba-callgen image-magick-tesseract-processing]$
[admin@ba-callgen image-magick-tesseract-processing]$
[admin@ba-callgen image-magick-tesseract-processing]$
[admin@ba-callgen image-magick-tesseract-processing]$ sh imt-ocr.sh test.jpeg Portrait
IMT-OCR-LOG: Scaling image to 100% in attempt #1
Tesseract Open Source OCR Engine with Leptonica
IMT-OCR-LOG: Found 0 occurence(s) of text 'Portrait' in attempt #1
IMT-OCR-LOG: Getting major color of image in attempt #1
IMT-OCR-LOG: Major color of image is 'grey96' with hex value of F5F5F5 in attempt #1
IMT-OCR-LOG: Bluring image in attempt #1
IMT-OCR-LOG: Inverting the major color of image from 0xF5F5F5 to 0x0A0A0A in attempt #1
IMT-OCR-LOG: Sharpening image in attempt #1
Tesseract Open Source OCR Engine with Leptonica
IMT-OCR-LOG: Found 0 occurence(s) of text 'Portrait' in attempt #1
IMT-OCR-LOG: Scaling image to 200% in attempt #2
Tesseract Open Source OCR Engine with Leptonica
IMT-OCR-LOG: Found 0 occurence(s) of text 'Portrait' in attempt #2
IMT-OCR-LOG: Getting major color of image in attempt #2
IMT-OCR-LOG: Major color of image is 'grey96' with hex value of F5F5F5 in attempt #2
IMT-OCR-LOG: Bluring image in attempt #2
IMT-OCR-LOG: Inverting the major color of image from 0xF5F5F5 to 0x0A0A0A in attempt #2
IMT-OCR-LOG: Sharpening image in attempt #2
Tesseract Open Source OCR Engine with Leptonica
IMT-OCR-LOG: Found 0 occurence(s) of text 'Portrait' in attempt #2
IMT-OCR-LOG: Scaling image to 300% in attempt #3
Tesseract Open Source OCR Engine with Leptonica
IMT-OCR-LOG: Found 0 occurence(s) of text 'Portrait' in attempt #3
IMT-OCR-LOG: Getting major color of image in attempt #3
IMT-OCR-LOG: Major color of image is 'grey96' with hex value of F5F5F5 in attempt #3
IMT-OCR-LOG: Bluring image in attempt #3
IMT-OCR-LOG: Inverting the major color of image from 0xF5F5F5 to 0x0A0A0A in attempt #3
IMT-OCR-LOG: Sharpening image in attempt #3
Tesseract Open Source OCR Engine with Leptonica
IMT-OCR-LOG: Found 0 occurence(s) of text 'Portrait' in attempt #3
[admin@ba-callgen image-magick-tesseract-processing]$
如您所见,我可以找到文本“common”,但找不到“Portrait”。原因是因为肖像的字体颜色。任何帮助改进这个脚本的...
我正在使用 Centos 5。
最佳答案
在操作输入图像时,不要人为地限制自己只评估一种或两种方法。您现在似乎只使用 -blur 和 -scale。
您还应该考虑使用以下操作:
-对比-去斑-edge-否定-规范化-posterize-型灰度-单色- Gamma -antialias/+antialias输入图像:
例如,查看此命令生成的内容:
convert 03-Word-Collage-iPad.jpeg \
-scale 1000% \
-blur 1x65535 -blur 1x65535 -blur 1x65535 \
-contrast \
-normalize \
-despeckle -despeckle \
-type grayscale \
-sharpen 1 \
-posterize 3 \
-negate \
-gamma 100 \
-compress zip \
a.tif
输出图像:
(抱歉,将 TIFF 上传到本网站时,它会自动转换为 PNG。因此,当您下载上面看到的图像时,您并没有真正得到我的 TIFF——但您仍然会看到一张足够接近的真实照片结果。)
注意 1: 我用这个 ImageMagick 版本测试了这个:
convert -version
Version: ImageMagick 6.7.6-9 2012-05-12 Q16 http://www.imagemagick.org
Copyright: Copyright (C) 1999-2012 ImageMagick Studio LLC
Features:
注意 2:ImageMagick 的旧版本或新版本可能表现不同,尤其是涉及到 -posterize 时!
这是 Tesseract 对 a.tif 的 OCR 的结果:
tesseract a.tif OUT && cat OUT.txt
Tesseract Open Source OCR Engine v3.01 with Leptonica
Page 0
Text
Common words Remove English words >
Exclude numbers
Word case Don't change 1+
Theme & Layout
Color theme London Spring >
Font Rough Trad >
Word layout Half and Half >
Orientation
Landscape
Q
u
-0
"H
I
我确认最新版本的 ImageMagick 6.7.9-0(昨天发布)不会产生与我用上面的命令 + 屏幕截图(使用版本 制作)显示的完全相同的结果6.7.6-9).这是区别:
无论如何,我敢肯定,如果您稍微调整一下我的命令,使用各种参数,无论您的 ImageMagick 版本是什么,您都会让它为您工作...
关于linux - OCR - 使用 tesseract 3.0 和 imagemagick 6.6.5 从图像中获取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11978986/
我正在学习如何使用Nokogiri,根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div
我有一个Ruby程序,它使用rubyzip压缩XML文件的目录树。gem。我的问题是文件开始变得很重,我想提高压缩级别,因为压缩时间不是问题。我在rubyzipdocumentation中找不到一种为创建的ZIP文件指定压缩级别的方法。有人知道如何更改此设置吗?是否有另一个允许指定压缩级别的Ruby库? 最佳答案 这是我通过查看rubyzip内部创建的代码。level=Zlib::BEST_COMPRESSIONZip::ZipOutputStream.open(zip_file)do|zip|Dir.glob("**/*")d
类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc
很好奇,就使用rubyonrails自动化单元测试而言,你们正在做什么?您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您?git中的预提交Hook?只是手动调用?我完全理解测试,但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的,并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您? 最佳答案 不确定您到底想听什么,但是有几个级别的自动代码库控制:在处理某项功能时,您可以使用类似autotest的内容获得关于哪些有效,哪些无效的即时反馈。要确保您的提
假设我做了一个模块如下:m=Module.newdoclassCendend三个问题:除了对m的引用之外,还有什么方法可以访问C和m中的其他内容?我可以在创建匿名模块后为其命名吗(就像我输入“module...”一样)?如何在使用完匿名模块后将其删除,使其定义的常量不再存在? 最佳答案 三个答案:是的,使用ObjectSpace.此代码使c引用你的类(class)C不引用m:c=nilObjectSpace.each_object{|obj|c=objif(Class===objandobj.name=~/::C$/)}当然这取决于
我正在尝试使用ruby和Savon来使用网络服务。测试服务为http://www.webservicex.net/WS/WSDetails.aspx?WSID=9&CATID=2require'rubygems'require'savon'client=Savon::Client.new"http://www.webservicex.net/stockquote.asmx?WSDL"client.get_quotedo|soap|soap.body={:symbol=>"AAPL"}end返回SOAP异常。检查soap信封,在我看来soap请求没有正确的命名空间。任何人都可以建议我
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。
我在我的项目目录中完成了compasscreate.和compassinitrails。几个问题:我已将我的.sass文件放在public/stylesheets中。这是放置它们的正确位置吗?当我运行compasswatch时,它不会自动编译这些.sass文件。我必须手动指定文件:compasswatchpublic/stylesheets/myfile.sass等。如何让它自动运行?文件ie.css、print.css和screen.css已放在stylesheets/compiled。如何在编译后不让它们重新出现的情况下删除它们?我自己编译的.sass文件编译成compiled/t
我想将html转换为纯文本。不过,我不想只删除标签,我想智能地保留尽可能多的格式。为插入换行符标签,检测段落并格式化它们等。输入非常简单,通常是格式良好的html(不是整个文档,只是一堆内容,通常没有anchor或图像)。我可以将几个正则表达式放在一起,让我达到80%,但我认为可能有一些现有的解决方案更智能。 最佳答案 首先,不要尝试为此使用正则表达式。很有可能你会想出一个脆弱/脆弱的解决方案,它会随着HTML的变化而崩溃,或者很难管理和维护。您可以使用Nokogiri快速解析HTML并提取文本:require'nokogiri'h
我想为Heroku构建一个Rails3应用程序。他们使用Postgres作为他们的数据库,所以我通过MacPorts安装了postgres9.0。现在我需要一个postgresgem并且共识是出于性能原因你想要pggem。但是我对我得到的错误感到非常困惑当我尝试在rvm下通过geminstall安装pg时。我已经非常明确地指定了所有postgres目录的位置可以找到但仍然无法完成安装:$envARCHFLAGS='-archx86_64'geminstallpg--\--with-pg-config=/opt/local/var/db/postgresql90/defaultdb/po