草庐IT

批量PDF文本提取

全部标签

ruby - 是否可以使用 Ruby 将一系列 PDF 合并为一个?

我有一系列按顺序命名的PDF:01_foo.pdf02_bar.pdf03_baz.pdf等等使用Ruby,是否可以将它们组合成一个大PDF,同时保持它们的顺序?我不介意安装任何必要的gem来完成这项工作。如果这在Ruby中是不可能的,那么另一种语言呢?如果可能,不要使用商业组件。更新:JasonNavarrete'ssuggestion导致完美的解决方案:将需要合并的PDF文件与pdftk放在一个目录下(或确保pdftk在您的PATH中),然后运行以下脚本:pdfs=Dir["[0-9][0-9]_*"].sort.join("")`pdftk#{pdfs}outputcombine

ruby-on-rails - 如何在 ruby​​ on rails 中获取现有 pdf 的总页数?

如何在rails中获取现有pdf的总页数? 最佳答案 您可以使用pdf-reader(也可用作ruby)。用法很简单reader=PDF::Reader.new("somefile.pdf")putsreader.page_count 关于ruby-on-rails-如何在ruby​​onrails中获取现有pdf的总页数?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/9276

ruby - 正则表达式 - 匹配某些字符后的文本

我想从一些文本中抓取数据并将其转储到一个数组中。将以下文本作为示例数据:|ExampleData|Title:Thisisasampletitle|Content:Thisissamplecontent|Date:12/21/2012我目前正在使用以下正则表达式来抓取“冒号”字符后指定的数据:/((?=:).+)/不幸的是,这个正则表达式也抓取了冒号和冒号后面的空格。如何只抓取数据?此外,我不确定我这样做是否正确..但看起来好像外部括号导致匹配返回数组。这是parens的功能吗?编辑:我正在使用Rubular来测试我的正则表达式 最佳答案

ruby - 从 cucumber 步骤中提取场景大纲(或读取标签)

如果我的场景是这样开始的:@my-tagScenarioOutline:AdminuserchangesemailGivenIregisterarandomemailaddress...是否可以在单个步骤定义中读取场景大纲文本或@my-tag?例如,在Iregisterarandomemailaddress步骤中,如果它在给定场景或标记值下运行,我想打印调试信息。 最佳答案 您不能直接从步骤定义中访问该信息。如果您需要该信息,则必须在beforeHook期间捕获它。cucumberv3+下面的beforehook将捕获特征名称、场景

ruby - 将 HTML 转换为纯文本(包含 <br>s)

是否可以使用Nokogiri将HTML转换为纯文本?我还想包括标签。例如,给定这个HTML:alamakotaikottoidiota我想要这个输出:alamakotaikottoidiota当我调用Nokogiri::HTML(my_html).text它不包括标签:alamakotaikottoidiota 最佳答案 我没有编写复杂的正则表达式,而是使用了Nokogiri。工作解决方案(K.I.S.S!):defstrip_html(str)document=Nokogiri::HTML.parse(str)document.c

ruby - 将数字签名插入现有的 pdf 文件

我需要使用Rails应用程序服务器将数字签名插入到现有的pdf文件中。(基本上,客户端上传pdf文件,服务器用本地证书签名)我一直在使用JSignpdf将数字签名插入pdf文件,并开始探索ruby​​的gems...我在ruby​​pdf网站上找到了另一个可移植文件来完成这项工作http://soft.rubypdf.com/software/pdf-digital-signe,但在ruby​​中找不到任何gem甚至示例代码来执行此操作。我也看过DigitalsignatureverificationwithOpenSSL,但无法理解如何使用本地证书文件对现有文档进行实际签名。我也在h

ruby-on-rails - 解析 URL 以提取域的最佳方法是什么?

这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:RubycodetoextracthostfromURLstring我发现这个模块叫做URI可以解析url。(我是ruby​​的新手。在这种情况下,“模块”是否与“库”同义?)然后您可以提取主机名。uri=URI.parse("http://www.ruby-lang.org/")...puri.host#=>"www.ruby-lang.org"据此,我想您可以删除“www.”并使用正则表达式保留其他子域。有没有人有更直接的替代方法或者这种方法是否正确?

ruby - 使用 Ruby 填写 PDF 表单

我正在尝试使用ruby​​以编程方式填写pdf。pdf包含允许输入文本的字段:我过去通过pdf_formgem使用pdftk取得了成功,但是它没有找到这个特定pdf中的字段:$pry[1]pry(main)>require'pdf_forms'=>true[2]pry(main)>pdftk=PdfForms.new('/usr/local/bin/pdftk')=>#[3]pry(main)>pdftk.get_field_names('designation.pdf')=>[]如何使用ruby​​填写pdf? 最佳答案 PdfT

ruby-on-rails - Prawn pdf附件在邮件中

在我的Rails应用程序中,我尝试将发票附加到电子邮件中:definvoice(invoice)attachment:content_disposition=>"attachment",:body=>InvoicePdf.new(invoice),:content_type=>"application/pdf",:filename=>'invoice.pdf'mail(:to=>@user.email,:subject=>"YourInvoice")endInvoicePdf是一个PrawnPDF文档:classInvoicePdf我在电子邮件中没有收到附件。我究竟做错了什么?任何提示

ruby-on-rails - 如何将字符串插入文本文件

我有一个配置文件,我想在其中添加一个字符串,例如像那样:line1line2line3line4新字符串不应该被追加,而是写在文件中间的某个地方。因此,我在文件中寻找特定位置(或字符串),找到后,我插入新字符串:file=File.open(path,"r+")while(!file.eof?)line=file.readlineif(line.downcase.starts_with?("line1"))file.write("Somenicelittlesentence")endend问题是Ruby用新文本覆盖了那个位置的行,所以结果如下:line1Somenicelittlese