批量PDF文本提取

ruby - 是否可以使用 Ruby 将一系列 PDF 合并为一个？

我有一系列按顺序命名的PDF:01_foo.pdf02_bar.pdf03_baz.pdf等等使用Ruby，是否可以将它们组合成一个大PDF，同时保持它们的顺序？我不介意安装任何必要的gem来完成这项工作。如果这在Ruby中是不可能的，那么另一种语言呢？如果可能，不要使用商业组件。更新:JasonNavarrete'ssuggestion导致完美的解决方案:将需要合并的PDF文件与pdftk放在一个目录下(或确保pdftk在您的PATH中)，然后运行以下脚本:pdfs=Dir["[0-9][0-9]_*"].sort.join("")`pdftk#{pdfs}outputcombine

ruby-on-rails - 如何在 ruby on rails 中获取现有 pdf 的总页数？

如何在rails中获取现有pdf的总页数？最佳答案您可以使用pdf-reader(也可用作ruby)。用法很简单reader=PDF::Reader.new("somefile.pdf")putsreader.page_count 关于ruby-on-rails-如何在rubyonrails中获取现有pdf的总页数？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/9276

rails ruby section reader pdf ruby-on-rails

ruby - 正则表达式 - 匹配某些字符后的文本

我想从一些文本中抓取数据并将其转储到一个数组中。将以下文本作为示例数据:|ExampleData|Title:Thisisasampletitle|Content:Thisissamplecontent|Date:12/21/2012我目前正在使用以下正则表达式来抓取“冒号”字符后指定的数据:/((?=:).+)/不幸的是，这个正则表达式也抓取了冒号和冒号后面的空格。如何只抓取数据？此外，我不确定我这样做是否正确..但看起来好像外部括号导致匹配返回数组。这是parens的功能吗？编辑:我正在使用Rubular来测试我的正则表达式最佳答案

ruby 正则表达式 section code 冒号 regex

ruby - 从 cucumber 步骤中提取场景大纲(或读取标签)

如果我的场景是这样开始的:@my-tagScenarioOutline:AdminuserchangesemailGivenIregisterarandomemailaddress...是否可以在单个步骤定义中读取场景大纲文本或@my-tag？例如，在Iregisterarandomemailaddress步骤中，如果它在给定场景或标记值下运行，我想打印调试信息。最佳答案您不能直接从步骤定义中访问该信息。如果您需要该信息，则必须在beforeHook期间捕获它。cucumberv3+下面的beforehook将捕获特征名称、场景

大纲 cucumber scenario description name ruby

ruby - 将 HTML 转换为纯文本(包含 <br>s)

是否可以使用Nokogiri将HTML转换为纯文本？我还想包括标签。例如，给定这个HTML:alamakotaikottoidiota我想要这个输出:alamakotaikottoidiota当我调用Nokogiri::HTML(my_html).text它不包括标签:alamakotaikottoidiota 最佳答案我没有编写复杂的正则表达式，而是使用了Nokogiri。工作解决方案(K.I.S.S!):defstrip_html(str)document=Nokogiri::HTML.parse(str)document.c

amp ruby code section pre nokogiri

ruby - 将数字签名插入现有的 pdf 文件

我需要使用Rails应用程序服务器将数字签名插入到现有的pdf文件中。(基本上，客户端上传pdf文件，服务器用本地证书签名)我一直在使用JSignpdf将数字签名插入pdf文件，并开始探索ruby的gems...我在rubypdf网站上找到了另一个可移植文件来完成这项工作http://soft.rubypdf.com/software/pdf-digital-signe，但在ruby中找不到任何gem甚至示例代码来执行此操作。我也看过DigitalsignatureverificationwithOpenSSL，但无法理解如何使用本地证书文件对现有文档进行实际签名。我也在h

ruby pdf 39 key digital-signature

ruby-on-rails - 解析 URL 以提取域的最佳方法是什么？

这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:RubycodetoextracthostfromURLstring我发现这个模块叫做URI可以解析url。(我是ruby的新手。在这种情况下，“模块”是否与“库”同义？)然后您可以提取主机名。uri=URI.parse("http://www.ruby-lang.org/")...puri.host#=>"www.ruby-lang.org"据此，我想您可以删除“www.”并使用正则表达式保留其他子域。有没有人有更直接的替代方法或者这种方法是否正确？

ruby-on-rails rails section notice ruby regex parsing

ruby - 使用 Ruby 填写 PDF 表单

我正在尝试使用ruby以编程方式填写pdf。pdf包含允许输入文本的字段:我过去通过pdf_formgem使用pdftk取得了成功，但是它没有找到这个特定pdf中的字段:$pry[1]pry(main)>require'pdf_forms'=>true[2]pry(main)>pdftk=PdfForms.new('/usr/local/bin/pdftk')=>#[3]pry(main)>pdftk.get_field_names('designation.pdf')=>[]如何使用ruby填写pdf？最佳答案 PdfT

ruby noreferrer section noopener pdf pdftk

ruby-on-rails - Prawn pdf附件在邮件中

在我的Rails应用程序中，我尝试将发票附加到电子邮件中:definvoice(invoice)attachment:content_disposition=>"attachment",:body=>InvoicePdf.new(invoice),:content_type=>"application/pdf",:filename=>'invoice.pdf'mail(:to=>@user.email,:subject=>"YourInvoice")endInvoicePdf是一个PrawnPDF文档:classInvoicePdf我在电子邮件中没有收到附件。我究竟做错了什么？任何提示

ruby-on-rails Prawn invoice strong InvoicePdf ruby

ruby-on-rails - 如何将字符串插入文本文件

我有一个配置文件，我想在其中添加一个字符串，例如像那样:line1line2line3line4新字符串不应该被追加，而是写在文件中间的某个地方。因此，我在文件中寻找特定位置(或字符串)，找到后，我插入新字符串:file=File.open(path,"r+")while(!file.eof?)line=file.readlineif(line.downcase.starts_with?("line1"))file.write("Somenicelittlesentence")endend问题是Ruby用新文本覆盖了那个位置的行，所以结果如下:line1Somenicelittlese

ruby-on-rails rails line code section ruby