草庐IT

批量PDF文本提取

全部标签

ruby-on-rails - 如何在通过 Rails Controller 检索的浏览器中呈现 PDF

我有一个使用Recurly的Rails应用程序.我正在尝试下载PDF并在浏览器中呈现它。我目前有一个链接:link_to'Download',get_invoice_path(:number=>invoice.invoice_number)关联的Controller具有如下所示的get_invoice方法:defget_invoicebegin@pdf=Recurly::Invoice.find(params[:number],:format=>'pdf')rescueRecurly::Resource::NotFound=>eflash[:error]='Invoicenotfoun

ruby - 在 Nokogiri 的所有标签之间抓取文本?

抓取html标签之间所有文本的最有效方法是什么?hi....一堆被html标签包围的文本。 最佳答案 doc=Nokogiri::HTML(your_html)doc.xpath("//text()").to_s 关于ruby-在Nokogiri的所有标签之间抓取文本?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/1512850/

ruby - 使用 axlsx 电子表格 ruby​​ gem 将单元格格式化为文本?

我正在使用axlsxrubygem创建与Excel兼容的.xlsx文件。我不知道如何覆盖由它的自动类型检测生成的单元格类型。对于string类型的ActiveRecord模型属性,gem将Excel单元格格式设置为常规,但我希望它明确使用文本。这样我就可以避免从邮政编码等中去除前导零。有人知道如何实现吗? 最佳答案 您可以使用添加行上的类型选项覆盖数据类型。类似于:worksheet.add_row['0012342'],:types=>[:string]如果你需要任何帮助让它工作,请在irc(JST)上联系我。最佳随机数编辑--我

ruby-on-rails - 如何使用 RMagick 和 Ruby 将 PDF 文件转换为图像

我想获取一个PDF文件并将其转换为图像,每个PDF页面成为一个单独的图像。“Converta.docor.pdftoanimageanddisplayathumbnailinRuby?”是一个类似的帖子,但它没有介绍如何为每个页面制作单独的图像。 最佳答案 使用RMagick本身,您可以为不同的页面创建图像:require'RMagick'pdf_file_name="test.pdf"im=Magick::Image.read(pdf_file_name)上面的代码会给你一个数组arr[],它有一个对应页面的条目。如果要生成第五页

ruby-on-rails - Rails 上的 Pubsubhubbub。如何从 POST 请求中提取原始 POST 正文内容?

我在使用Rails设置支持pubsub的订阅者应用程序时遇到问题。我目前已经订阅了开放式集线器pubsubhubbub.appspot.com,并且正在接收到我的应用程序端点的ping。(截至目前,我已经创建了一个计数器,每次对端点执行ping操作时该计数器都会递增)。但我无法理解如何从POST中提取原始POST正文内容。我是pubsub的新手,很想尝试一下。我看到了这篇博文,但它不是特定于语言的。资料来源:JosephSmarr:实现PubSubHubbub订户支持:分步指南。http://josephsmarr.com/2010/03/01/implementing-pubsubh

ruby - 模糊文档匹配/文本指纹识别的最佳库

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。关闭2个月前。Improvethisquestion我正在考虑构建一个API,让程序可以提交学术出版物的“指纹”,将其与开放获取期刊的文章数据库进行匹配,如果找到,则向用户发送规范的引文信息。最初这将针对一个特定的小型研究领域,因此不一定需要处理2000万篇论文才能成功(即使涵盖了该领域1000篇最常被引用的论文,这对生产力来说也是一个巨大的福音和协作)。我想知道哪个库(理想情况下能够与Ruby交互)最适合执行此“指

ruby-on-rails - 将外部 PDF 插入到 Prawn 生成的文档中

如何将现有的PDF插入到Prawn生成的文档中?我正在为账单生成pdf(作为View),该账单可以有很多附件(png、jpg或pdf)。如何在生成的文档中插入/嵌入/包含这些外部pdf附件?我已经阅读了手册,查看了源代码,并在网上进行了搜索,但到目前为止还没有成功。我发现的最接近的提示是使用ImageMagick或类似的东西将pdf转换为另一种格式,但由于我不需要调整文档的大小/操作文档,这似乎很浪费。旧的方法似乎是通过模板,但我的理解是模板代码不稳定。有谁知道如何在Prawn生成的PDF中包含PDF页面?如果Prawn不会这样做,您知道有任何补充gem可以吗?如果有人可以向我指出类似

ruby - 从文件中提取快速傅里叶变换数据

我正在构建一个应该在服务器上运行并分析声音文件的工具。我想在Ruby中执行此操作,因为我的所有其他工具也是用Ruby编写的。但我很难找到完成此任务的好方法。我发现的很多例子都是在做可视化和图形化的东西。我只需要FFT数据,仅此而已。我既需要获取音频数据,又需要对其进行FFT。我的最终目标是计算一些东西,例如所有频率(加权幅度)的均值/中值/众数、第25个百分位数和第75个百分位数、BPM,也许还有其他一些好的特性,以便以后能够将相似的声音聚集在一起.首先,我尝试使用ruby-audio和fftw3,但我从未将两者真正结合使用。文档也不好,所以我真的不知道有什么数据被洗牌了。接下来,我尝

ruby - 如何通过正则表达式查找括号内的文本,但有一些异常(exception)?

我有一个正则表达式/^\[(text:\s*.+?\s*)\]/mi目前可以捕获以text开头的括号中的文本:。以下是它的工作示例:[text:hereismytextthatiscapturedwithinthebrackets.]现在,我想添加一个异常(exception),以便它允许某些括号,如下例所示:[text:hereismytextthatiscapturedwithinthebracketsandalsoinclude![](/some/path)]基本上,我需要它允许匹配中的![](/some/path)括号。如有任何帮助,我们将不胜感激。谢谢。更新:下面是括号内的文

ruby - 如何在ruby中批量重命名文件

我一直在尝试编写一个基于ruby的文件重命名程序,作为我自己的编程练习(我知道linux下有rename,但我想学习Ruby,而rename在Mac中没有)。从下面的代码来看,问题是.include?方法总是返回false,即使我看到文件名包含这样的搜索模式。如果我注释掉include?检查,gsub()似乎根本不会生成新文件名(即文件名保持不变)。那么有人可以看看我做错了什么吗?提前致谢!这是预期的行为:假设当前文件夹下有三个文件:a1.jpg、a2.jpg、a3.jpgRuby脚本应该可以将其重命名为b1.jpg、b2.jpg、b3.jpg#!/Users/Antony/.rvm/