草庐IT

批量PDF文本提取

全部标签

ruby-on-rails - Rails 4 - 如何链接到 PDF 文件 (name.PDF)?

我正在生成PDF文件,我的链接如下所示::pdf%>当我点击它时,它会将我带到/display_invoice/123456789(这是一个HTML版本)。ControllerAction如下:defdisplay_invoiceifparams[:invoice_number]@invoice=...respond_todo|format|format.htmlformat.pdfdo#renderpdf:'123',#filenamerenderpdf:params[:invoice_number],layout:'layouts/application.pdf.erb'#,#la

ruby - 从用户提交的文本中提取关键字的好方法是什么?

我正在构建一个网站,该网站允许用户通过以图形方式表示支持和反对特定问题的论点来理解辩论。(Wrangl)我想对这些辩论进行分类,以便更容易找到它们并将它们联系起来。我不想让发起辩论的人在他们看到任何好处之前添加标签和类别,从而激怒他们,所以我正在寻找一种自动提取关键字的方法。有什么好的方法可以利用辩论的标题和描述(以及可能的论点本身的内容,一旦有的话)来提取,比如说,可以用作元数据将类似辩论联系在一起的十个强关键字,或者即使是在可以查看辩论的HTML页面头部的“元”关键字标记的内容。例如。DatamappervsActiveRecord该网站使用Ruby和Sinatra编码,使用Dat

ruby - 使用 ruby​​ 解析 PDF 文档

我在一个文件夹中有多个具有特定结构的PDF文档:现在我希望能够解析PDF中的信息。请注意,段落的长度各不相同。显然,我并不是要你为我解决问题,但我确实需要一些关于如何实现这一目标的指导。我以前使用过nokogiri,从技术上讲,我需要类似的东西,但用于PDF。因此我的示例的伪结果如下所示:-ItemA-Title:ItemA-File:123456789.pdf-Image:ImageA.png(theimagewasstoredondisk)-Subtitle1:Contentforsubtitle1-Subtitle2:Contentforsubtitle2-Subtitle3:C

ruby-on-rails - Rails 3 和 PDFKit,如何将 HTML 文件转换为横向 PDF?

我可以很好地将HTML页面转换为PDF文档。问题是,我不知道如何将HTML文件转换为横向PDF。有没有办法在Controller中设置它?从Controller...defpdf_customer_shipments@customer=Customer.find(params[:id])@shipments=Shipment.where("customer_id=?ANDstatus='Open'",@customer.id)render:layout=>'pdf'end 最佳答案 如果这有帮助,我正在使用PDFKit,并且可以使用

ruby-on-rails - 如何从 Rails 发送纯文本而不是 HTML 电子邮件?

我想从Rails应用程序发送纯文本电子邮件。在我的邮件发送配置中,我有:ActionMailer::Base.default_content_type='text/plain'尽管如此,当我从Rails控制台发送测试电子邮件时,我得到:>>GeneralAppMailer.deliver_test#...Content-Type:text/html;charset=utf-8在Gmail中查看它,它似乎确实是作为HTML处理的。 最佳答案 确保您的模板以.text.erb扩展名结尾,而不是.html.erb。参见ActionMail

ruby - 如何使用 bash 命令或 Ruby 使用 ffmpeg 将 mp4 文件批量转换为 ogg

我运行的是OSX,对视频转换一无所知。但我有大约200个视频都是mp4格式,无法在Firefox中播放。我需要将它们转换为ogg才能使用html5视频标签。这些文件位于一个文件夹结构中,这使得一次一个地处理一个文件变得困难。我希望bash命令或Ruby命令遍历所有子文件夹并找到所有.mp4并转换它们。我找到了一份关于如何使用Google执行此操作的引用资料:http://athmasagar.wordpress.com/2011/05/12/a-bash-script-to-convert-mp4-files-to-oggogv/#!/bin/bashforfin$(ls*mp4|se

ruby-on-rails - Rails 在我的纯文本电子邮件中转义 HTML

我正在使用rails3.2.5ActionMailer发送纯文本邮件。鉴于我有这样的邮件View:message_from_user.text.erb:Hi,Yougotthefollowingmessagefrom:当@message是"quotes&ersands",那么纯文本邮件包含"quotes&ampersands".所以看起来rails只是将其视为HTMLView并转义任何html以防止跨站点脚本。然而,这是一封纯文本邮件。分机号是.text.erb和ActionMailer检测到这一点并将MIME设置为text/plain.所以我从不想转

ruby-on-rails - Rails,如何提交带有文本链接的表单?

我正在尝试让此表单正确提交。这是我到目前为止所拥有的:update_user_setting_path,:remote=>true,:html=>{:method=>:post,:class=>"search_formgeneral_form"})do|f|%>按钮用这段代码呈现:SAVE"),:action=>'create'%>我正在使用actioncreate,这是否正确?这是呈现的表单标签:我错过了什么?感谢您的帮助! 最佳答案 不,您没有正确使用link_to。您需要使用submit标签来提交您的表单,而不是link_to

ruby - 通过 Nokogiri 获取可见的文本词

我想用Nokogiri打开一个网页,提取用户在浏览器中访问该页面时看到的所有词,并分析词频。使用nokogiri从html文档中获取所有可读单词的最简单方法是什么?理想的代码片段应该是一个html页面(比如一个文件),并给出一组来自所有类型可读元素的单个单词。(无需担心javascript或css隐藏元素并因此隐藏单词;所有设计用于显示的单词都可以。) 最佳答案 你想要Nokogiri::XML::Node#inner_text方法:require'nokogiri'require'open-uri'html=Nokogiri::H

ruby - 在 Ruby 整数中提取位

我需要在Ruby中获取有符号或无符号整数的第n位。x=123#thatis1111011n=2#bit2is...0以下代码在一般情况下不起作用:x.to_s(2)[-(n+1)]#0good!but...因为负数不表示为2补码:-123.to_s(2)#"-1111011"那么如何进行呢? 最佳答案 x=123#thatis1111011n=2#bit2is...0x[n]#=>0-123[2]#=>1 关于ruby-在Ruby整数中提取位,我们在StackOverflow上找到一个类