html - 用 R 抓取 .asp 网站

ruby - 使用 Nokogiri 从 HTML 获取父元素

我有以下HTML，我想获取文档中的父项。我使用Nokogiri进行解析:j_text="abcpqr>examplefindbyIDzzzznnnnnsfds"我做到了:doc=Nokogiri::HTML(j_text)现在我想要来自HTML文本上方的父元素，即,,,使用Nokogiri，我该怎么做？最佳答案当您在Nokogiri中加载该HTML片段时，它会自动将元素插入到具有嵌套“body”元素的根级“html”元素中。因此，您提供的HTML片段中节点的父级将是“正文”:doc=Nokogiri::HTML(j_text)d

Nokogiri ruby gt lt section

ruby - 使用 open-uri 和 nokogiri 在完全加载之前读取 HTML

我正在使用open-uri和nokogiri以及ruby来进行一些简单的网络爬虫。有一个问题，有时html在完全加载之前就被读取了。在这种情况下，我无法获取加载图标和导航栏以外的任何内容。告诉open-uri或nokogiri等待页面完全加载的最佳方法是什么？目前我的脚本是这样的:require'nokogiri'require'open-uri'url="https://www.the-page-i-wanna-crawl.com"doc=Nokogiri::HTML(open(url,ssl_verify_mode:OpenSSL::SSL::VERIFY_NONE))puts

open-uri nokogiri code section ruby

ruby-on-rails - 在 Rails 中，如何使用字符串数组实现 HTML 选择菜单？

我有一个FinancialDocument#document_type模型属性。我想让用户从由字符串数组填充的HTML选择菜单中选择文档类型...doctypes=['Invoice','Packingslip','Other']对于每个选项，显示的标签和返回的值都是相同的。我查看了select和collection_select助手，但它们似乎适合选择子模型，而不仅仅是一个String值。我找不到如何让它们达到我的目的。这是我正在尝试的方法(我使用的是Haml，而不是Erb)...form_for(@financial_document)do|f|-doctypes=['Invoic

ruby-on-rails Rails code section select ruby

ruby - 在 Ruby 中使用 Nokogiri 解析 HTML

使用此HTML代码:....................如何使用Nokogiri选择类为1的第二个或第三个div？最佳答案您可以使用Ruby将大型结果集缩减为特定项目:page.css('div.one')[1,2]#Twoitemsstartingatindex1(2nditem)page.css('div.one')[1..2]#Itemswithindicesbetween1and2,inclusive因为Ruby索引从零开始，所以你必须注意你想要的项目。或者，您可以使用CSS选择器来查找nthitem:#Second

Nokogiri ruby div code one xpath

ruby-on-rails - 如果 Mechanize 在无响应的网站上等待，我该怎么办？

我注意到当我使用Mechanize获取没有响应的站点时，它只是继续等待。我该如何克服这个问题？最佳答案有几种方法可以处理它。Open-Uri和Net::HTTP有传递超时值的方法，然后告诉底层网络堆栈您愿意等待多长时间。例如，Mechanize允许您在初始化实例时获取其设置，例如:mech=Mechanize.new{|agent|agent.open_timeout=5agent.read_timeout=5}所有这些都在new的文档中，但您必须查看源代码才能了解您可以获得哪些实例变量。或者你可以使用Ruby的timeout模

上等 ruby-on-rails section timeout code ruby mechanize

ruby-on-rails - Rails 3 和 PDFKit，如何将 HTML 文件转换为横向 PDF？

我可以很好地将HTML页面转换为PDF文档。问题是，我不知道如何将HTML文件转换为横向PDF。有没有办法在Controller中设置它？从Controller...defpdf_customer_shipments@customer=Customer.find(params[:id])@shipments=Shipment.where("customer_id=?ANDstatus='Open'",@customer.id)render:layout=>'pdf'end 最佳答案如果这有帮助，我正在使用PDFKit，并且可以使用

ruby-on-rails PDFKit section pdf customer ruby ruby-on-rails-3

ruby-on-rails - 使用 Typheous 手动登录网站

最近我在使用Mechanize来处理这种事情，但我想使用Typhoeus，我已经在其他地方使用了它。我想模仿Mechanize的行为，问题是我想登录到一个站点并以登录用户的身份执行请求。这是脚本的通用版本:require'rubygems'require'typhoeus'GET_URL='http://localhost:3000'POST_URL="http://localhost:3000/admins/sign_in"URL="http://localhost:3000/dashboard"USERNAME_FIELD='admin[email]'PASSWORD_FIELD=

ruby-on-rails Typheous cookie 39 response ruby cookies typhoeus

ruby-on-rails - 如何从 Rails 发送纯文本而不是 HTML 电子邮件？

我想从Rails应用程序发送纯文本电子邮件。在我的邮件发送配置中，我有:ActionMailer::Base.default_content_type='text/plain'尽管如此，当我从Rails控制台发送测试电子邮件时，我得到:>>GeneralAppMailer.deliver_test#...Content-Type:text/html;charset=utf-8在Gmail中查看它，它似乎确实是作为HTML处理的。最佳答案确保您的模板以.text.erb扩展名结尾，而不是.html.erb。参见ActionMail

ruby-on-rails Rails section code stackoverflow ruby email

ruby - 如何从字符串中删除 HTML 编码的字符？

我有一个包含一些HTML编码字符的字符串，我想删除它们:"<div>HiAll,</div><divclass=\"paragraph_break\"></></div><div>StartingtodayweareinitiatingPoLS.</div><divclass=\"paragraph_break\"><br/></div><div>Pleaseusethefollowingcommunicationprotocols:<br/>

ruby HTML amp div lt string html-parsing

ruby-on-rails - Rails 在我的纯文本电子邮件中转义 HTML

我正在使用rails3.2.5ActionMailer发送纯文本邮件。鉴于我有这样的邮件View:message_from_user.text.erb:Hi,Yougotthefollowingmessagefrom:当@message是"quotes&ersands"，那么纯文本邮件包含"quotes&ampersands".所以看起来rails只是将其视为HTMLView并转义任何html以防止跨站点脚本。然而，这是一封纯文本邮件。分机号是.text.erb和ActionMailer检测到这一点并将MIME设置为text/plain.所以我从不想转

ruby-on-rails Rails code encoding template ruby ruby-on-rails-3 actionmailer erb