所以我使用 AJAX 调用服务器文件,该文件使用 WordPress 填充 pages 内容并返回。我用它来填充字段。现在我感到困惑的是,我如何创建快照以及我必须做什么才能让谷歌知道我正在创建除了 #! 还有我为什么要这样做? escaped_fragments 有点不清楚,希望我能得到更详细的解释。有没有人有任何教程可以引导您完成与我正在做的类似的这个过程?
大卫
最佳答案
Google 的抓取工具通常不会运行您的 JavaScript。他们访问了您的页面,抓取了您的 HTML,然后继续前进。这比加载页面及其所有资源、运行 JavaScript、猜测所有内容何时加载完毕,然后从 DOM 中抓取数据要高效得多。
如果您的网站使用 AJAX 来填充页面内容,这对 Google 和其他公司来说是个问题。您的页面实际上是空的...没有任何内容...在其 HTML 状态下。它需要您的 JavaScript 来填充它。由于爬虫不运行您的 JavaScript,因此您的页面对爬虫来说并不是那么有用。
如今,有很多网站混合了基于网络的应用程序和内容驱动的网站之间的界限。这些站点(如您的站点)需要运行客户端代码才能获取内容。 Google 没有资源在他们遇到的每个站点上执行此操作,但他们确实提供了一个选项。那是 info you found about escaped anchor fragments .
Google 为您提供了为他们抓取完整 DOM 的机会。他们将运行 JavaScript 的 CPU 和内存负担重新加给了你。您可以通过使用带 #! 的链接向 Google 表示鼓励这样做。 Google 看到了这一点,知道他们可以请求相同的页面,但将 #! 之后的所有内容(未发送到服务器)转换为 ?_escaped_fragment_= 并制作对您的服务器的请求。此时,在 JavaScript 运行后,您的服务器应该生成完整 DOM 的快照。
好消息是,如今您不必破解大量代码即可完成此操作。我已经使用 PhantomJS 编写了一个服务器来执行此操作。 (我正在尝试获得打开源代码的许可,但它处于法律边缘,抱歉!)基本上,PhantomJS 是一个完整的 webkit 网络浏览器,但它运行时没有 GUI。你可以use PhantomJS to load your site ,运行所有 JavaScript,然后在它准备就绪时从页面中抓取 HTML 并将那个版本发送给 Google。这不需要你做任何特殊的事情,除了修复你的路由以在你的快照服务器上使用 _escaped_fragment_ 指向请求。
您可以在大约 20 行代码中完成此操作。 PhantomJS 甚至内置了一个迷你网络服务器,但他们建议不要将其用于生产代码。
我希望这有助于消除一些困惑!
关于php - 为 Google 检索快照 HTML,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25538007/
我想将html转换为纯文本。不过,我不想只删除标签,我想智能地保留尽可能多的格式。为插入换行符标签,检测段落并格式化它们等。输入非常简单,通常是格式良好的html(不是整个文档,只是一堆内容,通常没有anchor或图像)。我可以将几个正则表达式放在一起,让我达到80%,但我认为可能有一些现有的解决方案更智能。 最佳答案 首先,不要尝试为此使用正则表达式。很有可能你会想出一个脆弱/脆弱的解决方案,它会随着HTML的变化而崩溃,或者很难管理和维护。您可以使用Nokogiri快速解析HTML并提取文本:require'nokogiri'h
在我的Controller中,我通过以下方式在我的index方法中支持HTML和JSON:respond_todo|format|format.htmlformat.json{renderjson:@user}end在浏览器中拉起它时,它会自然地以HTML呈现。但是,当我对/user资源进行内容类型为application/json的curl调用时(因为它是索引方法),我仍然将HTML作为响应。如何获取JSON作为响应?我还需要说明什么? 最佳答案 您应该将.json附加到请求的url,提供的格式在routes.rb的路径中定义。这
所以我在关注Railscast,我注意到在html.erb文件中,ruby代码有一个微弱的背景高亮效果,以区别于其他代码HTML文档。我知道Ryan使用TextMate。我正在使用SublimeText3。我怎样才能达到同样的效果?谢谢! 最佳答案 为SublimeText安装ERB包。假设您安装了SublimeText包管理器*,只需点击cmd+shift+P即可获得命令菜单,然后键入installpackage并选择PackageControl:InstallPackage获取包管理器菜单。在该菜单中,键入ERB并在看到包时选择
我正在使用Rails构建一个简单的聊天应用程序。当用户输入url时,我希望将其输出为html链接(即“url”)。我想知道在Ruby中是否有任何库或众所周知的方法可以做到这一点。如果没有,我有一些不错的正则表达式示例代码可以使用... 最佳答案 查看auto_linkRails提供的辅助方法。这会将所有URL和电子邮件地址变成可点击的链接(htmlanchor标记)。这是文档中的代码示例。auto_link("Gotohttp://www.rubyonrails.organdsayhellotodavid@loudthinking.
我正在学习http://ruby.railstutorial.org/chapters/static-pages上的RubyonRails教程并遇到以下错误StaticPagesHomepageshouldhavethecontent'SampleApp'Failure/Error:page.shouldhave_content('SampleApp')Capybara::ElementNotFound:Unabletofindxpath"/html"#(eval):2:in`text'#./spec/requests/static_pages_spec.rb:7:in`(root)'
我正在尝试将一个简单的CSV文件读入HTML表格以在浏览器中显示,但我遇到了麻烦。这就是我正在尝试的:Controller:defshow@csv=CSV.open("file.csv",:headers=>true)end查看:输出:NameStartDateEndDateQuantityPostalCode基本上我只获取标题,而不会读取和呈现CSV正文。 最佳答案 这最终成为最终解决方案:Controller:defshow#OpenaCSVfile,andthenreaditintoaCSV::Tableobjectforda
我试图在我的网站上实现使用Facebook登录功能,但在尝试从Facebook取回访问token时遇到障碍。这是我的代码:ifparams[:error_reason]=="user_denied"thenflash[:error]="TologinwithFacebook,youmustclick'Allow'toletthesiteaccessyourinformation"redirect_to:loginelsifparams[:code]thentoken_uri=URI.parse("https://graph.facebook.com/oauth/access_token
我想用Nokogiri解析HTML页面。页面的一部分有一个表,它没有使用任何特定的ID。是否可以提取如下内容:Today,3,455,34Today,1,1300,3664Today,10,100000,3444,Yesterday,3454,5656,3Yesterday,3545,1000,10Yesterday,3411,36223,15来自这个HTML:TodayYesterdayQntySizeLengthLengthSizeQnty345534345456563113003664354510001010100000344434113622315
考虑一下:现在这些情况:#output:http://domain.com/?foo=1&bar=2#output:http://domain.com/?foo=1&bar=2#output:http://domain.com/?foo=1&bar=2#output:http://domain.com/?foo=1&bar=2我需要用其他字符串输出URL。我如何保证&符号不会被转义?由于我无法控制的原因,我无法发送&。求助!把我的头发拉到这里:\编辑:为了澄清,我实际上有一个像这样的数组:@images=[{:id=>"fooid",:url=>"http://
我正在使用Maruku,将Markdown(超集)转换为HTML,你知道我该怎么做才能从HTML转换为Markdown吗? 最佳答案 Google发现了一个名为reverse_markdown的ruby脚本.它似乎可以满足您的需求。 关于ruby-on-rails-我需要从HTML转到markdown,有什么建议吗?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/175162