草庐IT

javascript - html5mode(true) 是否影响谷歌搜索爬虫

coder 2024-07-28 原文

我正在阅读 this specification这是网络服务器和搜索引擎爬虫之间的协议(protocol),允许动态创建的内容对爬虫可见。 那里指出,为了让爬虫索引 html5 应用程序,必须在 URL 中使用 #! 实现路由。在 Angular html5mode(true) 中,我们去掉了 URL 的散列部分。我想知道这是否会阻止抓取工具将我的网站编入索引。

最佳答案

简短回答 - 不,html5mode 不会弄乱您的索引,但请继续阅读。


重要说明:Google 和 Bing 都可以在没有 HTML 快照的情况下抓取基于 AJAX 的内容

我知道,您链接到的文档另有说明,但大约一两年前,他们正式宣布他们处理 AJAX 内容不需要 HTML 快照,只要您使用 pushstates,但是很多文档都是旧的,不幸的是没有更新。

使用推送状态的 SEO

AJAX 抓取开箱即用的要求是您正在使用 pushstates 更改您的 url。这正是 Angular 中的 html5mode 所做的(以及许多其他框架所做的)。当 pushstates 开启时,爬虫将等待 ajax 调用完成并等待 javascript 在索引页面之前更新页面。您甚至可以更新路由器中的页面标题甚至元标记等内容,它会正确索引。从本质上讲,您不需要做任何事情,在这种情况下,服务器端和客户端呈现的网站之间没有区别。

需要明确的是,许多 SEO 分析工具(例如 Moz)会在使用 pushstates 的页面上发出警告。那是因为这些工具(以及他们的代表,如果您与他们交谈)在撰写本文时还不是最新的,所以请忽略它们。

最后,确保您在执行此操作时使用下面的片段元标记。如果你有那个标签,爬虫会认为你想使用非 pushstates 方法,事情可能会变得一团糟。

没有推送状态的 SEO

没有什么理由不在 Angular 中使用 pushstates,但如果您不这样做,则需要遵循问题中链接的指南。简而言之,您在服务器上创建 html 的快照,然后使用片段元标记将您的 url 片段更改为“#!”而不是“#”。

<meta name="fragment" content="!" />

当爬虫找到这样的页面时,它会删除 url 的片段部分,而是使用参数 _escaped_fragment_ 请求 url,您可以提供您的快照页面作为响应。为爬虫提供一个正常的静态页面以进行索引。

请注意,只有在您想要触发此行为时才应使用片段元标记。如果您正在使用 pushstates 并希望页面以这种方式编制索引,请不要使用此标记。

此外,在 Angular 中使用快照时,您可以启用 html5 模式。在 html5mode 中,片段是隐藏的,但它在技术上仍然存在,并且仍然会触发相同的行为,假设片段元标记已设置。

警告 - Facebook 爬虫

虽然 Google 和 Bing 都可以毫无问题地抓取您的 AJAX 页面(如果您使用的是 pushstates),但 Facebook 不会。 Facebook 不理解 ajax 内容并且仍然需要特殊的解决方案,例如专门为 facebook 机器人提供的 html 快照(用户代理 facebookexternalhit/1.1)。


编辑 - 我应该提一下,我已经部署了所有这些版本的网站。既有 html5 模式、片段元标记和快照,也没有任何快照,仅依赖 pushstate-crawling。一切正常,除了上面提到的 pushstates 和 Facebook。

关于javascript - html5mode(true) 是否影响谷歌搜索爬虫,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31437815/

有关javascript - html5mode(true) 是否影响谷歌搜索爬虫的更多相关文章

  1. ruby - 使用 ruby​​ 将 HTML 转换为纯文本并维护结构/格式 - 2

    我想将html转换为纯文本。不过,我不想只删除标签,我想智能地保留尽可能多的格式。为插入换行符标签,检测段落并格式化它们等。输入非常简单,通常是格式良好的html(不是整个文档,只是一堆内容,通常没有anchor或图像)。我可以将几个正则表达式放在一起,让我达到80%,但我认为可能有一些现有的解决方案更智能。 最佳答案 首先,不要尝试为此使用正则表达式。很有可能你会想出一个脆弱/脆弱的解决方案,它会随着HTML的变化而崩溃,或者很难管理和维护。您可以使用Nokogiri快速解析HTML并提取文本:require'nokogiri'h

  2. ruby - 如何为 emacs 安装 ruby​​-mode - 2

    我刚刚为fedora安装了emacs。我想用emacs编写ruby。为ruby​​提供代码提示、代码完成类型功能所需的工具、扩展是什么? 最佳答案 ruby-mode已经包含在Emacs23之后的版本中。不过,它也可以通过ELPA获得。您可能感兴趣的其他一些事情是集成RVM、feature-mode(Cucumber)、rspec-mode、ruby-electric、inf-ruby、rinari(用于Rails)等。这是我当前用于Ruby开发的Emacs配置:https://github.com/citizen428/emacs

  3. ruby-on-rails - Rails HTML 请求渲染 JSON - 2

    在我的Controller中,我通过以下方式在我的index方法中支持HTML和JSON:respond_todo|format|format.htmlformat.json{renderjson:@user}end在浏览器中拉起它时,它会自然地以HTML呈现。但是,当我对/user资源进行内容类型为application/json的curl调用时(因为它是索引方法),我仍然将HTML作为响应。如何获取JSON作为响应?我还需要说明什么? 最佳答案 您应该将.json附加到请求的url,提供的格式在routes.rb的路径中定义。这

  4. ruby-on-rails - 使用 Sublime Text 3 突出显示 HTML 背景语法中的 ERB? - 2

    所以我在关注Railscast,我注意到在html.erb文件中,ruby代码有一个微弱的背景高亮效果,以区别于其他代码HTML文档。我知道Ryan使用TextMate。我正在使用SublimeText3。我怎样才能达到同样的效果?谢谢! 最佳答案 为SublimeText安装ERB包。假设您安装了SublimeText包管理器*,只需点击cmd+shift+P即可获得命令菜单,然后键入installpackage并选择PackageControl:InstallPackage获取包管理器菜单。在该菜单中,键入ERB并在看到包时选择

  5. ruby-on-rails - Ruby url 到 html 链接转换 - 2

    我正在使用Rails构建一个简单的聊天应用程序。当用户输入url时,我希望将其输出为html链接(即“url”)。我想知道在Ruby中是否有任何库或众所周知的方法可以做到这一点。如果没有,我有一些不错的正则表达式示例代码可以使用... 最佳答案 查看auto_linkRails提供的辅助方法。这会将所有URL和电子邮件地址变成可点击的链接(htmlanchor标记)。这是文档中的代码示例。auto_link("Gotohttp://www.rubyonrails.organdsayhellotodavid@loudthinking.

  6. ruby-on-rails - capybara ::ElementNotFound:无法找到 xpath "/html" - 2

    我正在学习http://ruby.railstutorial.org/chapters/static-pages上的RubyonRails教程并遇到以下错误StaticPagesHomepageshouldhavethecontent'SampleApp'Failure/Error:page.shouldhave_content('SampleApp')Capybara::ElementNotFound:Unabletofindxpath"/html"#(eval):2:in`text'#./spec/requests/static_pages_spec.rb:7:in`(root)'

  7. ruby - 如何使用 Ruby 将 CSV 文件读入 HTML 表格? - 2

    我正在尝试将一个简单的CSV文件读入HTML表格以在浏览器中显示,但我遇到了麻烦。这就是我正在尝试的:Controller:defshow@csv=CSV.open("file.csv",:headers=>true)end查看:输出:NameStartDateEndDateQuantityPostalCode基本上我只获取标题,而不会读取和呈现CSV正文。 最佳答案 这最终成为最终解决方案:Controller:defshow#OpenaCSVfile,andthenreaditintoaCSV::Tableobjectforda

  8. ruby - 使用 Ruby,计算 n x m 数组的每一列中有多少个 true 的简单方法是什么? - 2

    给定一个nxmbool数组:[[true,true,false],[false,true,true],[false,true,true]]有什么简单的方法可以返回“该列中有多少个true?”结果应该是[1,3,2] 最佳答案 使用转置得到一个数组,其中每个子数组代表一列,然后将每一列映射到其中的true数:arr.transpose.map{|subarr|subarr.count(true)}这是一个带有inject的版本,应该在1.8.6上运行,没有任何依赖:arr.transpose.map{|subarr|subarr.in

  9. ruby - 如何使用 Nokogiri 解析纯 HTML 表格? - 2

    我想用Nokogiri解析HTML页面。页面的一部分有一个表,它没有使用任何特定的ID。是否可以提取如下内容:Today,3,455,34Today,1,1300,3664Today,10,100000,3444,Yesterday,3454,5656,3Yesterday,3545,1000,10Yesterday,3411,36223,15来自这个HTML:TodayYesterdayQntySizeLengthLengthSizeQnty345534345456563113003664354510001010100000344434113622315

  10. ruby-on-rails - 使用 javascript 更改数据方法不会更改 ajax 调用用户的什么方法? - 2

    我遇到了一个非常奇怪的问题,我很难解决。在我看来,我有一个与data-remote="true"和data-method="delete"的链接。当我单击该链接时,我可以看到对我的Rails服务器的DELETE请求。返回的JS代码会更改此链接的属性,其中包括href和data-method。再次单击此链接后,我的服务器收到了对新href的请求,但使用的是旧的data-method,即使我已将其从DELETE到POST(它仍然发送一个DELETE请求)。但是,如果我刷新页面,HTML与"new"HTML相同(随返回的JS发生变化),但它实际上发送了正确的请求类型。这就是这个问题令我困惑的

随机推荐