抓取

javascript - 在没有后端控制的情况下使 AJAX 应用程序可抓取

我构建了一个tool它利用EmberJS和GitHubPages创建一个在浏览器中呈现的博客应用程序。它使用JavaScript获取Markdown文件并将它们呈现到应用程序的主体中。因为所有内容都是通过AJAX请求获取的，所以我不确定使内容可被Google等抓取的最佳方法。我已经readmanyarticles这建议使用PhantomJS来处理_escaped_fragment_请求，但由于内容托管在GitHub上，因此无法在服务器端运行任何内容。对此是否有可能的解决方法(例如在将内容推送到GitHub之前提前呈现某些内容)或者我只是遇到了JavaScript应用程序的缺点？

search - Google 抓取新页面的速度有多快，我们可以影响 Google 的抓取工具吗？

我想将我的网站提交给Google。抓取网站上的新帖子需要多长时间？还有，有没有办法在帖子创建后立即将此帖子提供给Google抓取工具？最佳答案 Google通过三种方式将网站输入到其结果中-发现、抓取、索引。为了“发现”您的网站，必须让网站知道它的存在——通常是通过反向链接。如果您的网站是全新的，您可以使用submitURLform-但这并不是真正值得信赖的方法。你最好注册一个GoogleWebmasterTools帐户并提交您的网站。另一个步骤是提交您站点的XML站点地图。如果您以博客/发布的方式发布到您的网站-您可以随时考虑P

Google search section noreferrer seo

javascript - 搜索引擎是否可以抓取 AJAX 网站？

我一直认为AJAX驱动的内容对搜索引擎是不可见的。(即通过XMLHTTPRequest将内容插入到DOM中)例如，在这个站点中，浏览器通过AJAX请求加载主要内容:http://www.trustedsource.org/query/terra.cl...如果您在禁用Javascript的情况下查看此页面，主要内容区域将空白。但是，Google缓存会在AJAX加载后显示完整内容:http://74.125.155.132/search?q=cache:JqcT6EVDHBoJ:www.trustedsource.org/query/terra.cl+http://www.trusted

javascript AJAX section trustedsource search seo xmlhttprequest

jquery - Googlebot 会抓取使用 JavaScript 对 DOM 所做的更改吗？

对于SEO，我的任务是为所有外部链接添加rel="nofollow"*。将rel="nofollow"添加到每个外部链接的最简单且最不引人注目的方法是使用一些jQuery。我做得很好，但我现在想知道:Google是否看到在jQuery文档加载到DOM期间所做的更改(例如这个)，还是它只看到原始源代码？我不想讨论为什么这是个坏主意。这是SEO顾问的决定，我了解到，除非实现他们最新的突发奇想需要花费太多时间来满足他们的需求最佳答案看起来Googlespider确实执行了一些JavaScript，但我不相信它会执行像jQuery这样的

JavaScript Googlebot section strong jquery seo web-crawler

seo - 搜索引擎机器人如何抓取论坛？

如果我的论坛站点有大量线程，搜索引擎机器人每次都会抓取整个站点吗？假设我的站点中有超过1,000,000个线程，每次机器人抓取我的站点时它们都会被抓取吗？或者它是如何工作的？我希望我的网站被编入索引，但我不希望机器人杀死我的网站!换句话说，我不希望机器人每次抓取我的网站时都一次又一次地抓取旧线程。另外，之前爬取的页面呢？机器人每次抓取我的网站时都会请求它们以确保它们仍在网站上吗？我问这个是因为我只链接到最新的线程，即有一个包含所有最新线程列表的页面，但我没有链接到旧线程，它们必须通过URL明确请求，例如http://example.com/showthread.aspx?threadi

seo 搜索引擎爬虫 section 例如 search-engine

asp.net-mvc - asp.net mvc 从搜索引擎抓取中排除一个 Action

有没有办法从搜索引擎抓取中排除ControllerAction？有没有MVC动词(Attribute)，可以加在action名称上面？我想从搜索引擎抓取中排除以下网址Home/Secret?type=1但是我希望这个可以被搜索引擎抓取Home/Search 最佳答案我认为您需要动态生成一个robots.txt文件。您应该创建一个RobotController来提供robots.txt文件。CheckReferenceHere与上述链接相关的是一个关于允许.txt扩展名由操作提供服务的问题:https://stackoverflow

中排 asp code 34 namespaceSplit asp.net-mvc asp.net-mvc-3 asp.net-mvc-4 seo

java - 使 GWT 可抓取 (SEO)

我想让我的GWT-App可以被google机器人抓取。我找到了这篇文章(https://developers.google.com/webmasters/ajax-crawling/)。它指出应该有一个servlet过滤器，它提供与googlebot不同的View。但这怎么行呢？例如，如果我使用Activity和地点模式，那么页面更改仅在客户端发生并且不涉及servlet->servlet过滤器在这里不起作用。有人可以给我解释一下吗？或者是否有另一个针对gwt如何执行此操作的好教程？最佳答案如果您使用Activities&Pla

java GWT section google https servlets seo

ember.js - 使 Ember 应用程序可抓取

我正在阅读有关ajax抓取的google规范；我理解这个概念，但我需要更多说明:我的网址都是这样的:http://www.website.com/#!/eng/homehttp://www.website.com/#!/eng/contacts...我必须在这些地址提供html快照:http://www.website.com/?_escaped_fragment_=/eng/homehttp://www.website.com/?_escaped_fragment_=/eng/contacts...这是正确的吗？或者我应该删除“escaped_fragment”URL中的“/”(例如

ember escaped_fragment code fragment ember.js seo web-crawler

javascript - Google SEO 和 _escaped_fragment_ 根据 Google 的抓取变化

Google刚刚完成(我现在看到页面刷新在我面前)JavaScript索引。这很酷，因为我不再需要我所有的工具了。Google现在将执行JavaScript-SEOJavaScript问题已解决。到目前为止-太棒了。但是，我有一堆页面是为旧的!#片段方案创建的。到目前为止，这些页面已被编入索引，我打算继续为旧的(IE7-)浏览器提供服务。较新的SPA页面包含更多图形信息和更少文本信息。有什么方法可以选择GoogleBot是使用旧的_escaped_fragment_=还是使用JavaScript的新方法来索引url？根据这一变化，我是否需要对现有应用进行任何调整？

Google escaped_fragment JavaScript section seo web-crawler googlebot

Robots.txt 中的 Facebook 和抓取延迟？

Facebook的网络爬虫机器人是否尊重Crawl-delay:robots.txt文件中的指令？最佳答案不，它不尊重robots.txt与这里的其他答案相反，facebookexternalhit的行为就像最卑鄙的爬虫。当它以疯狂的速度遍历每一个时，无论它从爬行还是从点赞按钮获得它请求的url都无关紧要。有时我们每秒会获得数百次点击，因为它几乎遍历了我们网站上的每个网址。它每次都会杀死我们的服务器。有趣的是，当这种情况发生时，我们可以看到Googlebot放慢速度并等待事情稳定下来，然后再慢慢恢复。另一方面，facebooke

Facebook Robots section facebookexternalhit 爬虫 seo robots.txt

30 31 323334 35 36