我构建了一个tool它利用EmberJS和GitHubPages创建一个在浏览器中呈现的博客应用程序。它使用JavaScript获取Markdown文件并将它们呈现到应用程序的主体中。因为所有内容都是通过AJAX请求获取的,所以我不确定使内容可被Google等抓取的最佳方法。我已经readmanyarticles这建议使用PhantomJS来处理_escaped_fragment_请求,但由于内容托管在GitHub上,因此无法在服务器端运行任何内容。对此是否有可能的解决方法(例如在将内容推送到GitHub之前提前呈现某些内容)或者我只是遇到了JavaScript应用程序的缺点?
我想将我的网站提交给Google。抓取网站上的新帖子需要多长时间?还有,有没有办法在帖子创建后立即将此帖子提供给Google抓取工具? 最佳答案 Google通过三种方式将网站输入到其结果中-发现、抓取、索引。为了“发现”您的网站,必须让网站知道它的存在——通常是通过反向链接。如果您的网站是全新的,您可以使用submitURLform-但这并不是真正值得信赖的方法。你最好注册一个GoogleWebmasterTools帐户并提交您的网站。另一个步骤是提交您站点的XML站点地图。如果您以博客/发布的方式发布到您的网站-您可以随时考虑P
我一直认为AJAX驱动的内容对搜索引擎是不可见的。(即通过XMLHTTPRequest将内容插入到DOM中)例如,在这个站点中,浏览器通过AJAX请求加载主要内容:http://www.trustedsource.org/query/terra.cl...如果您在禁用Javascript的情况下查看此页面,主要内容区域将空白。但是,Google缓存会在AJAX加载后显示完整内容:http://74.125.155.132/search?q=cache:JqcT6EVDHBoJ:www.trustedsource.org/query/terra.cl+http://www.trusted
对于SEO,我的任务是为所有外部链接添加rel="nofollow"*。将rel="nofollow"添加到每个外部链接的最简单且最不引人注目的方法是使用一些jQuery。我做得很好,但我现在想知道:Google是否看到在jQuery文档加载到DOM期间所做的更改(例如这个),还是它只看到原始源代码?我不想讨论为什么这是个坏主意。这是SEO顾问的决定,我了解到,除非实现他们最新的突发奇想需要花费太多时间来满足他们的需求 最佳答案 看起来Googlespider确实执行了一些JavaScript,但我不相信它会执行像jQuery这样的
如果我的论坛站点有大量线程,搜索引擎机器人每次都会抓取整个站点吗?假设我的站点中有超过1,000,000个线程,每次机器人抓取我的站点时它们都会被抓取吗?或者它是如何工作的?我希望我的网站被编入索引,但我不希望机器人杀死我的网站!换句话说,我不希望机器人每次抓取我的网站时都一次又一次地抓取旧线程。另外,之前爬取的页面呢?机器人每次抓取我的网站时都会请求它们以确保它们仍在网站上吗?我问这个是因为我只链接到最新的线程,即有一个包含所有最新线程列表的页面,但我没有链接到旧线程,它们必须通过URL明确请求,例如http://example.com/showthread.aspx?threadi
有没有办法从搜索引擎抓取中排除ControllerAction?有没有MVC动词(Attribute),可以加在action名称上面?我想从搜索引擎抓取中排除以下网址Home/Secret?type=1但是我希望这个可以被搜索引擎抓取Home/Search 最佳答案 我认为您需要动态生成一个robots.txt文件。您应该创建一个RobotController来提供robots.txt文件。CheckReferenceHere与上述链接相关的是一个关于允许.txt扩展名由操作提供服务的问题:https://stackoverflow
我想让我的GWT-App可以被google机器人抓取。我找到了这篇文章(https://developers.google.com/webmasters/ajax-crawling/)。它指出应该有一个servlet过滤器,它提供与googlebot不同的View。但这怎么行呢?例如,如果我使用Activity和地点模式,那么页面更改仅在客户端发生并且不涉及servlet->servlet过滤器在这里不起作用。有人可以给我解释一下吗?或者是否有另一个针对gwt如何执行此操作的好教程? 最佳答案 如果您使用Activities&Pla
我正在阅读有关ajax抓取的google规范;我理解这个概念,但我需要更多说明:我的网址都是这样的:http://www.website.com/#!/eng/homehttp://www.website.com/#!/eng/contacts...我必须在这些地址提供html快照:http://www.website.com/?_escaped_fragment_=/eng/homehttp://www.website.com/?_escaped_fragment_=/eng/contacts...这是正确的吗?或者我应该删除“escaped_fragment”URL中的“/”(例如
Google刚刚完成(我现在看到页面刷新在我面前)JavaScript索引。这很酷,因为我不再需要我所有的工具了。Google现在将执行JavaScript-SEOJavaScript问题已解决。到目前为止-太棒了。但是,我有一堆页面是为旧的!#片段方案创建的。到目前为止,这些页面已被编入索引,我打算继续为旧的(IE7-)浏览器提供服务。较新的SPA页面包含更多图形信息和更少文本信息。有什么方法可以选择GoogleBot是使用旧的_escaped_fragment_=还是使用JavaScript的新方法来索引url?根据这一变化,我是否需要对现有应用进行任何调整?
Facebook的网络爬虫机器人是否尊重Crawl-delay:robots.txt文件中的指令? 最佳答案 不,它不尊重robots.txt与这里的其他答案相反,facebookexternalhit的行为就像最卑鄙的爬虫。当它以疯狂的速度遍历每一个时,无论它从爬行还是从点赞按钮获得它请求的url都无关紧要。有时我们每秒会获得数百次点击,因为它几乎遍历了我们网站上的每个网址。它每次都会杀死我们的服务器。有趣的是,当这种情况发生时,我们可以看到Googlebot放慢速度并等待事情稳定下来,然后再慢慢恢复。另一方面,facebooke