抓取_草庐IT

seo - 我在哪里可以了解搜索引擎抓取和 SEO？

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭5年前。Improvethisquestion我问过Whatshouldiknowaboutsearchenginecrawling?现在我想知道在哪里可以了解搜索引擎和搜索引擎优化？我不想阅读许多与另一篇说同样事情的文章，而是想阅读一本书或资源并找到我需要知道的一切。

search - 谷歌如何实时抓取某些网站？

关闭。这个问题是off-topic.它目前不接受答案。想改进这个问题吗？Updatethequestion所以它是on-topic用于堆栈溢出。关闭13年前。Improvethisquestion我在codeplex上发布了一个源代码，令我惊讶的是它在13小时内就出现在了谷歌上。此外，当我在codeplex上对我的帐户进行一些更改时，这些更改会在几分钟内反射(reflect)在谷歌上。那是怎么发生的？谷歌是否特别重视Codeplex、Stackoverflow等网站以使其结果快速出现在搜索结果中？是否有一些特殊的步骤可以让谷歌抓取我的网站更快一些，如果不是这么快的话。

ajax - Hashbang URL 使网站难以被 Google 抓取？

我们的机构构建了一个使用大量AJAX交互和#!(hashbang)网址:http://www.gunlawsbystate.com/这是一本很长的书，您可以滚动浏览，地址栏中的URL会动态变化。我们必须支持IE，所以请不要建议使用pushState——hansbang是我们目前唯一的选择。左侧边栏中有一个导航，其中包含指向本书所有章节的链接。链接示例:http://www.gunlawsbystate.com/#!/federal-properety/national-parks-and-wildlife-refuges/我们期待谷歌抓取这个:http://www.gunlawsbys

seo - Google 抓取工具是否在索引之前等待页面完成？

我最近决定使用Polymer库(WebComponents)对我的网站进行编码。基于webcomponents的应用程序/网站的常见结构是将结构封装在类似应用程序的元素中，如下所示:并为属于应用程序的每个自定义元素创建一个文件。Polymer非常有用，也可以用来组织和编程基本的网页或网站。不过我有一个疑问。因为用于微数据引用和索引的所有信息都包含在应用程序主要元素的shadow-dom中，所以任何爬虫只会获取页面并只看到在body里(或者只是我的想象？)。然后istheGooglecrawlercapableofreadingthedom-shadow?换句话说，爬虫是否像真正的用户一

xml - 使用 AJAX 抓取的可搜索动态内容

我正在开发一个新的基于html5的投资组合网站，因此我有一个包含项目信息的xml文件。例如;每个项目的项目名称、日期、描述、位置和预览。像这样；ProjectNameHereSeptember2011www.projecturl.comLoremipsumdolorsitamet,consectetueradipiscingelit.Nuncaauguesedligulatemporfacilisis.Curabiturinelit.Etiamdolorwisi,consequateget,accumsaneu,dignissimnec,est.Morbisedwisineceratf

javascript - google 会抓取 javascript 吗？

关闭。这个问题是off-topic.它目前不接受答案。想改进这个问题吗？Updatethequestion所以它是on-topic用于堆栈溢出。关闭10年前。ImprovethisquestionGoogle是否会抓取通过Javascript加载/创建的内容？传统上我知道答案是否定的，但我很难找到这方面的最新资源。

seo - 如何防止 Googlebot 抓取我的 Underscore 客户端模板？

在Google网站站长工具中，在“抓取错误/其他”下，我们看到400错误的网址如下:/family-tree//这不是真实的网址，也不是我们打算抓取的网址。它是一个Underscore/Backbone模板:/"rel="nofollow">为什么Google在script内部抓取阻止？为什么Google会忽略rel="nofollow"属性？我们还能做些什么来让Googlebot远离我们的Underscore模板？更新:如果我能找到能够保留好页面并阻止坏页面的正确模式，我愿意使用robots.txt。例如，我想保留/surnames/Jones/queries同时阻止/surname

javascript - 如何让 Google 抓取 AngularJS 应用程序正常？

使用html5mode并从url中删除主题标签后的相同网站"youdonotneedtoservedifferentorpre-renderedcontenttoGoogle"说。InGooglewriteajax抓取文档已弃用。其他网站写GooglecancrawlanAngularJSfine.在旧的stackoverflow问题中，解决方案提供了不同的方式。如果您不使用主题标签，您可以将_escaped_fragment_requests放在url末尾，以尝试如何通过Google查看您的网站。我的AngularJS应用程序使用html5模式，不需要主题标签(例如:www.doma

javascript - Googlebot 和其他抓取工具正在点击 javascript 链接

我们在我们的一个应用程序上运行Vue.js，并用它生成anchor标记。谷歌正在抓取这个，正如我们从搜索结果中看到的那样。然而，它也在使用禁用了JavaScript的机器人进行爬行，并遇到如下链接:这会在我们的Laravel应用程序中产生错误，因为它们以以下方式进入我们的网络服务器:/electronica/%7B%7B%20auction.main_image_big%20%7D%7D防止未启用JavaScript的爬虫点击这些链接的最佳方法是什么。将它们重定向到另一个页面？请记住，我们仍然希望Googlebot在启用JavaScript时抓取这些链接，因为这些链接指向我们的所有产品

ajax - 可抓取的 Ajax 内容。没有 hashbang 的 SEO ing。我的方法可以吗？

我将基于ajax构建我的应用程序，我的URL类似于:http://server.com/module/#function_name,param1,param2...etc在引用了一些关于google的建议:hashbang(#!)的讨论后，我不难意识到这不是最好的解决方案。有几个原因:无论如何，该URL非常难看。如果有一天Google(或其他一些搜索引擎)提出一个比hashbang更好的解决方案，那就太糟糕了。我必须用hashbang保留我丑陋的url，或者写一些js代码来使到我的页面的链接仍然有效。HTML5pushState总有一天会流行起来。对于以上所有内容，我决定按照我的方式进