robot_hunt_maze

seo - 使用通配符禁止 robots.txt 中的特定文件夹

我可以使用通配符对爬虫隐藏特定文件夹吗？User-agent:*Disallow:/system/Disallow:/v*我想隐藏所有以“v”字符开头的文件夹。它会这样工作吗？最佳答案为此您根本不需要通配符。您的示例可以工作，但如果没有通配符，它也能正常工作。尾随通配符没有任何用处。例如，这个:Disallow:/x表示:“阻止任何以‘/x’开头，后跟零个或多个字符的路径。”还有这个:Disallow:/x*表示:“阻止任何以‘/x’开头，后跟零个或多个字符，再后跟零个或多个字符的路径。”这是多余的，它会阻止第一个阻止的所有

robots seo section 后跟 code search-engine robots.txt google-crawlers

seo - 禁止 robots.txt 中特定 url 中的所有参数

我想禁止特定网址中的所有参数。如果我添加这条规则:Disallow:/*?*它适用于所有url我想做什么:Disallow:/my-specific-url/*?*但根据Google网站管理员工具，此规则不起作用。最佳答案您的示例看起来应该可以正常工作，但您确实需要包含User-agent行。以下robots.txt文件:User-agent:*Disallow:/my-specific-url/*?*将阻止以下URL:http://example.com/my-specific-url/?http://example.com/

robots seo code my-specific-url section robots.txt

seo - 在 robots.txt 文件中使用 noodp 元标记

是否可以将SEO标签(例如“noodp”)添加到robots.txt文件而不是使用标签？我试图避免弄乱我们的CMS模板，尽管我怀疑我可能不得不...我可以尝试类似的东西吗...User-Agent:*Disallow:/hiddenSitemap:www.example.comnoodp:我认为robots.txt优先于元标记？例如，对于noindex，爬虫甚至不会看到有问题的页面。然而，对于像noodp这样的东西，情况仍然如此吗？最佳答案您不能使用robots.txt执行此操作，但使用theX-Robots-Tagrespon

robots noodp section X-Robots-Tag seo robots.txt meta googlebot

seo - Robots.txt，加密字符？不允许 :/azr94v2hh2lg/

有人知道这是什么吗？我在我的robots.txt中找到了这个。这是某种加密字符吗？Disallow:/azr94v2hh2lg/ 最佳答案 Isthissomekindofencryptedcharacters?不，robots.txt不支持加密。显然，它的目的是成为一个不存在的URL，以抵消一些网络爬虫在多年前就应该出现的错误。我不知道这个的原始来源是什么，它完全有可能不再在线，但这里有一个关于这个问题的来源，它反过来引用了另一个似乎不再有这个内容的网站。摘自http://seoserviceguide.com/what-is-i

Robots v2hh section code blockquote seo robots.txt

codeigniter - robots.txt 是否会阻止 Google 将我的网站或 CodeIgniter 使用的文件编入索引？

我有一个用CodeIgniter构建的网站，我正在尝试使用Google的网站管理员工具，它告诉我设置一个robots.txt文件。我希望谷歌索引整个网站，但不一定是组成该网站的文件。所以我不想很好地查看/system/文件或/application/config/文件，但我确实希望每个页面都被索引。我应该列出Google不索引的每个文件，还是告诉它全部索引或告诉它什么都不索引？谢谢! 最佳答案 Google只会看到您网站提供的页面/URL。因此，您不会阻止文件，而是阻止页面。因此，您的robots.txt应该包含您不想编入索引的网址

编入 codeigniter section Google seo

seo - 如何使用 robots.txt 文件禁止登陆页面？

我想开始在营销事件中使用特定的着陆页。在谷歌上快速搜索显示如何使用robots.txt文件禁止特定页面和/或目录。(link)如果我不希望搜索引擎将这些着陆页编入索引，我应该在robot.txt文件中放置一个页面条目，还是应该将它们放在特定目录中并禁止该目录？我担心的是，任何人都可以阅读robots.txt文件，如果在robots.txt文件中可以看到实际的页面名称，那就达不到目的了。最佳答案 “它违背了目的。”为何如此？robots.txt的目的是防止爬虫读取特定文件或文件组。就爬虫的行为而言，无论是排除单个文件还是将它们全部放

robots seo 爬虫 section robots.txt

seo - 当我有一个 robots.txt 时，我应该删除 meta-robots (index, follow) 吗？

如果我想让搜索引擎遵循我的robots.txt规则，我有点困惑是否应该删除robots元标记。如果页面上存在机器人元标记(索引、跟随)，搜索引擎是否会忽略我的robots.txt文件并在我的robots.txt中索引指定的不允许的URL？我问这个问题的原因是，搜索引擎(主要是Google)仍在索引我网站上不允许的页面。最佳答案如果搜索引擎的漫游器支持您的robots.txt，而您禁止抓取/foo，那么漫游器将永远不会抓取URL路径以/foo开头的页面.因此，机器人永远不会知道有meta-robots元素。相反，这意味着如果您想禁

robots meta-robots code section seo meta-tags robots.txt