草庐IT

robot_hunt_maze

全部标签

seo - 使用通配符禁止 robots.txt 中的特定文件夹

我可以使用通配符对爬虫隐藏特定文件夹吗?User-agent:*Disallow:/system/Disallow:/v*我想隐藏所有以“v”字符开头的文件夹。它会这样工作吗? 最佳答案 为此您根本不需要通配符。您的示例可以工作,但如果没有通配符,它​​也能正常工作。尾随通配符没有任何用处。例如,这个:Disallow:/x表示:“阻止任何以‘/x’开头,后跟零个或多个字符的路径。”还有这个:Disallow:/x*表示:“阻止任何以‘/x’开头,后跟零个或多个字符,再后跟零个或多个字符的路径。”这是多余的,它会阻止第一个阻止的所有

seo - 禁止 robots.txt 中特定 url 中的所有参数

我想禁止特定网址中的所有参数。如果我添加这条规则:Disallow:/*?*它适用于所有url我想做什么:Disallow:/my-specific-url/*?*但根据Google网站管理员工具,此规则不起作用。 最佳答案 您的示例看起来应该可以正常工作,但您确实需要包含User-agent行。以下robots.txt文件:User-agent:*Disallow:/my-specific-url/*?*将阻止以下URL:http://example.com/my-specific-url/?http://example.com/

seo - 在 robots.txt 文件中使用 noodp 元标记

是否可以将SEO标签(例如“noodp”)添加到robots.txt文件而不是使用标签?我试图避免弄乱我们的CMS模板,尽管我怀疑我可能不得不...我可以尝试类似的东西吗...User-Agent:*Disallow:/hiddenSitemap:www.example.comnoodp:我认为robots.txt优先于元标记?例如,对于noindex,爬虫甚至不会看到有问题的页面。然而,对于像noodp这样的东西,情况仍然如此吗? 最佳答案 您不能使用robots.txt执行此操作,但使用theX-Robots-Tagrespon

seo - Robots.txt,加密字符?不允许 :/azr94v2hh2lg/

有人知道这是什么吗?我在我的robots.txt中找到了这个。这是某种加密字符吗?Disallow:/azr94v2hh2lg/ 最佳答案 Isthissomekindofencryptedcharacters?不,robots.txt不支持加密。显然,它的目的是成为一个不存在的URL,以抵消一些网络爬虫在多年前就应该出现的错误。我不知道这个的原始来源是什么,它完全有可能不再在线,但这里有一个关于这个问题的来源,它反过来引用了另一个似乎不再有这个内容的网站。摘自http://seoserviceguide.com/what-is-i

codeigniter - robots.txt 是否会阻止 Google 将我的网站或 CodeIgniter 使用的文件编入索引?

我有一个用CodeIgniter构建的网站,我正在尝试使用Google的网站管理员工具,它告诉我设置一个robots.txt文件。我希望谷歌索引整个网站,但不一定是组成该网站的文件。所以我不想很好地查看/system/文件或/application/config/文件,但我确实希望每个页面都被索引。我应该列出Google不索引的每个文件,还是告诉它全部索引或告诉它什么都不索引?谢谢! 最佳答案 Google只会看到您网站提供的页面/URL。因此,您不会阻止文件,而是阻止页面。因此,您的robots.txt应该包含您不想编入索引的网址

seo - 如何使用 robots.txt 文件禁止登陆页面?

我想开始在营销事件中使用特定的着陆页。在谷歌上快速搜索显示如何使用robots.txt文件禁止特定页面和/或目录。(link)如果我不希望搜索引擎将这些着陆页编入索引,我应该在robot.txt文件中放置一个页面条目,还是应该将它们放在特定目录中并禁止该目录?我担心的是,任何人都可以阅读robots.txt文件,如果在robots.txt文件中可以看到实际的页面名称,那就达不到目的了。 最佳答案 “它违背了目的。”为何如此?robots.txt的目的是防止爬虫读取特定文件或文件组。就爬虫的行为而言,无论是排除单个文件还是将它们全部放

seo - 当我有一个 robots.txt 时,我应该删除 meta-robots (index, follow) 吗?

如果我想让搜索引擎遵循我的robots.txt规则,我有点困惑是否应该删除robots元标记。如果页面上存在机器人元标记(索引、跟随),搜索引擎是否会忽略我的robots.txt文件并在我的robots.txt中索引指定的不允许的URL?我问这个问题的原因是,搜索引擎(主要是Google)仍在索引我网站上不允许的页面。 最佳答案 如果搜索引擎的漫游器支持您的robots.txt,而您禁止抓取/foo,那么漫游器将永远不会抓取URL路径以/foo开头的页面.因此,机器人永远不会知道有meta-robots元素。相反,这意味着如果您想禁

.htaccess - 如果读取权限受限,搜索引擎能否读取 robots.txt?

我已经添加了robots.txt文件并添加了一些行来限制某些文件夹。我还添加了所有限制以使用.htaccess文件访问该robots.txt文件。搜索引擎可以读取该文件的内容吗? 最佳答案 这个文件应该是可自由阅读的。搜索引擎就像您网站上的访问者。如果访问者看不到这个文件,那么搜索引擎也将看不到它。绝对没有理由试图隐藏这个文件。 关于.htaccess-如果读取权限受限,搜索引擎能否读取robots.txt?,我们在StackOverflow上找到一个类似的问题:

seo - robots.txt 禁止属性

我已禁止某些页面对所有抓取工具使用robots.txt。我是否必须为这些文件编写元标记,或者网络爬虫会跳过它们,所以没有必要这样做? 最佳答案 如果您要限制的爬虫遵守robots.txt那么您没问题,但如果它不遵守,那么您可能就完蛋了,因为它很可能也会忽略meta。所有主要的搜索引擎爬虫都会遵守它,所以您可能没问题。 关于seo-robots.txt禁止属性,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.c

seo - 如何使用 robots.txt 阻止机器人抓取分页?

我的网站上有各种分页,我想阻止谷歌和其他搜索引擎抓取我的分页索引。抓取页面示例:http://www.mydomain.com/explore/recently-updated/index/12如何使用robots.txt拒绝机器人抓取任何包含/index/的页面? 最佳答案 Disallow:/*?page=Disallow:/*&page= 关于seo-如何使用robots.txt阻止机器人抓取分页?,我们在StackOverflow上找到一个类似的问题: