我正在尝试将其设置为不允许www.url.com/folder,但允许www.url.com/folder/1。我的设置如下:User-agent:*Disallow:/folderAllow:/folder/*这在使用Googlerobots.txt测试器进行测试时有效,但如果我查看日志,我可以看到Googlebot访问了除/folder之外的所有url。我错过了什么吗?应该允许先行吗? 最佳答案 我认为这个应该可行:User-agent:*Disallow:/folder/$Allow:/folder/*
我的网站中有一个secret文件夹,我不想让搜索引擎知道它。我没有将文件夹名称放在robots.txt的Disallow规则中,因为在robots.txt中写入此文件夹名称意味着告诉我的访问者有关该secret文件夹的信息。我的问题是,即使我没有向该文件夹发布任何链接,搜索引擎是否能够知道/抓取该文件夹? 最佳答案 对所有人隐藏目录的唯一真正可靠的方法是将其置于密码之后。如果你绝对不能把它放在密码后面,一种创可贴解决方案是将文件夹命名为:http://example.com/secret-aic7bsufbi2jbqnduq2g7y
我几乎完成了我的大型项目的开发,但是如果我能做到而不是让用户配置文件页面位于:http://example.com/profile/username/USERNAME(我目前正在使用.htaccess将GET数据重写为正斜杠和profile(.php)被读取为只是“profile”profile.php也正确解析url以检索GET数据)但如果我能做到像http://www.example.com/USERNAME(首选)或http://www.USERNAME.example.com有什么想法或资源吗?谢谢,斯特凡 最佳答案 在根目
如何禁止来自单个页面的漫游器并允许抓取所有其他内容。不要出错非常重要,所以我在这里问,在其他地方找不到明确的答案。这是正确的吗?User-Agent:*Disallow:/dir/mypage.htmlAllow:/ 最佳答案 Disallow行是所有需要的。它将阻止对以“/dir/mypage.html”开头的任何内容的访问。Allow行是多余的。robots.txt的默认值为Allow:/。一般情况下,Allow不是必需的。它在那里,以便您可以覆盖对不允许的内容的访问。例如,假设您想禁止访问“/images”目录,但“publi
我刚刚更改了DNS设置,因此文件夹/forum现在是一个子域而不是子目录。如果我做一个robots.txt文件并说:User-agent:*Disallow:/forum这会禁止抓取子目录和子域吗?我想禁止抓取子目录,但允许抓取子域。注意:这是在共享主机上,因此可以访问子目录和子域。这就是我遇到这个问题的原因。那么,我怎样才能只允许抓取子域? 最佳答案 如果你想停止抓取,这是正确的方法。但请注意:如果URL已被编入索引,则不会被删除。我更喜欢的方式是通过元标记将所有页面设置为“noindex/follow”,或者更好的是“canon
在robot.txt文件中,我放置了一个URL/custompages/*并且googlebot不应抓取与“/custompages/”匹配的页面。但是当我查看网站管理员时,我仍然可以从这些链接中看到错误消息。User-agent:*Disallow:/search/application/*Disallow:/custompages/*上面是我的robot.txt文件。在网站管理员上,我可以看到Googlebot无法访问此URL的内容,因为服务器在尝试处理请求时出现内部错误。这些错误往往与服务器本身有关,而不是与请求有关。对于网址custompages/savesearch?alid
我想阻止谷歌抓取我的整个网站-除了站点地图,我可以用它来告诉谷歌优先级和最后更改等。这是一个坏主意吗?我如何在robots.txt中执行此操作? 最佳答案 如果您在Google抓取工具中关闭了全部内容,那么Google也不会抓取Sitemap.xml。谢谢 关于seo-使用robots.txt仅抓取我的站点地图,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/12902568/
我已经使urlSEO友好,即http://mydomain.com/topic/title-of-page之前,上面页面的url是http://mydomain.com/search?id=6567889现在Google仍在搜索结果中显示第二个URL。我的问题是,如果我在robots.txt中禁止使用/search,Google会完全停止抓取该页面还是会继续抓取mydomain.com/topic/title-of-page即新URL?非常感谢您的帮助。抱歉URL中的空格,因为SO不允许我发布它们塞布 最佳答案 您会想立即解决这个问
我的网站是partyhousepong.com,它是一个“opencart”网站。我看到了一些SEO成功,但自从添加了这个robots.txt文件后,我的排名下降了,而且并非我的所有站点地图都被编入索引。你认为我应该删除robot.txt文件吗?我听说有一个SEO很好,所以我有点困惑。这里是:User-agent:*Disallow:/*?sortDisallow:/*&sortDisallow:/*?limitDisallow:/*&limitDisallow:/*?route=checkoutDisallow:/*?route=accountDisallow:/*?route=pr
收到来自谷歌网站管理员工具的通知,由于“无法访问的robots.txt”,谷歌爬虫机器人已停止抓取一个特定网站。不幸的是,除此之外,谷歌没有提供有关爬虫错误的任何其他详细信息。我有作为我的元标记之一包含在base.html模板中,我为每个Django应用程序都这样做,而且我的任何其他网站都没有这个问题。如果我错了请纠正我,但我也认为robots.txt不是谷歌索引你所必需的。我试图通过安装和配置django-robots(https://github.com/jezdez/django-robots)并将其添加到我的urlconf来解决:(r'^robots\.txt$',includ