草庐IT

robot_hunt_maze

全部标签

Wordpress - Robots.txt 允许管理员登录?

首先,我通过robots.txt搜索了Wordpress,但是没有人告诉我这个文件在哪里。所以,我读到Wordpress中的robots.txt是虚拟的。好的,没问题。但是,我在哪里可以找到它进行编辑?我的Wordpress允许/author/admin而我不想要这个。在仪表板中,类似这样的唯一选项过于笼统,例如“阻止搜索引擎查找此网站”(类似这样的内容)。有人知道解决方案吗? 最佳答案 如果您不熟悉robots.txt并且可以安装一个好的插件,您可以尝试Yoast的WPSEO,其中包括用于生成自定义robots.txt的工具等等.

indexing - 阻止某些地址被抓取 Robots.txt

有人要求我(为了改进SEO结果)从Robots.txt中删除某个网址。我正在努力(SEO不是我的强项)找出如何阻止某个域,即使两个地址都指向同一个网站。例如:http://foo.example.com--我需要停止被索引的网址http://www.examplefoo.com--我要编入索引的网址据我所知,使用disallow/只会阻止两者(因为它们是同一站点)有什么帮助吗?!对不起,如果这是一个愚蠢的问题.. 最佳答案 第1步:如果您的第一个域在上,您应该将其重定向到您的第二个域。示例(宽度htaccess):RewriteCo

seo - 具有多个域站点地图条目的 Robots.txt

我们的网站有很多域名,例如:example.co.ukexample.inexample.co.eg...所以在robots.txt中应该有一个条目显示我们的站点地图文件所在的位置。所以我的问题是:我们每个域都有很多站点地图文件,那么如何在单个robots.txt文件中为每个域分别放置这些条目? 最佳答案 假设您对所有域都有相同的机器人规则,请将您的单个robots.txt放入根目录并将所有站点地图链接放入其中。我认为站点地图链接看起来像http://www.example.co.uk/sitemap.xmlhttp://www.e

wordpress - 不理解这个 robots.txt

另一家公司为我管理的网站设置了robots.txt。这是他们使用的代码:User-agent:googlebotUser-agent:googleUser-agent:bingbotUser-agent:bingAllow:/products/User-agent:*Disallow:/wp-admin/Disallow:/wp-includes/Disallow:/xmlrpc.phpDisallow:/sales/Disallow:/products/Allow:/wp-content/uploads/Allow:/wp-content/themes/Allow:/wp-admin

.htaccess - Robots.txt、php.ini、connect_to_database.php、.htaccess

我似乎无法在任何地方找到关于我是否应该禁止配置文件如/php.ini或隐藏文件如/.htaccess的答案?还有像/includes或/includes/connect_to_database.php这样的东西呢?我已经在ProWebmasters和其他地方读到我们不应该disallow:/*.js$或/*.css$,但几乎所有这些答案快十年了。此外,robots.txt的目的是确定索引的内容,而不是抓取的内容,不是吗?我的意思是,我们不希望爬虫试图索引我们的css和js文件。即使是Google自己关于robots.txt的文档似乎也没有涵盖这些内容。有人知道网络上某处与此相关的信息资

seo - Robots.txt http ://example. com 与 http ://www. example.com

我的情况是我们有两个代码库需要保持完整..示例:http://example.com。还有一个新站点http://www.example.com。旧站点(无WWW)支持一些遗留代码并具有以下规则:User-agent:*Disallow:/但是在新版本(带有WWW)中没有robots.txt。Google是否将旧的(无WWW)robots.txt文件作为其规则?并将添加User-agent:*Allow:/到(WWW)端覆盖这个?目前无法在旧代码库中更改robots.txt。 最佳答案 不,子域“www”。和子域“”是单独的子域,其

seo - 在 robots.txt 中指定变量

我的URL结构设置为两条平行线(都指向同一个地方):www.example.com/subnamewww.example.com/123麻烦的是,蜘蛛会爬进这样的东西:www.example.com/subname/default_media_functionwww.example.com/subname/map_function请注意,名称“subname”代表我网站上具有相同功能的数千个不同页面。而且他们会抛出错误,因为这些链接严格用于JSON或AJAX目的,而不是实际链接。我想阻止他们访问这些页面,但如果URL包含变量,我该怎么办?这在robots.txt中有效吗?Disallo

seo - 这个 robots.txt 是什么意思?它不允许任何机器人吗?

User-agent:*Disallow:Disallow:/adminDisallow:/adminSitemap:http://www.myadress.com/ext/sm/Sitemap_114.xml我在我网站的根文件夹之一中找到了这个robots.txt文件。我不知道我做到了,也不知道是谁做到了。我认为这个文件不允许任何机器人管理文件夹。这很好。但我想知道这是否会阻止所有漫游器访问我网站上的所有文件?我已经用这个文件改变了它:User-agent:*Disallow:/adminAllow:/Sitemap:http://www.myadress.com/ext/sm/Si

ruby-on-rails - 什么是使用 robots.txt 的正确方法

我正在尝试让robots.txt工作,以便搜索引擎开始索引我的网站并显示元信息,如描述等。但是,我收到此消息:Adescriptionforthisresultisnotavailablebecauseofthissite'srobots.txt–learnmore.这是我的robots.txt的样子。#Seehttp://www.robotstxt.org/wc/norobots.htmlfordocumentationonhowtousetherobots.txtfile##Tobanallspidersfromtheentiresiteuncommentthenexttwolin

php - robots.txt 不允许空白 PHP 页面和包含?

关闭。这个问题不符合StackOverflowguidelines。它目前不接受答案。这个问题似乎与helpcenter中定义的范围内的编程无关。关闭8年前。Improvethisquestion我是否应该禁止robots.txt中的某些PHP页面,这些页面不是为了向用户显示内容,而是运行脚本并返回空白或输出非常少的代码以用于其他地方?例子:出现空白的PHP页面。示例是用于发送电子邮件的PHP页面由Ajax调用但不输出任何内容的PHP页面。由Ajax调用并输出响应代码(如JSON或XML)的PHP页面。包括页面,例如页面标题或配置文件的模板。简单地重定向到另一个页面的PHP页面。感谢你