草庐IT

DISALLOW

全部标签

html - 不希望抓取包含的文件内容

我有一个包含页脚html文件的html文件。问题是,页脚包含一堆我不想抓取的信用和版权信息-它会降低我的关键字密度。我已经“禁止”robots.txt文件中的页脚文件,并且在头部放置了一个标签。这足以防止那部分内容被抓取吗?我读过一个iFrame技巧,如果我所做的还不够,我可能会尝试。哎呀,你会认为有更简单的方法来排除block...TIA。 最佳答案 尝试使用robots.txt。要禁止所有页面使用:User-agent:*Disallow:/要禁止某些页面使用:User-agent:*Disallow:/test/Disallo

php - Joomla noindex,遵循PHP代码

我有一个基于joomla的新闻网站,在搜索引擎索引中显示了大量无用的页面。至少作为一个快速修复,直到我可以考虑从头开始重建网站我想在所有页面上实现NOINDEX、FOLLOW元标记,但主页和以.html结尾的文章页面除外处理找到的各种代码片段here和elsewhere我想出了这个:\n";}else{echo"\n";}?>我对php编程还是很陌生,我敢肯定我肯定会犯一些错误,所以我想知道是否有好心人能够将我的代码重温一遍并让我知道如果在我不小心破坏我的网站之前可以使用它。谢谢,汤姆 最佳答案 使用robots.txt不是更好吗?

web - 无效的 robot.txt 文件问题

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。这个问题似乎与helpcenter中定义的范围内的编程无关。.关闭8年前。Improvethisquestion我正在尝试验证我的robots.txt文件:User-agent:*Disallow:/Admin/Disallow:/admin/Disallow:/Account/Disallow:/account/Disallow:/robots.txt使用thefrobeerobots.txtchecker表示有2个语法错误。Line1:Syntaxerror!Expected:Line2:Miss

seo - Sitemap/robots.txt 配置冲突

Myrobots.txt包含以下规则:Disallow:/api/Allow:/Allow:/apiDocs/apiDocsURL在站点地图中,但根据Google网站管理员工具,这些robots.txt规则禁止它被抓取。我想阻止所有匹配/api/*的URL被抓取,但允许抓取URL/apiDocs。我应该如何更改我的robots.txt以实现此目的? 最佳答案 记录中不允许换行(您在Disallow和两个Allow行之间有一个换行符)。您不需要Allow:/(它与Disallow:相同,这是默认设置)。您禁止抓取/api/(这是路径以

wordpress - 不理解这个 robots.txt

另一家公司为我管理的网站设置了robots.txt。这是他们使用的代码:User-agent:googlebotUser-agent:googleUser-agent:bingbotUser-agent:bingAllow:/products/User-agent:*Disallow:/wp-admin/Disallow:/wp-includes/Disallow:/xmlrpc.phpDisallow:/sales/Disallow:/products/Allow:/wp-content/uploads/Allow:/wp-content/themes/Allow:/wp-admin

seo - 这个 robots.txt 是什么意思?它不允许任何机器人吗?

User-agent:*Disallow:Disallow:/adminDisallow:/adminSitemap:http://www.myadress.com/ext/sm/Sitemap_114.xml我在我网站的根文件夹之一中找到了这个robots.txt文件。我不知道我做到了,也不知道是谁做到了。我认为这个文件不允许任何机器人管理文件夹。这很好。但我想知道这是否会阻止所有漫游器访问我网站上的所有文件?我已经用这个文件改变了它:User-agent:*Disallow:/adminAllow:/Sitemap:http://www.myadress.com/ext/sm/Si

drupal - Google 中的重复内容。 Drupal 搜索引擎优化

我有一个正在运行的Drupal站点。该网站未针对SEO进行适当优化,并且由于/category、/taxonomy等原因,在google中生成了大量重复内容结构是:/var/www/appname/这包含一个自定义构建的应用程序/var/www/appname/drup这包含我的drupal安装我在google搜索site:appname.com中浏览了网站结果,发现有很多重复的内容,因为/content、/taxonomy、/node等。我的ROBOTS.txt..在/var/www/appname中已经包含以下内容,但令我惊讶的是这些页面仍在编入索引。请指教。User-agent:

seo - 禁止某些图像文件夹

我正在制作我的robots.txt文件。但是我对如何禁止Googlebot-Image有点不安全。我想允许Google机器人抓取我的网站,但我在下面做出的禁止除外。这是我做的:User-agent:GooglebotDisallow:Disallow:/courses/Disallow:/portfolio/portfolio-template.php/User-agent:Googlebot-ImageDisallow:/images/graphics/erhvervserfaring//images/graphics/uddannelse/sitemap:http://www.ex

seo - 我应该在我的 robots.txt 文件末尾添加一条允许所有语句吗?

关闭。这个问题是off-topic.它目前不接受答案。想改进这个问题吗?Updatethequestion所以它是on-topic用于堆栈溢出。关闭9年前。Improvethisquestion我是否需要在robots.txt中的disallow语句之后添加allowall语句,或者机器人是否假定它们可以抓取任何未标记为disallow的内容。例子:User-Agent:*Disallow:/folder1/Disallow:/folder2/Disallow:/folder3/Disallow:/file1.phpDisallow:/file2.phpAllow:/Sitemap:h

wordpress - 将 robots.txt 保持为空白

我有几个wordpress网站,使用当前的googleseo算法更新网站应该适合移动设备(here)我的查询如下,目前我在robots.txt中写了一条规则,禁止使用wp-抓取urlUser-agent:*Disallow:/cgi-binDisallow:/wp-adminDisallow:/wp-includesDisallow:/wp-content/pluginsDisallow:/feedDisallow:/*/feedDisallow:/wp-login.php我不希望谷歌抓取上述网址。早些时候它工作正常但现在随着最近的谷歌算法更新,当我不允许这些url时它将开始在移动友好