txt_comment_description
全部标签 我有一个用户无法登录的公共(public)页面。所以我有一个没有链接的网址,您必须手动输入然后登录。但是,该url是多语言的,因此它可以是“/SV/Account/Logon”或“/EN/Account/Logon”等。我可以禁用此url以针对所有语言编制索引吗? 最佳答案 此网址可能对您有帮助http://www.robotstxt.org/robotstxt.html.在您的情况下不会排除通配符,您必须在robot.txt中添加所有特定于语言的登录url更新您可以将Disallow:/folder/subfolder/或Disa
我有一个问题我有域名例如www.testing.com和new.testing.com所以我不想在任何搜索引擎中显示new.testing.com.我在new.testing.com中添加了一个robots.txt。并且两个站点都有相同的父目录--httpdoc----testing.com----new.testing.com所以我想知道我可以使用testing.com的一个robots.txt来处理这两个站点吗???如果可能,请给我建议解决方案。 最佳答案 最好的办法是添加单独的robots.txt文件。每个目录放一个。你应该有
关闭。这个问题是off-topic.它目前不接受答案。想改进这个问题吗?Updatethequestion所以它是on-topic用于堆栈溢出。关闭10年前。Improvethisquestion我一直在考虑是否禁止除Ask、Google、Microsoft和Yahoo!之外的所有抓取工具!来self的网站。这背后的原因是我从未见过任何其他网络爬虫产生的流量。我的问题是:有什么理由不这样做吗?有人做过吗?您是否注意到任何负面影响?更新:到目前为止,我使用的是黑名单方法:如果我不喜欢爬虫,我将它们添加到禁止列表中。然而,我不喜欢列入黑名单,因为这是一个永无止境的故事:那里总是有更多的爬虫
关闭。这个问题是off-topic.它目前不接受答案。想改进这个问题吗?Updatethequestion所以它是on-topic用于堆栈溢出。关闭10年前。Improvethisquestion想知道以下是否适用于robots.txt中的google不允许:/*.action我需要排除所有以.action结尾的网址。这是正确的吗?
除了少数子目录外,我希望我的站点在搜索引擎中被编入索引。以下是我的robots.txt设置:根目录下的robots.txtUser-agent:*Allow:/在子目录中分离robots.txt(待排除)User-agent:*Disallow:/这是正确的方式还是根目录规则会覆盖子目录规则? 最佳答案 不,这是错误的。子目录中不能有robots.txt。你的robots.txtmustbeplacedinthedocumentroot你的主人。如果您想禁止抓取路径以/foo开头的URL,请在您的robots.txt中使用此记录(h
在robots.txt文件中,我有以下部分User-Agent:Bot1Disallow:/AUser-Agent:Bot2Disallow:/BUser-Agent:*Disallow:/C语句Disallow:c对Bot1和Bot2可见吗? 最佳答案 tl;dr:不,Bot1和Bot2会愉快地抓取以C开头的路径。每个机器人最多只能遵守asinglerecord(block).原始规范在originalspecification它说:Ifthevalueis'*',therecorddescribesthedefaultacces
简单的问题。我要补充:Disallow*/*details-print/基本上,/foo/bar/dynamic-details-print形式的阻塞规则——本例中的foo和bar也可以是完全动态的。我认为这很简单,但随后在www.robotstxt.org上出现了这条消息:NotealsothatglobbingandregularexpressionarenotsupportedineithertheUser-agentorDisallowlines.The'*'intheUser-agentfieldisaspecialvaluemeaning"anyrobot".Specifi
关闭。这个问题是off-topic.它目前不接受答案。想改进这个问题吗?Updatethequestion所以它是on-topic用于堆栈溢出。关闭10年前。Improvethisquestionrobots.txt应该放在哪里?domainname.com/robots.txt或domainname/public_html/robots.txt我将文件放在domainname.com/robots.txt中,但是当我在浏览器中输入时它没有打开。alttexthttp://shup.com/Shup/358900/11056202047-My-Desktop.png
我不希望任何搜索引擎将我网站的大部分内容编入索引。不过,我确实希望搜索引擎为2个文件夹(及其子文件夹)编制索引。这是我设置的,但我认为它不起作用,我在Google中看到我想隐藏的页面:这是我的robots.txtUser-agent:*Allow:/archive/Allow:/lsic/User-agent:*Disallow:/禁止除2以外的所有文件夹的正确方法是什么? 最佳答案 我在这个论坛上给出了关于这个的教程here.而在维基百科here基本上第一个匹配的robots.txt模式总是获胜:User-agent:*Allow
在robots.txt上搜索特定信息时,我偶然发现了一个Yandexhelppage‡关于这个主题。它建议我可以使用Host指令告诉爬虫我首选的镜像域:User-Agent:*Disallow:/dir/Host:www.example.com另外,Wikipediaarticle声明Google也理解Host指令,但没有太多(即没有)信息。在robotstxt.org,我没有在Host上找到任何内容(或维基百科上所述的Crawl-delay)。是否鼓励使用Host指令?Google是否有关于此robots.txt的任何资源?与其他爬虫的兼容性如何?‡至少从2021年初开始,链接的条目