草庐IT

robot_hunt_maze

全部标签

flash - 使用 robots.txt 或其他方法更改搜索引擎的默认页面

在用户进入我们的公司网站之前,我们向用户显示了一个Flash“网关”页面(仅一次)。这个flash页面是default.aspx,作为服务器的默认页面。问题是雅虎和其他SE从页面正文中提取文本,这恰好是noscript标记中的Javascript/Flash要求警告。有没有办法使用robots.txt让所有搜索引擎都将home.aspx视为默认页面?我并没有坚持使用robots.txt来执行此操作,因此如果有其他方法,请推荐使用。我知道“网关”页面的问题——尽管我建议反对这种做法,但这是来自“管理”的请求。请提供除删除网关页面之外的解决方案。谢谢! 最佳答案

drupal-6 - 阻止 Robots.txt 中的特定页面

据此http://support.google.com/webmasters/bin/answer.py?hl=en&answer=156449不允许:/page1/所有page1URL都将被禁止,即page1/foo/bar也将被阻止。不允许:/page1只有page1会被阻止,而page1/foo/bar会被允许。但这并没有发生,我怎样才能只阻止page1并允许抓取page1/foo/bar编辑:实际问题是同一页面在不同路径中被抓取两次作为/page和/page/ 最佳答案 为什么不直接添加机器人元标记?

seo - 我应该在我的 robots.txt 文件末尾添加一条允许所有语句吗?

关闭。这个问题是off-topic.它目前不接受答案。想改进这个问题吗?Updatethequestion所以它是on-topic用于堆栈溢出。关闭9年前。Improvethisquestion我是否需要在robots.txt中的disallow语句之后添加allowall语句,或者机器人是否假定它们可以抓取任何未标记为disallow的内容。例子:User-Agent:*Disallow:/folder1/Disallow:/folder2/Disallow:/folder3/Disallow:/file1.phpDisallow:/file2.phpAllow:/Sitemap:h

wordpress - 将 robots.txt 保持为空白

我有几个wordpress网站,使用当前的googleseo算法更新网站应该适合移动设备(here)我的查询如下,目前我在robots.txt中写了一条规则,禁止使用wp-抓取urlUser-agent:*Disallow:/cgi-binDisallow:/wp-adminDisallow:/wp-includesDisallow:/wp-content/pluginsDisallow:/feedDisallow:/*/feedDisallow:/wp-login.php我不希望谷歌抓取上述网址。早些时候它工作正常但现在随着最近的谷歌算法更新,当我不允许这些url时它将开始在移动友好

seo - Umbraco imagegen.ashx 在 robots.txt 中被禁止,因为图像被阻止搜索

我使用imagegen.ashx调整我的Umbraco4.7网站上的图像大小。默认情况下,它在robots.txt中是不允许的,我使用处理程序的图像不会出现在搜索引擎结果中-我已经在Google网站管理员中检查过它们被阻止了。我想允许搜索这些图像。我可以通过在robots.txt中允许imagegen.ashx来实现吗?我还想知道默认情况下不允许使用它有什么充分的理由吗?如果我允许它,它会解决我的图像被阻止的问题,还是需要更多的配置更改? 最佳答案 您可以安全地从robots.txt中删除imagegen.ashx。到目前为止,我知

wordpress - robot.txt 和网站管理员工具中的多语言站点地图问题

我在这里有点迷路,我想知道哪种方法最好我有一个使用Wordpress的网站,带有3种语言的AllinOneSeo和xml及其站点地图:website.com/sitemap.xml(defaultinspanish)website.com/en/sitemap.xml(englishversion)website.com/pt-br/sitemap.xml首先,放入robots.txt的最佳做法是什么,只放入一行(website.com/sitemap.xml)或3个站点地图url?(同时xpml插件会自动在每个页面中添加一个rel="alternate"hreflang="x",并带

indexing - 在放置 robots.txt 后,Google 何时会停止显示网站页面?

Google将www.example.com/myPage作为搜索结果显示。我不希望此/myPage被google索引,因此在页面中放置了一个robots.txt。停止在google中显示需要多长时间?我知道如果人们知道URL,他们仍然可以访问它,但我的目标只是将它从谷歌的搜索结果中删除。我对SEO的了解很少,我觉得答案可能会因网站流量和其他与SEO相关的因素而有所不同,但一般来说,这需要多长时间? 最佳答案 抓取基于许多因素,例如PageRank、页面链接和抓取限制(例如URL中的参数数量)。许多因素都会影响单个网站的抓取频率。抓

url - 我应该在 robots.txt 中包含移动网站 URL 吗?

我的老板让我研究各种改进我们网站SEO的方法,我一直在对此进行一些研究。我知道搜索引擎喜欢适合移动设备的网站,我使用了Google的网站管理员工具,发现它认为我们的网站适合移动设备。但是,我们缺少足够的robots.txt文件。我们想要做的是避免同一页面被索引两次(桌面版和移动版),他建议我在robots.txt文件中包含我们网站的移动URL。但是,这样做会损害我们网站的排名吗?我了解到robots.txt下列出的文件不应该被编入索引,这引起了人们对人们在手机上搜索我们网站时是否能够看到我们网站的结果的担忧。 最佳答案 虽然我不建议

.htaccess - 关于 htaccess 和 robots.txt

嗨,这是我在Stackoverflow中的第一个问题,你能帮忙吗?它涉及htaccess文件和robot.txt文件。十月份,我从以前的非WordPress网站创建了一个WordPress网站。我在现有站点的子域上构建了新站点,因此在我构建新站点时,事件站点可以保持事件状态。我在子域上建立的网站是活的,但我担心旧的htaccess文件和机器人txt文件是否应该删除它们;我在新站点上创建了新的htaccess和robots.txt文件,并将旧的htaccess文件留在那里。只需提及所有旧内容文件仍位于服务器上名为“旧文件”的文件夹下,因此我假设这些不会影响问题。以下是每个文件的内容:我通

javascript - 尽管 robots.txt 配置正确,网站仍出现在 Google SERP 上

我有一个用于内部目的的ExpressJS网络应用程序,我不希望Google为其编制索引。所以我实现了以下路线:app.get('/robots.txt',function(req,res){res.set('Content-Type','text/plain');res.send('User-agent:*\nDisallow:/');}我通过点击URL并检查响应来验证这工作正常,这是User-agent:*Disallow:/尽管如此,当我搜索网站标题时,我可以在Google上看到我的页面结果。该应用程序已经上线一年左右了,所以它不可能被缓存结果。发生这种情况还有其他可能的原因吗?有