pdf2txt_草庐IT

seo - 为什么即使在指定 URL 之后 robot.txt 文件中也会出现这个错误？

在robot.txt文件中，我放置了一个URL/custompages/*并且googlebot不应抓取与“/custompages/”匹配的页面。但是当我查看网站管理员时，我仍然可以从这些链接中看到错误消息。User-agent:*Disallow:/search/application/*Disallow:/custompages/*上面是我的robot.txt文件。在网站管理员上，我可以看到Googlebot无法访问此URL的内容，因为服务器在尝试处理请求时出现内部错误。这些错误往往与服务器本身有关，而不是与请求有关。对于网址custompages/savesearch?alid

即使 robot section code custompages seo robots.txt googlebot google-search-console

seo - 使用 robots.txt 仅抓取我的站点地图

我想阻止谷歌抓取我的整个网站-除了站点地图，我可以用它来告诉谷歌优先级和最后更改等。这是一个坏主意吗？我如何在robots.txt中执行此操作？最佳答案如果您在Google抓取工具中关闭了全部内容，那么Google也不会抓取Sitemap.xml。谢谢关于seo-使用robots.txt仅抓取我的站点地图，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/12902568/

robots seo section stackoverflow questions robots.txt

asp-classic - 经典 ASP 中的 PDF 保护和 SEO

我有一个销售pdf的经典asp网站。Ocne用户付费，我给他们一个链接来下载pdf，如下所示:https://mysite.com/products/ebook/mypdf.pdf我想保护它免受(1)搜索引擎收录(2)人们直接访问它而不购买它。我该怎么做？请推荐最佳答案您必须提供一个额外的ASP页面，例如getpdf.asp下载内容。看到这个答案，这涵盖了你需要的大部分内容:https://stackoverflow.com/a/12946733/911635您必须添加一些访问控制以检查当前用户是否有权访问该文件。

asp-classic classic section stackoverflow https seo

php - URL 重写和 robots.txt

我已经使urlSEO友好，即http://mydomain.com/topic/title-of-page之前，上面页面的url是http://mydomain.com/search?id=6567889现在Google仍在搜索结果中显示第二个URL。我的问题是，如果我在robots.txt中禁止使用/search，Google会完全停止抓取该页面还是会继续抓取mydomain.com/topic/title-of-page即新URL？非常感谢您的帮助。抱歉URL中的空格，因为SO不允许我发布它们塞布最佳答案您会想立即解决这个问

robots php code section search .htaccess url seo

seo - opencart 的 Robot.txt 文件

我的网站是partyhousepong.com，它是一个“opencart”网站。我看到了一些SEO成功，但自从添加了这个robots.txt文件后，我的排名下降了，而且并非我的所有站点地图都被编入索引。你认为我应该删除robot.txt文件吗？我听说有一个SEO很好，所以我有点困惑。这里是:User-agent:*Disallow:/*?sortDisallow:/*&sortDisallow:/*?limitDisallow:/*&limitDisallow:/*?route=checkoutDisallow:/*?route=accountDisallow:/*?route=pr

opencart Robot Disallow section strong seo robots.txt

django - Django 应用程序中无法访问 Robots.txt

收到来自谷歌网站管理员工具的通知，由于“无法访问的robots.txt”，谷歌爬虫机器人已停止抓取一个特定网站。不幸的是，除此之外，谷歌没有提供有关爬虫错误的任何其他详细信息。我有作为我的元标记之一包含在base.html模板中，我为每个Django应用程序都这样做，而且我的任何其他网站都没有这个问题。如果我错了请纠正我，但我也认为robots.txt不是谷歌索引你所必需的。我试图通过安装和配置django-robots(https://github.com/jezdez/django-robots)并将其添加到我的urlconf来解决:(r'^robots\.txt$',includ

django robots section heroku seo django-templates

amazon-web-services - 如何将 Amazon AWS S3 中的 rel 规范添加到 pdf 文件

我有一个页面有一个pdf，内容相同。pdf由AmazonAWSS3提供，如何将relcanonical添加到S3以避免重复内容？谢谢!编辑我可以通过Cloudfront做到这一点吗？最佳答案交付PDF时，您必须发送HTTPheaderLink:Link:;rel="canonical"https://www.rfc-editor.org/rfc/rfc5988#section-5AmazonS3似乎只提供静态内容托管，因此无法设置此header。关于amazon-web-servi

amazon-web-services services section canonical rfc amazon-s3 seo canonical-link

apache - 将 Noindex Follow 设置为子域 - robots.txt

我需要设置noindex，跟随到3个子域。我发现您可以在.htaccess中重写，但是您如何处理多个子域？我在服务器上没有看到子域的目录。这是我发现的。RewriteEngineonRewriteCond%{HTTP_HOST}^dev\.qrcodecity\.com$RewriteRule^robots\.txt$robots-dev.txt这会将robots.txt重定向到dev.qrcodecity.com的robots-dev.txt谢谢最佳答案您可以为所有选定的子域设置这样的规则:RewriteEngineonRew

Noindex apache section robots txt .htaccess url-rewriting seo rewrite

javascript - 如何在不使用 IFrame 的情况下在页面上显示 PDF 的 HTML5 转换？

我不想直接嵌入PDF，因为PDF本身已被Google索引，并直接在Google搜索结果中返回(如果PDF显示在页面上，我可以从广告点击中获益)。正如StackOverflow上其他地方所建议的那样，我使用了这个转换工具:http://www.idrsolutions.com/example_conversions/但是，Iframe中此处的输出未被Google编入索引。这是我想要的输出示例:http://www.manualsdir.com/manuals/132858/jaguar-s-type.html如何复制此功能？最佳答案

何在 javascript section Google noreferrer html pdf iframe seo

web - robots.txt 排除带有语言的路径

例如，如果我想在我的页面上禁止以下路径:http://www.examplepage.com/en/testing但不仅是/en/版本，还有/da/、/de/等(你明白我的意思)。我将如何以最聪明的方式做到这一点？无需为每种语言的相同页面编写禁止。我试过:不允许:/*/testing和不允许:/*测试但我发现它也不允许其他页面，例如:http://www.examplepage.com/en/news-page/testing等等它应该只禁止我在帖子开头指定的路径。最佳答案在robots.txt中使用占位符/正则表达式非常有限且

robots web section testing examplepage seo robots.txt noindex