pdf2txt_草庐IT

flash - 使用 robots.txt 或其他方法更改搜索引擎的默认页面

在用户进入我们的公司网站之前，我们向用户显示了一个Flash“网关”页面(仅一次)。这个flash页面是default.aspx，作为服务器的默认页面。问题是雅虎和其他SE从页面正文中提取文本，这恰好是noscript标记中的Javascript/Flash要求警告。有没有办法使用robots.txt让所有搜索引擎都将home.aspx视为默认页面？我并没有坚持使用robots.txt来执行此操作，因此如果有其他方法，请推荐使用。我知道“网关”页面的问题——尽管我建议反对这种做法，但这是来自“管理”的请求。请提供除删除网关页面之外的解决方案。谢谢! 最佳答案

seo - 文本应保存在 ppt、pdf 或 html 页面上，以获得更多 SEO 优势和 SERP 的良好结果

我要建一个网站。现在我的问题是显示文本的最佳选择。它应该保存在ppt、pdf或html页面上，以获得更多的SEO好处和SERP的良好结果最佳答案虽然搜索引擎非常擅长搜索ppt、pdf、doc和其他格式，但html是网络格式。您不能假设您的最终用户将拥有阅读ppt、doc、pdf等的软件。良好的排名算法将用户放在首位。您使您的网站对用户越有用，您的搜索排名就越好，并且您的内容越易于访问，效果就越好。总而言之:在您的文本中尽可能多地使用html。更进一步:当我希望有人下载他们将在预期程序中使用的文件时，我真的只会使用pdf和ppts

良好 html section 的 seo

pdf - PDF 的 Scribd 搜索引擎优化功能

所有人最近都注意到，Scribd中的PDF文档对于搜索引擎来说也是SEO友好的。例如链接http://www.scribd.com/doc/17135767/FREE-by-Chris-Anderson如果您打开页面并查看HTML源代码，则不会显示PDF中的纯文本。但是，如果您从Google搜索中打开页面的缓存版本，则会出现一个html_wrapper标签，其中包含整个PDF文档中的文本。他们是否根据发出请求的用户代理显示不同的内容-例如。浏览器还是机器人？我听说过一些SEO做法不建议为机器人显示不同的内容？从SEO的角度来看，这是多么糟糕的做法？最佳答案

Scribd pdf FREE-by-Chris-Anderson section 17135767 seo google-search cloaking

drupal-6 - 阻止 Robots.txt 中的特定页面

据此http://support.google.com/webmasters/bin/answer.py?hl=en&answer=156449不允许:/page1/所有page1URL都将被禁止，即page1/foo/bar也将被阻止。不允许:/page1只有page1会被阻止，而page1/foo/bar会被允许。但这并没有发生，我怎样才能只阻止page1并允许抓取page1/foo/bar编辑:实际问题是同一页面在不同路径中被抓取两次作为/page和/page/ 最佳答案为什么不直接添加机器人元标记？

drupal Robots code section page drupal-6 seo robots.txt google-search

seo - 我应该在我的 robots.txt 文件末尾添加一条允许所有语句吗？

关闭。这个问题是off-topic.它目前不接受答案。想改进这个问题吗？Updatethequestion所以它是on-topic用于堆栈溢出。关闭9年前。Improvethisquestion我是否需要在robots.txt中的disallow语句之后添加allowall语句，或者机器人是否假定它们可以抓取任何未标记为disallow的内容。例子:User-Agent:*Disallow:/folder1/Disallow:/folder2/Disallow:/folder3/Disallow:/file1.phpDisallow:/file2.phpAllow:/Sitemap:h

末尾 robots section Disallow folder seo web-crawler robots.txt google-search-console

wordpress - 将 robots.txt 保持为空白

我有几个wordpress网站，使用当前的googleseo算法更新网站应该适合移动设备(here)我的查询如下，目前我在robots.txt中写了一条规则，禁止使用wp-抓取urlUser-agent:*Disallow:/cgi-binDisallow:/wp-adminDisallow:/wp-includesDisallow:/wp-content/pluginsDisallow:/feedDisallow:/*/feedDisallow:/wp-login.php我不希望谷歌抓取上述网址。早些时候它工作正常但现在随着最近的谷歌算法更新，当我不允许这些url时它将开始在移动友好

wordpress robots section Disallow mobile google-analytics seo google-search-console

seo - Umbraco imagegen.ashx 在 robots.txt 中被禁止，因为图像被阻止搜索

我使用imagegen.ashx调整我的Umbraco4.7网站上的图像大小。默认情况下，它在robots.txt中是不允许的，我使用处理程序的图像不会出现在搜索引擎结果中-我已经在Google网站管理员中检查过它们被阻止了。我想允许搜索这些图像。我可以通过在robots.txt中允许imagegen.ashx来实现吗？我还想知道默认情况下不允许使用它有什么充分的理由吗？如果我允许它，它会解决我的图像被阻止的问题，还是需要更多的配置更改？最佳答案您可以安全地从robots.txt中删除imagegen.ashx。到目前为止，我知

imagegen Umbraco section robots seo robots.txt

wordpress - robot.txt 和网站管理员工具中的多语言站点地图问题

我在这里有点迷路，我想知道哪种方法最好我有一个使用Wordpress的网站，带有3种语言的AllinOneSeo和xml及其站点地图:website.com/sitemap.xml(defaultinspanish)website.com/en/sitemap.xml(englishversion)website.com/pt-br/sitemap.xml首先，放入robots.txt的最佳做法是什么，只放入一行(website.com/sitemap.xml)或3个站点地图url？(同时xpml插件会自动在每个页面中添加一个rel="alternate"hreflang="x"，并带

多语 wordpress section code website seo sitemap robots.txt google-search-console

indexing - 在放置 robots.txt 后，Google 何时会停止显示网站页面？

Google将www.example.com/myPage作为搜索结果显示。我不希望此/myPage被google索引，因此在页面中放置了一个robots.txt。停止在google中显示需要多长时间？我知道如果人们知道URL，他们仍然可以访问它，但我的目标只是将它从谷歌的搜索结果中删除。我对SEO的了解很少，我觉得答案可能会因网站流量和其他与SEO相关的因素而有所不同，但一般来说，这需要多长时间？最佳答案抓取基于许多因素，例如PageRank、页面链接和抓取限制(例如URL中的参数数量)。许多因素都会影响单个网站的抓取频率。抓

indexing 何时 section Google seo web-crawler robots.txt

url - 我应该在 robots.txt 中包含移动网站 URL 吗？

我的老板让我研究各种改进我们网站SEO的方法，我一直在对此进行一些研究。我知道搜索引擎喜欢适合移动设备的网站，我使用了Google的网站管理员工具，发现它认为我们的网站适合移动设备。但是，我们缺少足够的robots.txt文件。我们想要做的是避免同一页面被索引两次(桌面版和移动版)，他建议我在robots.txt文件中包含我们网站的移动URL。但是，这样做会损害我们网站的排名吗？我了解到robots.txt下列出的文件不应该被编入索引，这引起了人们对人们在手机上搜索我们网站时是否能够看到我们网站的结果的担忧。最佳答案虽然我不建议

中包移动网 User-agent User section url mobile seo robots.txt