amazon-dynamodb-index
全部标签 关闭。这个问题是off-topic.它目前不接受答案。想改进这个问题吗?Updatethequestion所以它是on-topic用于堆栈溢出。关闭9年前。Improvethisquestion我正在为我们公司开发一个新的CMS,为了方便和干净的代码,我决定在根目录中只有一个文件index.php。我们使用搜索引擎友好的URL以及唯一的ID来加载页面。使用SEFURL谷歌将单独索引页面,即使它们都是通过index.php解析的。然而,有时我们的客户端的主机要么使用Windows,要么关闭了mod_rewrite,因此我们无法使用SEFURL。在这种情况下,我们的URL看起来像http:
我们最近将2个网站迁移到完整的SSL,因为我们知道Google在安全网站方面排名更高。但是两个多月过去了,我们的网站还没有被编入SSL索引。例如;在我们的Joomla网站上放置ssl一周内,我们所有的url在Google中都已更改为https://,这正是我们想要的-这是因为我们在Joomlahtaccess中设置了301重定向。但是在我们的Opencart网站上,它有一个不同配置的htaccess文件,它仍然只在谷歌上显示非SSL结果。SSL在我们的网站上正常工作,并且自从被Google抓取以来已被抓取了数十次,但出于某种原因,Google不会将我们索引为https网站。我认为我们的
根据文章:https://support.google.com/webmasters/answer/181708?hl=en软404出现是因为我的网站中的一些搜索条件是空的项目,但我需要这些页面被谷歌索引,以防止这些错误出现在网站管理员抓取错误中,并确保它们不会影响网站索引速度,我们该怎么办?!我们应该返回404错误代码吗?我们应该更多地填充所有搜索组合还是忽略它们?! 最佳答案 您不应该将这些页面编入索引-这是一种非常糟糕的做法,您应该阅读这篇文章以获得有关此案例的一些想法http://googlewebmastercentral
我们正在做一个白标签网站,它不能被谷歌索引。有谁知道一种工具可以检查googlebot是否会为给定的url编制索引?我输入了在所有页面上,因此不应将其编入索引-但是我宁愿通过测试来110%确定。我知道我可以使用robots.txt,但是robots.txt的问题如下:我们的主站点应该被索引,它是IIS(ASP.Net)上与白标签站点相同的应用程序-唯一的区别是url。我无法根据传入的url修改robots.txt,但我可以从我的代码隐藏中向所有页面添加元标记。 最佳答案 您应该添加一个Robots.txt到您的网站。但是,防止搜索引
我有以下网址www.example.com/index.php?tag=xxx我想使用.htaccess使其像下面这样www.example.com/xxx我用这段代码完成了:Options+FollowSymLinks-MultiViews#Turnmod_rewriteonRewriteEngineOnRewriteBase/RewriteCond%{REQUEST_FILENAME}!-fRewriteCond%{REQUEST_FILENAME}!-dRewriteCond%{REQUEST_FILENAME}!-lRewriteRule^(.+?)/?$/index.php?
我已经将sitemap.xml文件提交给谷歌网站管理员工具,它说我拥有整个页面,但在“索引”下它说“--”?Google需要多长时间才能开始编制索引?这是几天前的事。 最佳答案 站点地图是网站管理员帮助搜索引擎轻松地从他们的网站发现更多页面的一种方式。站点地图应被视为一种帮助,而不是一种职责。即使您提交了Sitemap,也不能保证Sitemap中列出的URL会被读取或包含在搜索引擎索引中。通常需要几小时到几天才能编入索引。来自Google来源的引述"Wedon'tguaranteethatwe'llcrawlorindexallof
问题我有一个使用Angular构建并托管在AmazonS3上的静态SPA站点。我正在尝试让爬虫访问我的预呈现页面,但我无法重定向爬虫请求,因为AmazonS3不提供URL重写选项并且重定向规则有限。我有什么我已将以下元标记添加到我的index.html页面:此外,我的SPA使用漂亮的URL(没有散列#符号)和HTML5推送状态。使用此设置,当爬虫找到我的http://mywebsite.com/about时链接,它将生成一个GET请求http://mywebsite.com/about?_escaped_fragment_=.这是patterndefinedbyGoogle然后是其他爬
我在单页Web应用程序中使用React和ReactRouter。因为我在做客户端渲染,所以我想用CDN来提供我所有的静态文件(HTML、CSS、JS)。我使用AmazonS3来托管文件,并使用AmazonCloudFront作为CDN。当用户请求/css/styles.css时,该文件存在,因此S3提供它。当用户请求/foo/bar时,这是一个动态URL,因此S3添加了一个hashbang:/#!/foo/bar。这将服务于index.html。在我的客户端,我删除了hashbang,所以我的URL很漂亮。这对我100%的用户来说都很好。所有静态文件都通过CDN提供动态URL将被路由到
Googlebot偶尔会使用错误的查询字符串参数为我们的网站之一编制索引。我不确定它是如何获取此查询字符串参数的(似乎没有任何网站通过错误链接链接到我们,并且我们网站中没有任何内容插入错误值)。如我们所料,错误的参数会导致站点抛出500错误。我的印象是Google不会为返回500错误的页面编制索引,但事实证明确实如此。所以现在我有两个问题:1)为什么Googlebot会随机插入错误的查询字符串值?(我真的不关心这个问题的答案,但如果我们能做些什么来避免这种情况,它就会解决我们的问题。)2)为什么Google会将返回500错误的页面编入索引?这是Googlebot创建并已编入索引的错误链
如果我只想让爬虫访问index.php,这行得通吗?User-agent:*Disallow:/Allow:/index.php 最佳答案 是的,它会起作用。这是来自GoogleWebmasterTool的测试结果.Urlhttp://www.example.org/index.phpGooglebotAllowedbyline3:Allow:/index.phpGooglebot-MobileAllowedbyline3:Allow:/index.php但是,请记住,如果使用此配置,您的网站主页将不会被抓取,除非使用完全限定路径访