草庐IT

html - 不希望抓取包含的文件内容

我有一个包含页脚html文件的html文件。问题是,页脚包含一堆我不想抓取的信用和版权信息-它会降低我的关键字密度。我已经“禁止”robots.txt文件中的页脚文件,并且在头部放置了一个标签。这足以防止那部分内容被抓取吗?我读过一个iFrame技巧,如果我所做的还不够,我可能会尝试。哎呀,你会认为有更简单的方法来排除block...TIA。 最佳答案 尝试使用robots.txt。要禁止所有页面使用:User-agent:*Disallow:/要禁止某些页面使用:User-agent:*Disallow:/test/Disallo

google-app-engine - .appspot 谷歌应用引擎网站在抓取/搜索引擎排名中是否受到限制?

我在地址为“*.appspot.com”的网站上没有收到任何点击。我已经设置了谷歌网站管理员和一切。您是否需要自定义域才能显示在Google搜索索引中? 最佳答案 您不需要自定义域即可显示在Google搜索中。网站排名的例子很多,例如:https://www.google.de/#q=fix+the+road 关于google-app-engine-.appspot谷歌应用引擎网站在抓取/搜索引擎排名中是否受到限制?,我们在StackOverflow上找到一个类似的问题:

redirect - 谷歌重新抓取 301 会重定向到 404 错误吗?

当批量301从旧域重定向到具有相同url结构的新域时,我犯了一个错误。Googlebot按照旧站点上每个页面的301重定向到我的新站点,这给出了404错误。我在浏览器中测试了它对用户有用,但不知何故对谷歌机器人不起作用,我发现它为时已晚。我现在修复了这个错误,并且这些页面可以(希望)被googlebot在他们的新url访问。问题:Google会重新抓取导致404的301重定向吗? 最佳答案 他们会抓取它一段时间,但最终404状态会告诉他们该页面已消失,他们将停止抓取它并将其从索引中删除。如果您在他们停止抓取原始URL之前修复了错误,

ajax - 抓取 AJAX 请求

我有一个带有下拉列表的ASP.NETMVC网站,当用户在第一个下拉列表中选择一个选项时,其他下拉列表将使用AJAX调用填充。根据日志,爬虫尝试正常访问这些AJAX方法,因此我的应用程序会记录错误。我将这些AJAX方法设置为不可抓取,这意味着当请求不是AJAX调用时我返回404。这是最好的方法吗?另一方面,我有一个包含多个步骤的页面,这意味着用户填写一个表单然后进入第二个步骤。每次用户填写表单时,我都会执行POSTAJAX请求并保存输入数据。我应该如何处理这种情况? 最佳答案 将您不想抓取的URL添加到robots.txt.如果您在G

seo - googlebot 会抓取一个空的 A 节点吗?

给定一个来自a.com的页面:Test尽管是否会抓取链接?节点没有内容? 最佳答案 会被抓取吗?可能,鉴于上面的例子。它会被索引和/或排名吗?这取决于是否有值得排名的内容。您能发送有关b.com的排名信号吗?没有。 关于seo-googlebot会抓取一个空的A节点吗?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/26724276/

google-maps - 由于外部链接导致的谷歌抓取错误

我有大量的404抓取错误(我的旧网址)..我通过Google网站管理员工具删除了它们>删除网址工具..示例:www.mysite.com/page1.html但是有一些外部源网站在他们的内容页面上链接了我的旧网址(例如:www.anothersite.com)..而且因为他们的页面上有我的旧网址,我的网址删除总是失败..我现在可以做什么?我无法删除这些链接;我不知道这些网站的所有者是谁。还有很多这样的外部URL;我无法通过一次又一次地按下按钮来一个一个地删除。robots.txt是否足够?或者我还能做些什么? 最佳答案 您不想使用r

javascript - 为什么我的 ASP 网站内容没有被 Google 抓取?

在使用以下工具进行测试时。1.webconfs.com/search-engine-spider-simulator.php2.feedthebot.com/tools/它表明蜘蛛在我的网站上没有看到任何文字http://wwww.vamartinc.com.我在body标签正下方插入一些文本后运行测试,即使这样结果仍然显示为spider看不到任何文本。机器人甚至找不到菜单栏项目文本。我的机器人文本不限制机器人获取我的内容和元数据作为索引,请遵循。内容请帮助解决这个问题。 最佳答案 在网站站长工具中使用fetchasgooglebo

javascript - 具有可抓取内容的 JS 应用程序(检测搜索机器人服务器端)?

我正在将博客构建为JS应用程序。JS应用程序将使用Api获取内容。我正在考虑使用一个服务器端脚本来检测搜索机器人,如果发现则使用来自Api的普通可抓取HTML进行响应,否则加载JS应用程序,然后执行XHR请求以从Api获取内容并更新DOM。基本上,如果请求来自机器人,我们会在服务器上使用API并使用纯HTML进行响应,或者,如果请求来自“普通”用户代理,则JS应用会使用API来获取内容并将其提供给用户。使用这种方法有什么注意事项吗? 最佳答案 是的。搜索引擎会惩罚向他们和普通用户提供不同内容的网站。使用ProgressiveEnha

ajax - 添加 sitemap.xml 后,谷歌没有抓取我的 angularjs 网站

在阅读了有关angularjs和SEO的多个资源(包括谷歌文档)之后,我了解到让谷歌抓取我的网站的2个主要选项是:将hashbang(#!)添加到我的URL,当爬虫引擎的请求到达我的服务器后(在请求中,#!被escape_fragment替换)我应该使用外部服务渲染和响应html快照(比如prerender.io)或自己实现。2.向我的URL添加hashbang(#!)-这样google就可以知道它在此url中有一个动态呈现的数据,并将sitemp.xml添加到该网站。asitisshownhere这是我处理路线的方式:mi.config(['$routeProvider','$loc

seo - 如何自定义 DNN robots.txt 以允许搜索引擎抓取模块特定站点地图?

我在DNN网站上为博客、新闻文章等使用EasyDNN新闻模块。核心DNN站点地图不包含此模块生成的文章,但模块会创建自己的站点地图。例如:domain.com/blog/mid/1005/ctl/sitemap当我尝试将此站点地图提交给Google时,它​​说我的Robots.txt文件阻止了它。查看DNN附带的Robots.txt文件,我注意到Slurp和Googlebot用户代理下的以下几行:Disallow:/*/ctl/#Slurppermits*Disallow:/*/ctl/#Googlebotpermits*我想提交模块的站点地图,但我想知道为什么这些用户代理不允许/ct