草庐IT

redirect - 主页重定向会影响搜索引擎抓取吗?

全部标签

javascript - 使用区分大小写的替换搜索不区分大小写

我有一个简单的正则表达式搜索和替换功能,想知道是否有一种好方法可以在不区分大小写的搜索中进行区分大小写的替换?示例如下:functionfilter(searchTerm){varsearchPattern=newRegExp(searchTerm,'ig');....textToCheck=textToCheck.replace(searchPattern,''+searchTerm+'');函数顶部的搜索词可以有一个大写字母,我想让它匹配任何带有upper或lower的字符串,因此有'i'标志。我在进行替换时得到了奇怪的结果,因为它采用原始搜索字符串(可以是任何组合)并在可能存在不

javascript - Yeoman 使用谷歌应用引擎服务器

我设置Yeoman1.0beta处理我的js/css任务。一切正常,如果我运行gruntserver,它会启动静态服务器并将浏览器session连接到端口9000(livereload)。js/cssconcat,缩小也有效。现在,有没有办法让它连接到谷歌应用引擎开发服务器(而不是启动静态服务器)。服务器在本地主机上的端口8080上运行,我希望grunt在监视下的css/js文件上重新加载网页。这些文件将由GAE服务器提供。我在grunt-contrib-connectdocumentation看到一个部分rollingyourown,但不确定这意味着外部服务器。据我所知,这些是Gru

javascript - 抓取数据、 headless 浏览器和 Python

关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗?更新问题,使其只关注一个问题editingthispost.关闭9年前。Improvethisquestion所以我是一名CS学生,正在尝试学习网络抓取以及随之而来的所有该做和不该做的事情。在弄乱了iMacros和其他一些数据抓取“工具”之后,我转向了Python,这是一种我当时并不熟悉的语言。我了解了BeautifulSoup和urllib2,并通过stackoverflow和其他一些论坛学习了我的方法。现在,利用我目前获得的知识,我可以抓取大多数静态网页。然而,我们都知道静态页面的时代已经结束,现在即使是普通

javascript - Web 抓取具有动态 javascript 内容的网站

所以我使用python和beautifulsoup4(我没有绑定(bind))来抓取网站。问题是当我使用urlib获取页面的html时,它不是整个页面,因为其中一些是通过javascript生成的。有什么办法可以解决这个问题吗? 最佳答案 基本上有两个主要选项可以继续:使用浏览器开发工具,查看哪些ajax请求将加载页面并在脚本中模拟它们,您可能需要使用json将响应json字符串加载到python数据结构中的模块使用selenium等工具打开一个真正的浏览器。浏览器也可以是“headless”的,参见HeadlessSelenium

javascript - 在 iframe 中运行的 javascript 会影响主页吗?

部分代码:我下面的代码从我的数据库中提取查询,然后使用inner.HTML=在div中显示数据。它在原始使用中工作正常....然而,以下版本在iFrame中调用,因为它用于更新页面。页面没有错误并且JavaScript被触发但是最后一行不起作用...我刚刚意识到,也许因为它正在加载到隐藏的iFrame中,所以它试图在iFrame中设置一个div的innerHTML,这当然行不通。这是正在发生的事情吗?这没有意义,因为我有另一个脚本以相同的方式在它的末尾调用JavaScript,并且工作正常。';$p=$p.''.$row[artist].'-'.$row['title'].''.$ro

javascript - Jquery 获取每个 div 的子子 div 并将信息抓取到数组中

我有一些看起来像这样的html我想将每个sub_maindiv信息提取到javascript中的数组中。到目前为止,我有这个作为我的jquery代码$('#main').find('.sub_main').each(function(){alert('hi');});警报只是一个测试,它应该显示“hi”两次。但这是行不通的。我也不清楚如何将两个输入存储在javascript数组中。任何帮助都会很棒!谢谢, 最佳答案 vararray=$('#maininput').map(function(){return$(this).val()

javascript - 如何确保 ES3 程序在 ES5 引擎中运行?

因此ECMAScript5引入了一些与ECMAScript3的不兼容性。示例:Manyarticles已写明this===null||这个===undefined是可能的在ES5严格模式下:"usestrict";(function(){alert(this);//null}).call(null);但是,什么thestandard真的表明ES5引擎也允许在非严格模式下:15.3.4.3...ThethisArgvalueispassedwithoutmodificationasthethisvalue.ThisisachangefromEdition3,whereaundefined

javascript - 搜索延迟加载 jQuery 幻灯片或 : hacking cross-slide

我正在尝试获取jquery幻灯片来显示来自flickr、淡入淡出和滚动的图像。一切正常,除了我真的需要延迟加载图像(只需按需加载图像)。我目前正在使用jquery.cross-slide(http://tobia.github.com/CrossSlide/)但不幸的是tobia不再使用该插件并且也不想回答问题。我找到了一个jquery.cycle的示例,其中应用了图像延迟加载(请参阅http://malsup.com/jquery/cycle/add3.html)是否有可能将此功能破解到交叉幻灯片的源代码中,或者由于插入?在这里查看代码:https://github.com/tobi

javascript - jQuery 更新 html 元素文本而不影响 HTML 子元素

我有一个小问题,我不知道如何解决。我有一个像这里一样的HTML层次结构TitleGoesHere我喜欢做的是修改“TitleGoesHere”。我尝试的是:$('#el_01title').text('NewTitleGoesHere');但这也删除了:有没有办法只更新“TitleGoesHere”而不影响span元素? 最佳答案 您可以通过访问DOM元素并获取其firstChild来直接编辑文本节点。$('#el_01.title')[0].firstChild.data='NewTitleGoesHere';如果有多个.titl

javascript - 如何抓取无限滚动页面?

我正在尝试构建可以从具有无限滚动的页面中抓取内容的东西。但是,我无法从第一个“中断”下方获取内容。我该怎么做? 最佳答案 无限滚动几乎总是通过使用AJAX或相关技术在JavaScript中完成的。因此,您的网络爬虫获取HTML并解析它是不够的;它必须下载并执行javascript,或者至少扫描它以查找AJAX调用。执行完整的javascript可能是最好的(即最能保证工作),但也可能是最难做到的。扫描AJAX请求的javascript和/或寻找执行AJAX调用的函数然后进行DOM操作可能是最简单的(相对于完整的JS执行)