草庐IT

php - 使用 DOM PHP 网络爬虫从外部站点选择性提取数据

我有这个PHPdom网络爬虫,它运行良好。它提取提到的标签及其从(外部)论坛站点到我的页面的链接。但是最近我遇到了一个问题。喜欢这是论坛数据的HTML:: HispanicStudyPartner-dreamer1984 02/28/1701:42 0 200 nbme-monariyadh 02/27/1723:12 0 108现在,如果我们将上述代码(表格数据)视为该站点中唯一可用的语句。如果我尝试使用像这样的网络爬虫来提取它,find('td.FootNotes2')as$element){echo$

php - 使用 Simple HTML Dom 获取所有 HTML 列表元素

目前我正在从事一个项目,该项目需要我解析来自替代网站的一些数据,但我遇到了一些问题(请注意,我对PHP编码非常陌生.)这是我在下面使用的代码+它返回的内容。$dl=$html2->find('ol.tracklist',0);print$dl=$dl->outertext;上面的代码返回了我们试图获取的数据,它在下面但是非常困惑,如果你想看到clickhere的话。.但是,当我将其放入foreach时,它一次只返回一个ahref属性。foreach($html2->find('ol.tracklist')as$li){$title=$li->find('a',0);print$titl

php - Internet Explorer 中的 JavaScript DOM 错误

我在这行代码中收到以下错误select.up().appendChild(sw);出现错误“SCRIPT438:对象不支持‘up’属性或方法”这只发生在InternetExplorer中...Chrome、Safari和Firefox都可以正常运行代码。我无法通过Google搜索“select.up()”找到任何内容。这段代码不是我自己的,我不太擅长在Javascript中使用DOM。下面是剩余的代码:get_option_swatches();?>document.observe('dom:loaded',function(){try{varswatches=jsonEncode($

php - Goutte-dom爬虫-移除节点

我的网站上有html(http://testsite.com/test.php):clickbackclickback我想收到:clickclick所以我想删除span。我在基于http://symfony.com/doc/current/components/dom_crawler.html的Symfony2中使用Goutte:$client=newClient();$crawler=$client->request('GET','http://testsite.com/test.php');$crawler->filter('.first.second')->each(functi

PHP 使用 DOM 解析器获取自定义属性值

我使用simpledomparser做一些报废但未能获得自定义属性(颜色)。我能够获得其他值,例如h3的内部文本。我的dom很简单,看起来像这样HiHi2Hi3到目前为止我的代码$dom=$html->find('article');$arr=array();foreach($domas$data){if(isset($data->find('h3',0)->plaintext)){$h3=$data->find(h3',0)->plaintext;}}$arr[]=array("title"=>$h3,/*"color"=>$color*/);echojson_encode(arra

PHP 简单 html DOM 从 html 标签中删除所有属性

$html=file_get_html('page.php');foreach($html->find('p')as$tag_name){$attr=substr($tag_name->outertext,2,strpos($tag_name->outertext,">")-2);$tag_name->outertext=str_replace($attr,"",$tag_name->outertext);}echo$html->innertext;以上是我编写的代码,用于获取所有中的内容我的html页面中的标记并删除它们。我的html代码与此类似:sometext...sometex

PHP DOM 解析器移动关闭 Div 标记

这是我的代码:$myHtml='texttext';$doc=new\DOMDocument();$doc->loadHTML($myHtml,LIBXML_HTML_NOIMPLIED|LIBXML_HTML_NODEFDTD);$xpath=new\DOMXPath($doc);$anchors=$xpath->query("//a[@title='somethingsomething']");$list=$xpath->query("//ul[@class='some-class']")[0];foreach($anchorsas$a){$list->removeChild($a

PHP Simple HTML DOM Parser 不处理无效的 HTML - 在第一次试用时卡住了

我正在尝试使用PHPSimpleHTMLDOMParser绝对没有运气。我的例子很简单,似乎符合手册中给出的例子(simplehtmldom.sourceforgeATnet/manual.htm)但它只是行不通,这让我难以自拔。使用简单dom给出的其他示例脚本工作正常。参见示例:linktext这是我找到的最简单的示例...如何解析它?我应该用Perl来做吗?示例HTML页面是无效的HTML。我不知道SimpleHTMLDOMParser是否能够处理格式错误的HTML(可能不是)。好吧:如果我无法让它运行,我可以尝试一些Perl解析器,例如HTML::TreeBuilder::XPa

php - 基于 DOM 的 XSS 攻击和 InnerHTML

如何保护以下基于DOM的XSS攻击?具体来说,是否有一个protect()函数可以使下面的内容安全?如果不是,那么还有其他解决方案吗?例如:给div一个id,然后为元素分配一个onclick处理程序varxss="";$("#mydiv").html("")我希望得到的答案不是“避免使用innerHTML”或“将xss变量正则表达式为[a-zA-Z0-9]”...即:是否有更通用的解决方案?谢谢 最佳答案 扩展Vineet的回复,这里有一组要研究的测试用例:http://ha.ckers.org/xss.html

带有变量的PHP简单html dom解析器div id

我是PHP新手,遇到了一些小问题。如何使用简单的htmldom解析器搜索变量?我的id是“ti”,有几个同名的div。我只需要第一个。如果我把ti而不是$variable放到代码中,代码就可以工作。谢谢!find('div[id=$variable]',0);if($ret){echo$ret->innertext;}?> 最佳答案 您需要使用双引号(即"而不是')在PHP字符串中嵌入变量,如下所示:$ret=$html->find("div[id=$variable]",0); 关于带