草庐IT

python-requests-html

全部标签

Python直接从网址解析xml

嘿。我试图找到一种方法,但我做不到。我已经在python中设置了一个xml.sax解析器,当我读取一个本地文件(例如calendar.xml)时它工作得很好,但我需要从一个网址读取一个xml文件。我想如果我这样做会行得通:toursxml='http://api.songkick.com/api/3.0/artists/mbid:'+mbid+'/calendar.xml?apikey=---------'toursurl=urllib2.urlopen(toursxml)toursurl=toursurl.read()parser.parse(toursurl)但事实并非如此。我确定

php - 需要 php 来编码特殊字符而不是 html 标签,以便包含在 wordpress 扩展的 rss 文件中

我编写了一个脚本,可以将现有(非wordpress)站点的所有用户、博客和回复导出到wordpress扩展rss文件,以便于导入到新的wordpress安装中,作为迁移的一部分。直到涉及到在法语或加拿大法语短语中带有特殊标点符号的特定博客文章时,这种方法才有效。XMLParsingError:notwell-formedLocation:http://example.com/wordpress_xml/export-to-wp.phpLineNumber2000,Column270:*...l'artdud\uffffplacement...我已经裁剪了上面的完整错误。而不是\ufff

python - 从外籍人士的解析错误中优雅地恢复

XML应该是严格的,因此有一些Unicode字符在XML中是不允许的。但是,我正在尝试使用通常包含这些字符的RSS提要,并且我想避免因无效字符造成的解析错误,或者从中优雅地恢复并呈现文档。请在此处查看示例(无论如何在3月21日):http://feeds.feedburner.com/chrisblattman处理XML提要中的unicode的推荐方法是什么?检测字符并替换为空字节、编辑解析器或其他一些方法? 最佳答案 看起来RSS提要包含一个垂直制表符\x0c,这是非法的pertheXML1.0spec.我的建议是在将数据传递给e

python - 使用 lxml 解析 DTD 时出错

我正在尝试编写一个验证脚本来根据NITFDTD验证XML,http://www.iptc.org/std/NITF/3.4/specification/dtd/nitf-3-4.dtd.基于thispost我提出了以下简单脚本来验证NITFXML文档。Bellow是我在运行脚本时收到的错误消息,它不是很具有描述性并且很难调试。感谢您的帮助。#!/usr/bin/envpythondefmain():fromlxmlimportetree,objectifyfromStringIOimportStringIOf=open('nitf_test.xml')xml_doc=f.read()f

html - 提取 HTML 文件中两个标签之间的数据

我的系统上保存了一个HUUUGEHTML文件,其中包含来自产品目录的数据。数据的结构使得每个产品记录的名称位于两个标签(name)和(/name)之间。每个产品最多有3个属性:名称、产品ID和颜色,但并非所有产品都具有所有这些属性。如何在不混淆产品属性的情况下为每个产品提取这些数据?该文件也是50兆字节!代码示例....'hat'blahblahblah'1829493'blahblahblah'cyan'blahblahblahblahblahblahblahblah'shirt'blahblahblahblahblahblah'193''dress'blahblahblahblah

html - XSLT 总计和小计

这是我的XML:我想将表单元素打印到一组中,然后我想打印该组的总计,例如:读完这组我想打印基于PRONME我想分组...使用XSLT1.0 最佳答案 要以HTML格式显示,您可以使用此模板:td,th{border:1pxsolidblack}PRONMEPPRONMETBONUSPNACRES输出:XSLT:td,th{border:1pxsolidblack}PRONMEPPRONMETBONUSPNACRES结果: 关于html-XSLT总计和小计,我们在StackOverflow

python - 使用带有转义字符作为参数的 XML 使用 WSDL url

我正在执行一个SOAPWeb服务的方法,该方法使用suds库接收3个字符串参数。第一个字符串参数应该是一个XML,另外两个是用户名和密码,这是我的半工作实现。fromsuds.clientimportClienturl="http://www.jonima.com.mx:3014/sefacturapac/TimbradoService?wsdl"client=Client(url)client.service.timbrado(XML_AS_STRING_HERE,'PRUEBA1','12345678')当第一个参数包含转义字符(&符号、引号、撇号、小于、大于)时,方法不起作用,因

html - XSLT:for-each in for-each 不起作用?

我有一个XML文件,它看起来像:foosometextsometextsometextfoobarsomemoretextsomemoretextsomemoretext现在我的XSLT看起来像这样:NewFeatureFixed...我的问题是,通过BugFixes的第二个for-each创建了xml包含此元素的列表项的数量。但我没有得到介于.为什么?我该如何解决这个问题?当然,这不仅适用于BugFix..它适用于所有这些元素,如BugFix、NewFeature(还有更多......我没有在这里列出)问候 最佳答案 在您的for

java - 在 xml 中存储 html 值

试图找出一种方法从html文件中去除特定信息(名称、描述、id等),留下不需要的信息并将其存储在xml文件中。我想尝试使用xslt,因为它可以将xml转换为html...但反过来似乎行不通。老实说,我不知道我应该尝试使用哪种其他语言来完成此任务。我知道基本的java和javascript,但不确定它是否可以做到。我开始时有点迷茫。我乐于接受任何建议/帮助。也愿意学习一门新语言,因为我这样做只是为了好玩。 最佳答案 有许多Java库可以处理格式不正确的HTML输入(根据XML)。这些库还具有用于查询或操作文档的内置方法,但重要的是要认

python - 下载没有 Python unicode 错误的 html

我正在尝试将page_source下载到文件中。但是,每次我得到:UnicodeDecodeError:'ascii'codeccan'tdecodebyte0xc2(orsomethingelse)inposition8304:ordinalnotinrange(128)我试过使用value.encode('utf-8'),但似乎每次它都会抛出相同的异常(除了手动尝试替换每个非ascii字符之外).有没有办法“预处理”html以将其转换为“可写”格式? 最佳答案 有第三方库如BeautifulSoup和lxml可以自动处理编码问题