parsing

Python ElementTree "no element found"异常

大家好。我正在尝试使用ElementTree读取、解析和使用xml文件。以下数据:可悲的是，我的ElementTree给出了一个异常(exception)!!!使用以下代码读取文件:importxml.etree.ElementTreeasET***code***tree=ET.parse("res\\data.xml")root=tree.getroot()异常(exception):File"E:\blabla\core.py",line26,inload_levelproperties*tree=ET.parse("res\\data.xml")*File"E:\Programm

ElementTree amp 34 lt python xml parsing xml-parsing

Python 3 查找字符串中的最后一个数字

如何找到任何大字符串中的最后一个数字？例如，在下面的字符串中，我想要47作为输出:'trbgcolor="aa77bb"td>fontface="verdana"color="white"size="2">b>Total/b>/font>/td>\td>fontface="verdana"color="white"size="2">b>47/b>/font>/td>/tr>'PS:我们不知道这个数字。数字47只是一个例子。它可以是0到900之间的任何数字。最佳答案 >>>importre>>>text='trbgcolor="aa

Python 查找 section font gt string parsing search python-3.x

python - 如何在 Python 中解析人们的名字和姓氏？

所以基本上我需要解析一个名称并找到以下信息:名字名字的首字母(如果员工有名字的首字母，例如D.J.，则使用两个首字母)姓氏(如果员工有Jr.或III.等后缀，则包括在内)这是我正在使用的界面:输入:names=["D.J.RichiesIII","JohnDoe","A.J.HardieJr."]fornameinnames:printparse_name(name)预期输出:{'FirstName':'D.J.','FirstInitial':'D.J.','LastName':'RichiesIII'}{'FirstName':'John','FirstInitial':'J.',

姓氏何在 39 section 首字 python parsing

python - 如何解析这种格式(Praat TextGrid)

TextGrid是Praat程序使用的“分割”文件。我想编写一个解析器来验证数据。我的问题是:您将如何为这种格式编写解析器？逐行阅读还是其他？这是已知格式吗？Filetype="ooTextFile"Objectclass="TextGrid"xmin=0xmax=93.0538775510204tiers?size=3item[]:item[1]:class="IntervalTier"name="diph"xmin=0xmax=93.0538775510204intervals:size=65intervals[1]:xmin=0xmax=1.300090702947846text

TextGrid python nltk_contrib nltk section parsing text

Python:正确处理子命令的全局选项的参数解析器

argparse无法处理接收全局选项的子命令:importargparsep=argparse.ArgumentParser()p.add_argument('--arg',action='store_true')s=p.add_subparsers()s.add_parser('test')将有p.parse_args('--argtest'.split())工作，但在p.parse_args('test--arg'.split())上失败。有人知道python参数解析器可以正确处理子命令的全局选项吗？最佳答案您可以轻松地将此

Python 的 argparse code 39 parsing command-line-arguments subcommand

python - Feedparser.parse() 'SSL: CERTIFICATE_VERIFY_FAILED'

我在feedparser解析HTTPSRSS提要时遇到了这个SSL问题，我真的不知道该怎么办，因为我找不到任何关于feedparser错误的文档:>>>importfeedparser>>>feed=feedparser.parse(rss)>>>feed{'feed':{},'bozo':1,'bozo_exception':URLError(SSLError(1,u'[SSL:CERTIFICATE_VERIFY_FAILED]certificateverifyfailed(_ssl.c:581)'),),'entries':[]}>>>feed["items"][]>>>

CERTIFICATE_VERIFY_FAILED CERTIFICATE section feedparser code python python-2.7 ssl rss

python - datetime strptime - 设置格式以忽略字符串的结尾部分

我有一个可变长度的字符串，我想给strptime一个格式，以便忽略字符串的其余部分。让我举例说明。我有类似的东西9/4/2013,00:00:00,7.8,7.4,9.5310/4/2013,00:00:00,8.64,7.4,9.53我想要一种格式，使命令strptime(line,format)能够读取这些行。像format='%d/%m/%Y,%H:%M:%S*'这样的东西，虽然我知道那是行不通的。我想我的问题有点类似于thisone，但没有答案可以帮助我，我的问题更糟，因为我的字符串的全长可能会有所不同。我觉得dateutil可以解决我的问题，但我找不到可以解决问题的东西。我可

datetime strptime code section python string parsing trailing

python - 如何使用报纸图书馆只解析网站的特定类别？

我使用Python3和newspaper库。据说这个库可以创建一个Source对象，它是一个新闻网站的抽象。但是，如果我只需要某个类别的抽象怎么办。例如，当我使用thisurl我想获取'technology'类别的所有文章。相反，我从'politics'获取文章。我认为在创建Source对象时，报纸只使用域名，在我的例子中是www.kyivpost.com)。有没有办法让它与像http://www.kyivpost.com/technology/这样的url一起工作？最佳答案 newspaper将在可用时使用站点的rss提要；Ky

报纸 python code section technology python-3.x parsing web-scraping python-newspaper

python libxml2 阅读器和 XML_PARSE_RECOVER

我正试图让读者从损坏的XML中恢复过来。将libxml2.XML_PARSE_RECOVER选项与DOMapi(libxml2.readDoc)一起使用，它可以从实体问题中恢复。但是，将选项与阅读器API(由于我们正在解析的文档的大小，这是必不可少的)一起使用是行不通的。它只是陷入了一个永久循环(reader.Read()返回-1):示例代码(带小例子):importcStringIOimportlibxml2DOC="somebroken&xml"reader=libxml2.readerForDoc(DOC,"urn:bogus",None,libxml2.XML_PARSE_RE

XML_PARSE_RECOVER 阅读器 reader libxml2 libxml python

python - 寻找有关如何将 PDF 转换为结构化格式的建议

我想对即将举行的拍卖中列出的一些特性进行一些分析。不幸的是，进行拍卖的城市并未以结构化格式发布信息，而是提供了一个700+pagePDF。的属性(property)正在拍卖。我想知道社区是否有关于如何将所述PDF解析为结构化格式以插入数据库或创建属性电子表格的任何想法。这是每个页面代表的图像:这是一个列出了一些属性的页面:我对python和ruby很满意，所以我在编写解决方案脚本时没有任何问题，但是因为“列”和这些列中的数据没有必要捆绑在一起，所以看起来这将是一个可疑的提议。任何想法将不胜感激。最佳答案在处理了3个小时之后，

结构化 python 39 noreferrer noopener ruby parsing pdf pdf-parsing

212 213 214215216 217 218