草庐IT

python - Pyparsing : white spaces sometimes matter. .. 有时不

coder 2023-05-22 原文

我想为包含多个部分的文件创建一个语法(如下面的 PARAGRAPH)。

一节以其关键字(例如 PARAGRAPH)开头,后跟标题(此处为标题),其内容在以下几行中,一行内容是该节的一行。
照原样,它就像一个带有标题、列和行的表格。

在下面的示例(表格文件)中,我将把这些部分限制为一列一行。

Tablefile 的自上而下 BNF:

tablefile := paragraph*
paragraph := PARAGRAPH title CR
             TAB content
title, content := \w+

Pyparsing 语法:

由于我需要处理换行符和制表符,我需要将默认空格设置为“”。
def grammar():
    '''
    Bottom-up grammar definition
    '''

    ParserElement.setDefaultWhitespaceChars(' ')
    TAB = White("\t").suppress()
    CR = LineEnd().setName("Carriage Return").suppress()
    PARAGRAPH = 'PARAGRAPH'

    title = Word(alphas)
    content = Word(alphas)
    paragraph = (PARAGRAPH + title + CR
                 + TAB + content)

    tablefile = OneOrMore(paragraph)
    tablefile.parseWithTabs()

    return tablefile

应用于示例

这个虚拟示例很容易匹配:
PARAGRAPH someTitle
          thisIsContent

这个其他少:
PARAGRAPH someTitle
          thisIsContent
PARAGRAPH otherTitle
          thisIsOtherContent

它等待 PARAGRAPH在第一个内容之后,偶然发现换行符(记住 setDefaultWhitespaceChars(' '))。
我是否被迫添加 CR?末尾有paragraph ?
忽略这种最后换行符的更好方法是什么?

此外,我希望允许制表符和空格在文件中的任何位置而不受干扰。
唯一需要的行为是以 TAB 开始一个段落内容。 , 和 PARAGRAPH开始生产线。
这也意味着跳过段落中和段落之间的空白行(带有制表符和空格或什么都没有)。

因此我添加了这一行:
tablefile.ignore(LineStart() + ZeroOrMore(White(' \t')) + LineEnd())

但是我刚刚公开的每个需求似乎都与我将默认空格设置为 ' ' 的需要背道而驰。让我陷入死胡同。

事实上,这会导致一切崩溃:
tablefile.ignore(CR)
tablefile.ignore(TAB)

将 PARAGRAPH 和 TAB 粘贴到行首

如果我想要 \t被忽略为 在文本中的任何地方,但在行首。
我将不得不将它们添加到默认的空白字符中。

因此,我找到了一种方法来禁止行首的每个空格字符。
通过使用 leaveWhitespace方法。此方法在匹配 token 之前保留它遇到的空格。
因此,我可以将一些标记粘贴到行首。
ParserElement.setDefaultWhitespaceChars('\t ')
SOL = LineStart().suppress()
EOL = LineEnd().suppress()

title = Word()
content = Word()
PARAGRAPH = Keyword('PARAGRAPH').leaveWhitespace()
TAB = Literal('\t').leaveWhitespace()

paragraph = (SOL + PARAGRAPH + title + EOL
             + SOL + TAB + content + EOL)

使用此解决方案,我解决了文本中任何位置的 TAB 问题。

分隔段落

经过一番思考,我找到了 PaulMcGuire ( delimitedList ) 的解决方案。
我遇到了一些问题。

事实上,这里有两种不同的方式来声明两个段落之间的换行符。
在我看来,它们应该是等价的。在实践中,他们不是?

崩溃测试(如果您运行它,请不要忘记使用制表符更改空格):
PARAGRAPH titleone
          content1
PARAGRAPH titletwo
          content2

两个例子之间的共同部分:
ParserElement.setDefaultWhitespaceChars('\t ')
SOL = LineStart().suppress()
EOL = LineEnd().suppress()

title = Word()
content = Word()
PARAGRAPH = Keyword('PARAGRAPH').leaveWhitespace()
TAB = Literal('\t').leaveWhitespace()

第一个例子,工作一个:
paragraph = (SOL + PARAGRAPH + title + EOL
            + SOL + TAB + content + EOL)

tablefile = ZeroOrMore(paragraph)

第二个例子,不工作:
paragraph = (SOL + PARAGRAPH + title + EOL
            + SOL + TAB + content)

tablefile = delimitedList(paragraph, delim=EOL)

他们不应该是等价的吗?第二个引发异常:
Expected end of text (at char 66), (line:4, col:1)
这对我来说不是什么大问题,因为我终于可以退缩了,将 EOL 放在语法的每个类似段落的部分的末尾。但我想强调这一点。

忽略包含空格的空行

我的另一个要求是忽略包含空格( ' \t' )的空行。

一个简单的语法是:
ParserElement.setDefaultWhitespaceChars(' \t')
SOL = LineStart().suppress()
EOL = LineEnd().suppress()

word = Word('a')
entry = SOL + word + EOL

grammar = ZeroOrMore(entry)
grammar.ignore(SOL + EOL)

最后,文件每行可以包含一个单词,任何地方都可以有任何空格。
它应该忽略空行。

令人高兴的是,确实如此。但它不受默认空格声明的影响。包含空格或制表符的空行将导致解析器引发解析异常。

这种行为绝对不是我所期望的。是指定的吗?这个简单的尝试是否有错误?

我可以在这个线程中看到 PaulMcGuire 并没有试图忽略空行,而是在类似 makefile 的语法解析器( NL = LineEnd().suppress() )中将它们标记化。

Any python module for customized BNF parser?
makefile_parser = ZeroOrMore( symbol_assignment
                             | task_definition
                             | NL )

我现在唯一的解决方案是预处理文件并删除空行中包含的空格,因为 pyparsing 正确忽略了其中没有空格的空行。
import os
preprocessed_file = os.tmpfile()    
with open(filename, 'r') as file:
    for line in file:
        # Use rstrip to preserve heading TAB at start of a paragraph line
        preprocessed_file.write(line.rstrip() + '\n')
preprocessed_file.seek(0)

grammar.parseFile(preprocessed_file, parseAll=True)

最佳答案

您的 BNF 仅包含 CR,但您解析代码以使用 LF 终止。这是故意的吗? BNF supports LF (Unix)、CR (Mac) 和 CRLF (Win) EOL:

Rule_|_Def.__|_Meaning___
CR   | %x0D  | carriage return
LF   | %x0A  | linefeed
CRLF | CR LF | Internet standard newline

关于python - Pyparsing : white spaces sometimes matter. .. 有时不,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22962863/

有关python - Pyparsing : white spaces sometimes matter. .. 有时不的更多相关文章

  1. python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声? - 2

    关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。

  2. Python 相当于 Perl/Ruby ||= - 2

    这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:Pythonconditionalassignmentoperator对于这样一个简单的问题表示歉意,但是谷歌搜索||=并不是很有帮助;)Python中是否有与Ruby和Perl中的||=语句等效的语句?例如:foo="hey"foo||="what"#assignfooifit'sundefined#fooisstill"hey"bar||="yeah"#baris"yeah"另外,类似这样的东西的通用术语是什么?条件分配是我的第一个猜测,但Wikipediapage跟我想的不太一样。

  3. java - 什么相当于 ruby​​ 的 rack 或 python 的 Java wsgi? - 2

    什么是ruby​​的rack或python的Java的wsgi?还有一个路由库。 最佳答案 来自Python标准PEP333:Bycontrast,althoughJavahasjustasmanywebapplicationframeworksavailable,Java's"servlet"APImakesitpossibleforapplicationswrittenwithanyJavawebapplicationframeworktoruninanywebserverthatsupportstheservletAPI.ht

  4. 华为OD机试用Python实现 -【明明的随机数】 2023Q1A - 2

    华为OD机试题本篇题目:明明的随机数题目输入描述输出描述:示例1输入输出说明代码编写思路最近更新的博客华为od2023|什么是华为od,od薪资待遇,od机试题清单华为OD机试真题大全,用Python解华为机试题|机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为o

  5. python - 如何读取 MIDI 文件、更改其乐器并将其写回? - 2

    我想解析一个已经存在的.mid文件,改变它的乐器,例如从“acousticgrandpiano”到“violin”,然后将它保存回去或作为另一个.mid文件。根据我在文档中看到的内容,该乐器通过program_change或patch_change指令进行了更改,但我找不到任何在已经存在的MIDI文件中执行此操作的库.他们似乎都只支持从头开始创建的MIDI文件。 最佳答案 MIDIpackage会为您完成此操作,但具体方法取决于midi文件的原始内容。一个MIDI文件由一个或多个音轨组成,每个音轨是十六个channel中任何一个上的

  6. 「Python|Selenium|场景案例」如何定位iframe中的元素? - 2

    本文主要介绍在使用Selenium进行自动化测试或者任务时,对于使用了iframe的页面,如何定位iframe中的元素文章目录场景描述解决方案具体代码场景描述当我们在使用Selenium进行自动化测试的时候,可能会遇到一些界面或者窗体是使用HTML的iframe标签进行承载的。对于iframe中的标签,如果直接查找是无法找到的,会抛出没有找到元素的异常。比如近在咫尺的例子就是,CSDN的登录窗体就是使用的iframe,大家可以尝试通过F12开发者模式查看到的tag_name,class_name,id或者xpath来定位中的页面元素,会抛出NoSuchElementException异常。解决

  7. python ffmpeg 使用 pyav 转换 一组图像 到 视频 - 2

    2022/8/4更新支持加入水印水印必须包含透明图像,并且水印图像大小要等于原图像的大小pythonconvert_image_to_video.py-f30-mwatermark.pngim_dirout.mkv2022/6/21更新让命令行参数更加易用新的命令行使用方法pythonconvert_image_to_video.py-f30im_dirout.mkvFFMPEG命令行转换一组JPG图像到视频时,是将这组图像视为MJPG流。我需要转换一组PNG图像到视频,FFMPEG就不认了。pyav内置了ffmpeg库,不需要系统带有ffmpeg工具因此我使用ffmpeg的python包装p

  8. Python 刷Leetcode题库,顺带学英语单词(31) - 2

    ValidPalindromeGivenastring,determineifitisapalindrome,consideringonlyalphanumericcharactersandignoringcases. [#125]Example:"Aman,aplan,acanal:Panama"isapalindrome."raceacar"isnotapalindrome.Haveyouconsiderthatthestringmightbeempty?Thisisagoodquestiontoaskduringaninterview.Forthepurposeofthisproblem

  9. python - 是否可以使用 Ruby 或 Python 禁用 anchor /引用来发出有效的 YAML? - 2

    是否可以在PyYAML或Ruby的Psych引擎中禁用创建anchor和引用(并有效地显式列出冗余数据)?也许我在网上搜索时遗漏了一些东西,但在Psych中似乎没有太多可用的选项,而且我也无法确定PyYAML是否允许这样做.基本原理是我必须序列化一些数据并将其以可读的形式传递给一个不是真正的技术同事进行手动验证。有些数据是多余的,但我需要以最明确的方式列出它们以提高可读性(anchor和引用是提高效率的好概念,但不是人类可读性)。Ruby和Python是我选择的工具,但如果有其他一些相当简单的方法来“展开”YAML文档,它可能就可以了。 最佳答案

  10. .net - .NET 将如何影响 Python 和 Ruby 应用程序? - 2

    我很好奇.NET将如何影响Python和Ruby应用程序。用IronPython/IronRuby编写的应用程序是否会非常特定于.NET环境,以至于它们实际上将变得特定于平台?如果他们不使用任何.NET功能,那么IronPython/IronRuby相对于非.NET同类产品的优势是什么? 最佳答案 我不能说任何关于IronRuby的东西,但是大多数Python实现(如IronPython、Jython和PyPy)都试图尽可能忠实于CPython实现。不过,IronPython正在迅速成为这方面的佼佼者之一,并且在PlanetPyth

随机推荐