草庐IT

c++ - 我将如何执行此文本模式匹配

coder 2024-02-18 原文

迁移自 [ Spirit-general ] 列表

早上好

我正在尝试跨 4 个 std::strings 解析一个相对简单的模式, 将与模式匹配的任何部分提取到一个单独的 std::string.

在抽象意义上,这就是我想要的:

s1=<string1><consecutive number>, s2=<consecutive number><string2>,
s3=<string1><consecutive number>, s4=<consecutive number><string2>

不太抽象:

s1="apple 1", s2="2 cheese", s3="apple 3", s4="4 cheese"

实际内容:

s1="lxckvjlxcjvlkjlkje xvcjxzlvcj wqrej lxvcjz ljvl;x czvouzxvcu
j;ljfds apple 1 xcvljxclvjx oueroi xcvzlkjv; zjx", s2="xzljlkxvc
jlkjxzvl jxcvljzx lvjlkj wre 2 cheese", s3="apple 3", s4="kxclvj
xcvjlxk jcvljxlck jxcvl 4 cheese"

我将如何执行这种模式匹配?

感谢所有建议,

亚历克·泰勒

更新 2

Here is a really simple explanation I just figured out to explain the problem I am trying to solve:

 std::string s1=garbagetext1+number1+name1+garbagetext4;
 std::string s3=garbagetext2+(number1+2)+name1+garbagetext5;
 std::string s5=garbagetext3+(number1+4)+name1+garbagetext6;

编辑上下文:

Feel free to add it to stackoverflow (I've been having some trouble posting there)

I can't give you what I've done so far, because I wasn't sure if it was within the capabilities of the boost::spirit libraries to do what I'm trying to do

最佳答案

编辑:重新Update2

Here is a really simple explanation I just figured out to explain the problem I am trying to solve:

std::string s1=garbagetext1+number1+name1+garbagetext4;
std::string s3=garbagetext2+(number1+2)+name1+garbagetext5;
std::string s5=garbagetext3+(number1+4)+name1+garbagetext6;

它开始看起来像是一份工作:

  • 标记“垃圾文本/名称”——您可以即时制作各种符号表并使用它来匹配模式( spirit Lex 和 Qi 的符号表 (qi::symbol) 可以 boost 它,但我觉得您可以以多种方式写下)
  • 相反,使用正则表达式,如前所述(below,并且在邮件列表中至少两次)。

这是一个简单的想法:

 (\d+) ([a-z]+).*?(\d+) \2
  • \d+匹配“(子表达式)”(NUM1)
  • 中的数字序列
  • ([a-z]+)匹配一个名字(只是选择了一个简单的“名字”定义)
  • .*?跳过任何长度的垃圾,但在开始后续匹配之前尽可能少
  • \d+匹配另一个数字(数字序列)(NUM2)
  • \2后跟相同 名称 ( backreference )

您可以看到您是如何缩小要检查的匹配项列表到“潜在”匹配项的。您只需/post-validate/即可看到 NUM2 == NUM​​1+2

两个注意事项:

  1. 添加(...)+围绕尾部以允许重复匹配模式

      (\d+) ([a-z]+)(.*?(\d+) \2)+
    
  2. 您可能希望让垃圾跳过 (.*?) 知道分隔符(通过执行 negative zerowidth assertions )以避免超过 2 个跳过分隔符(例如 s\d+=" 作为定界模式)。为了清楚起见,我现在将其排除在范围之外,这是要点:

    ((?!s\d+=").)*?         -- beware of potential performance degradation
    

Alec,以下是在回答您的问题的背景下展示如何在 Boost Spirit 中执行各种操作的案例。

我不得不假设什么是必需的输入结构;我假设

  • 空格是严格的(如图所示的空格,没有换行符)
  • 序列号应该按升序排列
  • 序号应该在文本值中准确出现
  • 关键字“苹果”和“奶酪”严格交替
  • 关键词是在文本值中序号之前还是之后,也是严格交替的

注意 在下面的实现中有大约十几个地方,在这些地方可能已经做出了明显不那么复杂的选择。例如,我可以对整个模式进行硬编码(作为事实上的正则表达式?),假设输入中始终需要 4 个项目。但是我想

但是,该解决方案具有很大的灵 active :

  • 关键字 不是硬编码的,例如,您可以轻松地使解析器接受任何序列号的两个关键字
  • 注释显示了当序列号不同步(不是预期的数字)时如何生成自定义解析异常
  • 当前接受序列号的不同拼写(即 s01="apple 001" 没问题。查看 Unsigned Integer Parsers 了解如何调整该行为的信息)
  • 输出结构是 vector<std::pair<int, std::string> >或结构 vector :

    struct Entry
    {
        int sequence;
        std::string text;
    };
    

    两个版本都可以通过单个 #if 1/0 进行切换行

样本使用升灵气进行解析。 反之,Boost Spirit Karma用于显示解析结果:

format((('s' << auto_ << "=\"" << auto_) << "\"") % ", ", parsed)

帖子中给出的实际内容的输出是:

parsed: s1="apple 1", s2="2 cheese", s3="apple 3", s4="4 cheese"

关于代码。

#include <boost/spirit/include/qi.hpp>
#include <boost/spirit/include/karma.hpp>
#include <boost/spirit/include/phoenix.hpp>
#include <boost/spirit/include/phoenix_operator.hpp>

namespace qi = boost::spirit::qi;
namespace karma = boost::spirit::karma;
namespace phx = boost::phoenix;

#if 1 // using fusion adapted struct

    #include <boost/fusion/adapted/struct.hpp>
    struct Entry
    {
        int sequence;
        std::string text;
    };

    BOOST_FUSION_ADAPT_STRUCT(Entry, (int, sequence)(std::string, text));

#else // using boring std::pair

    #include <boost/fusion/adapted/std_pair.hpp> // for karma output generation
    typedef std::pair<int, std::string> Entry;

#endif

int main()
{
    std::string input =
        "s1=\"lxckvjlxcjvlkjlkje xvcjxzlvcj wqrej lxvcjz ljvl;x czvouzxvcu"
        "j;ljfds apple 1 xcvljxclvjx oueroi xcvzlkjv; zjx\", s2=\"xzljlkxvc"
        "jlkjxzvl jxcvljzx lvjlkj wre 2 cheese\", s3=\"apple 3\", s4=\"kxclvj"
        "xcvjlxk jcvljxlck jxcvl 4 cheese\"";

    using namespace qi;

    typedef std::string::const_iterator It;

    It f(input.begin()), l(input.end());

    int next = 1;
    qi::rule<It, std::string(int)> label;
    qi::rule<It, std::string(int)> value;
    qi::rule<It, int()>            number;
    qi::rule<It, Entry(), qi::locals<int> > assign;

    label  %= qi::raw [ 
                  ( eps(qi::_r1 % 2) >> qi::string("apple ")  > qi::uint_(qi::_r1) )
               |   qi::uint_(qi::_r1) > qi::string(" cheese")
       ];

    value  %= '"' 
        >> qi::omit[ *(~qi::char_('"') - label(qi::_r1)) ]
        >> label(qi::_r1)
        >> qi::omit[ *(~qi::char_('"'))         ]
        >> '"';

    number %= qi::uint_(phx::ref(next)++) /*| eps [ phx::throw_(std::runtime_error("Sequence number out of sync")) ] */;

    assign %= 's' > number[ qi::_a = _1 ] > '=' > value(qi::_a);

    std::vector<Entry> parsed;

    bool ok = false;
    try
    {
        ok = parse(f, l, assign % ", ", parsed);

        if (ok)
        {
            using namespace karma;
            std::cout << "parsed:\t" << format((('s' << auto_ << "=\"" << auto_) << "\"") % ", ", parsed) << std::endl;
        }
    } catch(qi::expectation_failure<It>& e)
    {
        std::cerr << "Expectation failed: " << e.what() << " '" << std::string(e.first, e.last) << "'" << std::endl;
    } catch(const std::exception& e)
    { 
        std::cerr << e.what() << std::endl; 
    }

    if (!ok || (f!=l))
        std::cerr << "problem at: '" << std::string(f,l) << "'" << std::endl;
}

关于c++ - 我将如何执行此文本模式匹配,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8074103/

有关c++ - 我将如何执行此文本模式匹配的更多相关文章

  1. ruby - 如何使用 Nokogiri 的 xpath 和 at_xpath 方法 - 2

    我正在学习如何使用Nokogiri,根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div

  2. ruby - 如何从 ruby​​ 中的字符串运行任意对象方法? - 2

    总的来说,我对ruby​​还比较陌生,我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础,我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用

  3. python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声? - 2

    关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。

  4. ruby-on-rails - 如何验证 update_all 是否实际在 Rails 中更新 - 2

    给定这段代码defcreate@upgrades=User.update_all(["role=?","upgraded"],:id=>params[:upgrade])redirect_toadmin_upgrades_path,:notice=>"Successfullyupgradeduser."end我如何在该操作中实际验证它们是否已保存或未重定向到适当的页面和消息? 最佳答案 在Rails3中,update_all不返回任何有意义的信息,除了已更新的记录数(这可能取决于您的DBMS是否返回该信息)。http://ar.ru

  5. ruby-on-rails - Rails - 子类化模型的设计模式是什么? - 2

    我有一个模型:classItem项目有一个属性“商店”基于存储的值,我希望Item对象对特定方法具有不同的行为。Rails中是否有针对此的通用设计模式?如果方法中没有大的if-else语句,这是如何干净利落地完成的? 最佳答案 通常通过Single-TableInheritance. 关于ruby-on-rails-Rails-子类化模型的设计模式是什么?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.co

  6. ruby-openid:执行发现时未设置@socket - 2

    我在使用omniauth/openid时遇到了一些麻烦。在尝试进行身份验证时,我在日志中发现了这一点:OpenID::FetchingError:Errorfetchinghttps://www.google.com/accounts/o8/.well-known/host-meta?hd=profiles.google.com%2Fmy_username:undefinedmethod`io'fornil:NilClass重要的是undefinedmethodio'fornil:NilClass来自openid/fetchers.rb,在下面的代码片段中:moduleNetclass

  7. ruby-on-rails - 'compass watch' 是如何工作的/它是如何与 rails 一起使用的 - 2

    我在我的项目目录中完成了compasscreate.和compassinitrails。几个问题:我已将我的.sass文件放在public/stylesheets中。这是放置它们的正确位置吗?当我运行compasswatch时,它不会自动编译这些.sass文件。我必须手动指定文件:compasswatchpublic/stylesheets/myfile.sass等。如何让它自动运行?文件ie.css、print.css和screen.css已放在stylesheets/compiled。如何在编译后不让它们重新出现的情况下删除它们?我自己编译的.sass文件编译成compiled/t

  8. ruby - 如何将脚本文件的末尾读取为数据文件(Perl 或任何其他语言) - 2

    我正在寻找执行以下操作的正确语法(在Perl、Shell或Ruby中):#variabletoaccessthedatalinesappendedasafileEND_OF_SCRIPT_MARKERrawdatastartshereanditcontinues. 最佳答案 Perl用__DATA__做这个:#!/usr/bin/perlusestrict;usewarnings;while(){print;}__DATA__Texttoprintgoeshere 关于ruby-如何将脚

  9. ruby - 解析 RDFa、微数据等的最佳方式是什么,使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2

    我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i

  10. ruby - 如何指定 Rack 处理程序 - 2

    Rackup通过Rack的默认处理程序成功运行任何Rack应用程序。例如:classRackAppdefcall(environment)['200',{'Content-Type'=>'text/html'},["Helloworld"]]endendrunRackApp.new但是当最后一行更改为使用Rack的内置CGI处理程序时,rackup给出“NoMethodErrorat/undefinedmethod`call'fornil:NilClass”:Rack::Handler::CGI.runRackApp.newRack的其他内置处理程序也提出了同样的反对意见。例如Rack

随机推荐