php - 从字符串中提取启发式(模糊)日期？

coder 2024-05-03 原文

我在启发式解析包含日期但格式相当随意(未知)的文本字符串时遇到问题。

function parseDateStr($text) {
    $cleanText = filter($text);
    # ...
    $day = findDay($cleanText);
    $month = findMonth($cleanText);
    $year = findYear($cleanText);
    # .. assert constraints, parse again or fail
    return sprintf('%04d-%02d-%02d', $year, $month, $day)
}

输入文本是英语语言加上任意语法符号(如\W 正则表达式类的子集)的句子。该算法的任务是仅在过滤掉与日期无关的任何潜在垃圾(嘈杂)词后才提取日期。允许算法失败并且不返回任何结果。如果在字符串中只找到两个连接数字 (MM) 和其他四个数字 (YYYY) 的两个组合 - 假设两个数字对应于日期的月份，并且日期被认为是 01(第一天这个月)。结果以“YYYY-MM-DD”(SQL) 格式(DATE 类型)给出日期。

我的想法是继续使用 preg_replace & co 设计一系列过滤器。此外，对 $year、$day 的范围使用逻辑约束，对 $month 等使用词汇表，但如果可以想到或已经存在类似但更优雅的解决方案或方法，我不会感到惊讶。如果是这样，请让我知道他们。如果可以指出任何批评或潜在的陷阱，我也将不胜感激。

与类似问题的关系:

请注意，该问题不同于更基本的日期解析问题:

因为在我的例子中我无法指定或确定字符串的格式。另一方面，以下问题讨论了类似的任务:

我不确定最后一个是否重复，我最终不清楚 OP 想要解析什么(尽管 checkdate 和 date_parse 似乎是部分有用)。但是关于整个“mokey business”的第一个问题对于我的案例也是如此，并且已经通过模糊解析解决了

dparser.parse("monkey 2010-07-10 love banana",fuzzy=True)

最后，第二个包含很好的抓取正则表达式(几乎“模糊”)。

elegant 的 PS 我知道代码相当紧凑(对性能没有重大限制，因此可以使用“hacky”正则表达式)。

最佳答案

时间库

好吧，date_parse 的表现非常非常 很好，了解原因很有教育意义。 PHP 函数 date_parse是 ext/date/lib 的一部分或 timelib，并且显然(尽管缺乏适当的文档)它在 C 中的实现(由 Derick Rethans 编写并从 Zend Engine 宏部分调用声明)使它成为一个聪明的工具:

date_parse 已经模糊:文档页面上有很多警告(和提示)功能容忍和解析太多但显然它实际上是一个功能而不是错误(否则应该使用 date_parse_from_format 或相应的 DateTime::createFromFormat())
date_parse 以相对聪明的方式使用(很多)正则表达式(基于 re2c )
除了过滤之外，这个“扫描仪”还寻找所有可能的单词和日期格式组合(从已知月份和时区的列表中)，最后，通过寻找 YYYY、MM 和DD“分别”(与我需要做的非常相似)。
date_parse 是一个真正的编译“扫描器”，带有前瞻逻辑和错误报告，可以由用户进一步处理(没有异常(exception)，只是嵌套结果数组中的消息)。
甚至还有一个python package包装 timelib 的 C 代码(所以我什至不确定在“解析猴子业务”timelib 或 python-dateutil 中哪个最终更好)

测试和示例

就我而言，我未能从我的数据集中找到任何未被 date_parse 解析的输入示例，即:

echo FuzzyDateParser::fromText('banana 1/2/3');
echo FuzzyDateParser::fromText('Joe Soap was born on 12 February 1981'));
echo FuzzyDateParser::fromText('2005 Feb., reprint'));
echo FuzzyDateParser::fromText('!'); # will fail to parse, producing an empty string.
echo FuzzyDateParser::fromText('monkey 2010-07-10 loves bananas and php');

FuzzyDateParser 类的代码可以在这个 gist 中找到.它可以用作处理错误的模板，并实现从 date_parse 结果到自己的自定义逻辑的回退(我最终不必为我的案例做这件事)。

关于php - 从字符串中提取启发式(模糊)日期？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15350309/

启发式启发 strong date parse php regex algorithm heuristics

有关php - 从字符串中提取启发式(模糊)日期？的更多相关文章

ruby - 如何从 ruby 中的字符串运行任意对象方法？ - 2
总的来说，我对ruby还比较陌生，我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础，我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用
Ruby 解析字符串 - 2
我有一个字符串input="maybe(thisis|thatwas)some((nice|ugly)(day|night)|(strange(weather|time)))"Ruby中解析该字符串的最佳方法是什么？我的意思是脚本应该能够像这样构建句子:maybethisissomeuglynightmaybethatwassomenicenightmaybethiswassomestrangetime等等，你明白了......我应该一个字符一个字符地读取字符串并构建一个带有堆栈的状态机来存储括号值以供以后计算，还是有更好的方法？也许为此目的准备了一个开箱即用的库？
ruby-on-rails - 在 Rails 中将文件大小字符串转换为等效千字节 - 2
我的目标是转换表单输入，例如“100兆字节”或“1GB”，并将其转换为我可以存储在数据库中的文件大小(以千字节为单位)。目前，我有这个:defquota_convert@regex=/([0-9]+)(.*)s/@sizes=%w{kilobytemegabytegigabyte}m=self.quota.match(@regex)if@sizes.include?m[2]eval("self.quota=#{m[1]}.#{m[2]}")endend这有效，但前提是输入是倍数(“gigabytes”，而不是“gigabyte”)并且由于使用了eval看起来疯狂不安全。所以，功能正常，
ruby-on-rails - unicode 字符串的长度 - 2
在我的Rails(2.3，Ruby1.8.7)应用程序中，我需要将字符串截断到一定长度。该字符串是unicode，在控制台中运行测试时，例如'א'.length，我意识到返回了双倍长度。我想要一个与编码无关的长度，以便对unicode字符串或latin1编码字符串进行相同的截断。我已经了解了Ruby的大部分unicode资料，但仍然有些一头雾水。应该如何解决这个问题？最佳答案 Rails有一个返回多字节字符的mb_chars方法。试试unicode_string.mb_chars.slice(0,50)
ruby - 将差异补丁应用于字符串/文件 - 2
对于具有离线功能的智能手机应用程序，我正在为Xml文件创建单向文本同步。我希望我的服务器将增量/差异(例如GNU差异补丁)发送到目标设备。这是计划:Time=0Server:hasversion_1ofXmlfile(~800kiB)Client:hasversion_1ofXmlfile(~800kiB)Time=1Server:hasversion_1andversion_2ofXmlfile(each~800kiB)computesdeltaoftheseversions(=patch)(~10kiB)sendspatchtoClient(~10kiBtransferred)Cl
ruby-on-rails - Rails 常用字符串(用于通知和错误信息等) - 2
大约一年前，我决定确保每个包含非唯一文本的Flash通知都将从模块中的方法中获取文本。我这样做的最初原因是为了避免一遍又一遍地输入相同的字符串。如果我想更改措辞，我可以在一个地方轻松完成，而且一遍又一遍地重复同一件事而出现拼写错误的可能性也会降低。我最终得到的是这样的:moduleMessagesdefformat_error_messages(errors)errors.map{|attribute,message|"Error:#{attribute.to_s.titleize}#{message}."}enddeferror_message_could_not_find(obje
ruby - 如何以所有可能的方式将字符串拆分为长度最多为 3 的连续子字符串？ - 2
我试图获取一个长度在1到10之间的字符串，并输出将字符串分解为大小为1、2或3的连续子字符串的所有可能方式。例如:输入:123456将整数分割成单个字符，然后继续查找组合。该代码将返回以下所有数组。[1,2,3,4,5,6][12,3,4,5,6][1,23,4,5,6][1,2,34,5,6][1,2,3,45,6][1,2,3,4,56][12,34,5,6][12,3,45,6][12,3,4,56][1,23,45,6][1,2,34,56][1,23,4,56][12,34,56][123,4,5,6][1,234,5,6][1,2,345,6][1,2,3,456][123
ruby - 什么是填充的 Base64 编码字符串以及如何在 ruby 中生成它们？ - 2
我正在使用的第三方API的文档状态:"[O]urAPIonlyacceptspaddedBase64encodedstrings."什么是“填充的Base64编码字符串”以及如何在Ruby中生成它们。下面的代码是我第一次尝试创建转换为Base64的JSON格式数据。xa=Base64.encode64(a.to_json) 最佳答案他们说的padding其实就是Base64本身的一部分。它是末尾的“=”和“==”。Base64将3个字节的数据包编码为4个编码字符。所以如果你的输入数据有长度n和n%3=1=>"=="末尾用于填充n%
ruby - 如何使用文字标量样式在 YAML 中转储字符串？ - 2
我有一大串格式化数据(例如JSON)，我想使用Psychinruby同时保留格式转储到YAML。基本上，我希望JSON使用literalstyle出现在YAML中:---json:|{"page":1,"results":["item","another"],"total_pages":0}但是，当我使用YAML.dump时，它不使用文字样式。我得到这样的东西:---json:!"{\n\"page\":1,\n\"results\":[\n\"item\",\"another\"\n],\n\"total_pages\":0\n}\n"我如何告诉Psych以想要的样式转储标量？解
ruby 正则表达式 - 如何替换字符串中匹配项的第 n 个实例 - 2
在我的应用程序中，我需要能够找到所有数字子字符串，然后扫描每个子字符串，找到第一个匹配范围(例如5到15之间)的子字符串，并将该实例替换为另一个字符串“X”。我的测试字符串s="1foo100bar10gee1"我的初始模式是1个或多个数字的任何字符串，例如，re=Regexp.new(/\d+/)matches=s.scan(re)给出["1","100","10","1"]如果我想用“X”替换第N个匹配项，并且只替换第N个匹配项，我该怎么做？例如，如果我想替换第三个匹配项“10”(匹配项[2])，我不能只说s[matches[2]]="X"因为它做了两次替换“1fooX0barXg

php - 从字符串中提取启发式(模糊)日期？

时间库

测试和示例

有关php - 从字符串中提取启发式(模糊)日期？的更多相关文章

随机推荐