草庐IT

preg-grep

全部标签

bash - 使用 unix grep 指定时间范围

您好,我在hdfs中的文件很少,现在我必须提取特定范围内的文件。我怎样才能使用unixgrep命令做到这一点?我的hdfs看起来像这样:-rw-rw-r--3pscorehdpdevs944612014-12-1002:08/data/bus/pharma/shared/purch/availability_alert/proc/2014-12-10_02-07-12-0-rw-rw-r--3pscorehdpdevs9744222014-12-1102:08/data/bus/pharma/shared/purch/availability_alert/proc/2014-12-11

hadoop - hadoop grep 示例中每行一张 map 是否合理?

我是一个hadoop新手。在一个相当大的集群中查看类似实现的hadoop示例时,我想知道为什么grep示例与hadoop代码一起出现,为什么每行有一个映射?我知道从教学实例的角度来看是有道理的。但是在真正的hadoop集群中,grep将在行业(1PB日志文件)规模上完成,是否值得每行创建一个map()?如果我们每行创建一个map,创建map()的开销和跟踪它的tasktracker以及相关的带宽使用是否合理? 最佳答案 不会对每一行都做一个单独的Map任务;您混淆了MapReduce的编程模型和执行模型。当您实现一个映射器时,您正在

Hadoop 'grep' 示例

在Hadoop'grep'示例(Hadoop包附带)中,组参数是什么。你能给我一个例子吗? 最佳答案 免责声明:我还没有运行这个例子,我只是在看了http://wiki.apache.org/hadoop/Grep之后才开始回答。CLI调用是:bin/hadooporg.apache.hadoop.examples.Grep[]你想知道.我怀疑这是正则表达式中的分组。(随机链接-http://www.exampledepot.com/egs/java.util.regex/Group.html)如HadoopGrep链接所述Thec

algorithm - Hadoop 性能分析(Wordcount vs Grep)

我正在从事Hadoop性能分析,并且正在Hadoop上运行一些基准测试。令人惊讶的是,Grep花费的时间几乎是wordcount运行时间的1/10,这是非常不直观的。谁能解释为什么这是真的? 最佳答案 map-reduce惯用法中的很多工作是映射器和缩减器之间的通信。在WordCount示例中,每个单词都会产生一个输出记录(和一个reducer输入)。在Grep示例中,每个匹配的模式都会产生一条输出记录。如果模式不经常匹配,则记录不是很多。我希望映射器的运行时间大致相同,因为两者都受I/O限制,直到它们产生输出为止。两个任务之间的C

streaming - Hadoop 流式 grep 不起作用

Grep似乎不适用于hadoop流对于:hadoopjar/usr/local/hadoop-0.20.2/contrib/streaming/hadoop-0.20.2-streaming.jar-input/user/root/tmp2/user.data-output/user/root/selected_data-mapper'/bin/grep1938678460'-reducer'wc'-jobconfmapred.output.compress=false我得到:java.lang.RuntimeException:PipeMapRed.waitOutputThreads

php - preg_match_all() 如何处理字符串?

我仍然在学习很多关于PHP的知识,字符串更改是我感兴趣的东西。我之前使用过preg_match来验证电子邮件地址或只是搜索查询。我刚从这篇文章中来What'swronginmyregularexpression?并且很好奇为什么preg_match_all函数会产生2个字符串,其中1个带有一些字符被剥离,另一个带有所需的输出。根据我对函数的理解,它使用RegEx逐个字符地遍历字符串,以评估如何处理它。这个正则表达式的结构是否可以绕过第一个数组条目并只产生所需的结果?这样你就不必去其他线程了$str='text^name1^Jony~text^secondname1^Smith~text

php - 警告 : preg_match() [function. preg-match]:编译失败:在偏移处没有可重复的内容

我正在尝试将preg_match检查从url检查更改为用户名检查,这是可接受的最小/最大2-16chrs、破折号、空格和连字符。我收到这个错误Warning:preg_match()[function.preg-match]:Compilationfailed:nothingtorepeatatoffset14if(empty($string)||preg_match("#^([\w-]{2,16}*(?:.[\w-]{2,16}*)+):?(d+)?/?#i",$string))寻找URL的旧代码if(empty($string)||preg_match("#^(http|https

php - preg_match : ensure the start and the end contains something

我想要一个正则表达式来确保字符串的开头包含“http://”和“/”以及结尾。这是我想出的一个更长的版本,if(!preg_match("/(^http:\/\//",$site_http)){$error=true;echo'';}elseif(!preg_match("/\/$/",$site_http)){$error=true;echo'';}但我认为这两个表达式可以像下面这样放在一起,但它行不通,if(!preg_match("/(^http:\/\/)&(\/$)/",$site_http)){$error=true;echo'';}我尝试组合的多个表达式一定是错误的!有什

php - 使用 preg_replace 替换空段落,无法识别空格

我需要改变这个:进入这个:在一个字符串上。看起来很简单,但以下内容不起作用:$filecontent=preg_replace('/ /','',$filecontent);$filecontent=preg_replace('/^ /','',$filecontent);$filecontent=preg_replace('/\s/','',$filecontent);$filecontent=preg_replace('/\s+/','',$filecontent);$filecontent=str_replace('','',$filecontent);为了确保我不会发疯,我对x

php - preg_replace 西里尔字符

我想用null替换这些字符[^a-zа-з0-9_],但是当它是多字节字符串时我不能这样做。我尝试使用mb_*、iconv、PCRE、mb_eregi_replace和u修饰符(用于PCRE),但没有一个效果很好。mb_eregi_replace有效,但它只输出正确的utf8字符串,但它不会替换字符,当preg_replace使用相同的正则表达式时..这是我的代码,适用于unicode,但它不会替换文本。function_data($data){mb_regex_encoding('UTF-8');returnmb_eregi_replace('/[^a-zа-з0-9_]+/',''