草庐IT

MODE_STREAMING

全部标签

streaming - Hadoop 流式 grep 不起作用

Grep似乎不适用于hadoop流对于:hadoopjar/usr/local/hadoop-0.20.2/contrib/streaming/hadoop-0.20.2-streaming.jar-input/user/root/tmp2/user.data-output/user/root/selected_data-mapper'/bin/grep1938678460'-reducer'wc'-jobconfmapred.output.compress=false我得到:java.lang.RuntimeException:PipeMapRed.waitOutputThreads

hadoop - 持久化 Spark Streaming 输出

我正在从一个消息传递应用程序收集数据,我目前正在使用Flume,它每天发送大约5000万条记录我想用卡夫卡,使用SparkStreaming从Kafka消费并将其持久化到hadoop并使用impala进行查询我尝试过的每种方法都有问题..方法1-将RDD保存为parquet,将外部hiveparquet表指向parquet目录//scalavalssc=newStreamingContext(sparkConf,Seconds(bucketsize.toInt))vallines=KafkaUtils.createStream(ssc,zkQuorum,group,topicMap).

hadoop - 将目录而不是文件传递给 hadoop-streaming?

在我的工作中,我需要解析许多历史日志集。个别客户(有数千个)可能有数百个按日期划分的日志子目录。例如:日志/Customer_One/2011-01-02-001日志/Customer_One/2012-02-03-001日志/Customer_One/2012-02-03-002日志/Customer_Two/2009-03-03-001日志/Customer_Two/2009-03-03-002每个单独的日志集本身可能有五到六个级别的深度,并且包含数千个文件。因此,我实际上希望各个映射作业处理遍历子目录:简单地枚举各个文件是我的分布式计算问题的一部分!不幸的是,当我尝试将仅包含日志

scala - 在 spark-streaming 上下文中将 RDD 写入 HDFS

我有一个带有spark1.2.0的spark流环境,我从本地文件夹中检索数据,每次我发现一个新文件添加到该文件夹​​时,我都会执行一些转换。valssc=newStreamingContext(sc,Seconds(10))valdata=ssc.textFileStream(directory)为了对DStream数据进行分析,我必须将其转换为数组vararr=newArrayBuffer[String]();data.foreachRDD{arr++=_.collect()}然后我使用获得的数据提取我想要的信息并将它们保存在HDFS上。valmyRDD=sc.parallelize

hadoop - 带有动态查找表的 Spark Streaming

我目前正在研究使用SparkStreaming来接收类似日志文件的条目,并出于统计原因对它们进行一些计算。HDFS上保存着数据集,现在可以从HBase和Hive访问,需要这些数据集来查找一些数据并进行转换,例如IP与机器名称和机器所有者之间的映射。spark应用程序预计将在我们的集群上日复一日地运行数周而无需重新启动。但是,这些引用表每隔几个小时就会更新一次。如果使用的数据稍微老一点还好,但是两周的数据就不行了。因此,我想知道如何在map和reduce阶段中查找数据以进行转换和丰富。我有几个想法。广播变量可以读取数据集并有效地传递它。但是,一旦设置了广播变量,就无法更改,并且在驱动程序

hadoop - hadoop中 "uber mode"的作用是什么?

大家好,我是一名大数据新手。我在整个互联网上进行了搜索,以找到super模式到底是什么。我搜索得越多,我就越困惑。任何人都可以帮助我回答我的问题吗?优步模式有什么作用?它在mapred1.x和2.x中的工作方式是否不同?我在哪里可以找到它的设置? 最佳答案 Hadoop2中的UBER模式是什么?通常映射器和缩减器将由ResourceManager(RM)运行,RM将为映射器和缩减器创建单独的容器。Uber配置,将允许在与ApplicationMaster(AM)相同的进程中运行映射器和缩减器。优步职位:Uber作业是在MapRedu

php - ftp_get - 警告 : ftp_get(): Opening BINARY mode data connection

我正在尝试编写一个将从FTP服务器下载文件的脚本。它们都相当大(每个近2GB)。该脚本开始运行,但最终因上述错误而终止。跟尺寸有关吗?有没有解决的办法?这是代码:\r\n");return;}if(!(is_dir($dir)))mkdir($dir);chdir($dir);}$contents=ftp_nlist($conn_id,".");foreach($contentsas$file){if($file=='.'||$file=='..')continue;if(@ftp_chdir($conn_id,$file)){ftp_chdir($conn_id,"..");ftp_

php - 为什么 PEAR Math_BigInteger(48) => 0? (案例 : MATH_BIGINTEGER_MODE => default)

我使用了PEAR/Math/BigInteger.phpPHP5.2.5(客户端)Ubuntu但是$a=newMath_BigInteger(48);echo$a->toString()//'0'为什么?是bug吗?它特定于MATH_BIGINTEGER_MODE=>default3528function_int2bytes($x)pack('N',48)=>0我们需要if('48'===(string)$x){$this->value=array('48');return;} 最佳答案 它适用于i686系统:$php-r'requ

php - Vimeo API : streaming upload using HTTP PUT and blueimp's jQuery fileupload

我正在尝试在一个网站上实现一个上传模块,该模块允许我们的用户将视频上传到我们的Vimeo帐户。我正在使用blueimp的jQuery文件上传和Vimeo的新API。https://github.com/blueimp/jQuery-File-Upload/wiki/Optionshttps://developer.vimeo.com/api/upload#http-put-uploading我认为它快要工作了,但我一定遗漏了一些细节。根据Vimeo的API,我需要:1.生成上传票,效果很好2.然后我将upload_link_secure传递给开始上传的jquery文件上传。PUT请求的

php - Twitter REST API – 使用 'Could not authenticate you' 参数时出现 'tweet_mode=extended' 错误

在从https://api.twitter.com/1.1/statuses/user_timeline.json检索数据时,我在使用TwitterRESTAPI和cURL时遇到了一个小问题。我在下面进行了以下设置,效果很好,但是一旦我尝试获取扩展推文(tweet_mode=extended)但将URL替换为https://api.twitter.com/1.1/statuses/user_timeline.json?tweet_mode=extended它出错并显示Couldnotauthenticationyou.如果我删除参数?tweet_mode=extended它再次工作正常