草庐IT

bit_stream

全部标签

streaming - Hadoop 流式 grep 不起作用

Grep似乎不适用于hadoop流对于:hadoopjar/usr/local/hadoop-0.20.2/contrib/streaming/hadoop-0.20.2-streaming.jar-input/user/root/tmp2/user.data-output/user/root/selected_data-mapper'/bin/grep1938678460'-reducer'wc'-jobconfmapred.output.compress=false我得到:java.lang.RuntimeException:PipeMapRed.waitOutputThreads

hadoop - 持久化 Spark Streaming 输出

我正在从一个消息传递应用程序收集数据,我目前正在使用Flume,它每天发送大约5000万条记录我想用卡夫卡,使用SparkStreaming从Kafka消费并将其持久化到hadoop并使用impala进行查询我尝试过的每种方法都有问题..方法1-将RDD保存为parquet,将外部hiveparquet表指向parquet目录//scalavalssc=newStreamingContext(sparkConf,Seconds(bucketsize.toInt))vallines=KafkaUtils.createStream(ssc,zkQuorum,group,topicMap).

hadoop - 将目录而不是文件传递给 hadoop-streaming?

在我的工作中,我需要解析许多历史日志集。个别客户(有数千个)可能有数百个按日期划分的日志子目录。例如:日志/Customer_One/2011-01-02-001日志/Customer_One/2012-02-03-001日志/Customer_One/2012-02-03-002日志/Customer_Two/2009-03-03-001日志/Customer_Two/2009-03-03-002每个单独的日志集本身可能有五到六个级别的深度,并且包含数千个文件。因此,我实际上希望各个映射作业处理遍历子目录:简单地枚举各个文件是我的分布式计算问题的一部分!不幸的是,当我尝试将仅包含日志

scala - 在 spark-streaming 上下文中将 RDD 写入 HDFS

我有一个带有spark1.2.0的spark流环境,我从本地文件夹中检索数据,每次我发现一个新文件添加到该文件夹​​时,我都会执行一些转换。valssc=newStreamingContext(sc,Seconds(10))valdata=ssc.textFileStream(directory)为了对DStream数据进行分析,我必须将其转换为数组vararr=newArrayBuffer[String]();data.foreachRDD{arr++=_.collect()}然后我使用获得的数据提取我想要的信息并将它们保存在HDFS上。valmyRDD=sc.parallelize

hadoop - 带有动态查找表的 Spark Streaming

我目前正在研究使用SparkStreaming来接收类似日志文件的条目,并出于统计原因对它们进行一些计算。HDFS上保存着数据集,现在可以从HBase和Hive访问,需要这些数据集来查找一些数据并进行转换,例如IP与机器名称和机器所有者之间的映射。spark应用程序预计将在我们的集群上日复一日地运行数周而无需重新启动。但是,这些引用表每隔几个小时就会更新一次。如果使用的数据稍微老一点还好,但是两周的数据就不行了。因此,我想知道如何在map和reduce阶段中查找数据以进行转换和丰富。我有几个想法。广播变量可以读取数据集并有效地传递它。但是,一旦设置了广播变量,就无法更改,并且在驱动程序

php - PEAR 错误 require_once(Structures/Graph/Node.php) : failed to open stream

我正在尝试使用PEAR安装PHPUnit。无论我运行什么命令,如pearinstallphpunit/PHPUnit、pearinstallStructures_Graph、pearupgrade、pearupgrade--force--alldeps...它总是以结尾Warning:require_once(Structures/Graph/Node.php):failedtoopenstream:NosuchfileordirectoryinPEAR\Structures\Graph.phponline37PHPWarning:require_once(Structures/Gra

php - 使用适用于 PHP 的 AWS 开发工具包上传的 Amazon S3 文件始终为 “application/octet-stream”?

根据docs,contentType是可选的,它将尝试根据文件扩展名确定正确的mime类型。但是,它似乎从不猜测mime类型,并且始终默认为application/octet-stream这是我的代码:$s3=newAmazonS3();$opt=array('fileUpload'=>$_FILES['file']['tmp_name'],'storage'=>Amazons3::STORAGE_REDUCED);$r=$s3->create_object('mybucket',$_FILES['file']['name'],$opt);这是我的AWS控制台的屏幕截图:你如何在不设置

php - Apple Push with proxy 和 stream_context

我必须向iOS设备发送推送通知。我的连接必须通过代理启用。我尝试了一切但没有成功。我有一个错误110连接超时。如果我只是尝试连接到Apple推送的地址,它可以与cURL一起使用。我不知道问题出在哪里。代理配置?PHPstream_context实现错误?这是我的代码:$ctx=stream_context_create();stream_context_set_option($ctx,'ssl','local_cert','certificate.pem');stream_context_set_option($ctx,'ssl','passphrase','my_passphrase

php - Vimeo API : streaming upload using HTTP PUT and blueimp's jQuery fileupload

我正在尝试在一个网站上实现一个上传模块,该模块允许我们的用户将视频上传到我们的Vimeo帐户。我正在使用blueimp的jQuery文件上传和Vimeo的新API。https://github.com/blueimp/jQuery-File-Upload/wiki/Optionshttps://developer.vimeo.com/api/upload#http-put-uploading我认为它快要工作了,但我一定遗漏了一些细节。根据Vimeo的API,我需要:1.生成上传票,效果很好2.然后我将upload_link_secure传递给开始上传的jquery文件上传。PUT请求的

php - 如何将 PHP 的 stream_select() 与 zlib 过滤器一起使用?

我目前有一个用PHP编写的服务器守护进程,它接受传入连接并使用stream_socket_*函数为它们创建网络流,并使用stream_select()轮询事件流。我希望能够将zlib过滤器(使用string_filter_append())添加到任意流,但是当我这样做时,我收到一条错误消息,告诉我stream_select()不能用于轮询已过滤的流。我怎样才能绕过这个限制? 最佳答案 您可以使用管道,并将过滤器添加到管道中。这将允许您在流上使用stream_select,管道将用作zlib的缓冲区。从select()ed流中读取原始