stream_writable

java - Apache Spark Streaming 中的非关联聚合

我正在尝试通过apachesparkstreaming在Java中构建一个实用层，用户可以在一段时间内聚合数据(在spark中使用窗口函数)，但似乎所有可用的选项都需要关联函数(采用两个参数).然而，对于一些相当常见的用例，例如在一小时内平均温度传感器值等，sparkAPI似乎是不可能的。有没有其他方法可以实现这种功能？我正在考虑实现重复的交互式查询来实现这一点，但它会太慢。最佳答案统计聚合(平均值、方差)实际上是关联的，可以在线计算。参见here一个很好的数字方法来做到这一点。就参数数量而言，请记住您放入参数的类型是您的选择。

shell - 将目录传递给 hadoop streaming : some help needed

上下文是我正在尝试在AmazonEMR(WebUI)上使用我运行的bash脚本运行流式作业:-inputs3://emrdata/test_data/input-outputs3://emrdata/test_data/output-mappers3://emrdata/test_data/scripts/mapperScript.sh-reducerNONE输入目录中有子目录，这些子目录中有gzip数据文件。mapperScript.sh失败的相关部分是:forfilenamein"$input"/*;dodir_name=`dirname$filename`fname=`basen

streaming 传递子目子目录 section shell hadoop amazon emr

python - 使用 Python 在 Hadoop Streaming 中使用文件

我是Hadoop和MapReduce的新手，正在努力学习。我正在尝试在python中开发一个mapreduce应用程序，我在其中使用来自2个.CSV文件的数据。我只是在映射器中读取这两个文件，然后将文件中的键值对打印到sys.stdout当我在单机上使用程序时，程序运行良好，但使用HadoopStreaming时，出现错误。我想我在读取Hadoop映射器中的文件时犯了一些错误。请帮助我处理代码，并告诉我如何在HadoopStreaming中使用文件处理。mapper.py代码如下。(你可以从评论中理解代码):#!/usr/bin/envpythonimportsysfromnumpyi

Streaming python 射器 section Hadoop mapreduce hadoop-streaming

hadoop - 网络连接(TCP IP)关闭时如何停止Spark Streaming上下文？

换句话说，我不想将Spark流上下文中的“持续时间”设置为一个值，而是想将其设置为(套接字关闭时间-套接字打开时间) 最佳答案您可以使用StreamingListner监听接收器断开连接的接口(interface)，然后关闭流上下文。这用作//definelistenerclassMyListenerextendsStreamingListener{overridedefonReceiverStopped(...){streamingContext.stop()}}//attachlistenerstreamingContext.

Streaming hadoop section 流上套接字 apache-spark

Hadoop Balancer 失败并显示 - IOException : Couldn't set up IO streams (LeaseRenewer Warning)

我在通过Namenode运行HadoopBalancer时遇到了这个错误。关于破解这个的任何提示。该进程还会阻止当前用户并在发出任何其他命令时给出内存不足错误。14/05/0911:30:05WARNhdfs.LeaseRenewer:Failedtorenewleasefor[DFSClient_NONMAPREDUCE_-77290934_1]for936seconds.Willretryshortly...java.io.IOException:Failedonlocalexception:java.io.IOException:Couldn'tsetupIOstreams;Ho

LeaseRenewer IOException java hadoop apache

hadoop - Spark Streaming 异常处理策略

我有一个pyspark流作业，它从s3流式传输目录(使用textFileStream)。每行输入都被解析并输出到hdfs上的parquet格式。这在正常情况下效果很好。但是，当发生以下错误情况之一时，我有哪些选择可以恢复丢失的批量数据？驱动程序在调用foreachRDD时发生异常，其中发生输出操作(可能是HdfsError，或者在输出操作期间出现sparksql异常，例如partitionBy或dataframe.write.parquet())。据我所知，这在Spark中被归类为“Action”(相对于“转换”)。执行器出现异常，可能是因为map()lambda在解析一行时出现异常。

Streaming hadoop code section foreachRDD apache-spark pyspark spark-streaming

scala - 为什么我的 build.sbt 寻找 2.11 版的 hadoop-streaming？

我正在上ApacheSpark的pluralsight类(class)，有一次他们要求我们设置对Hadoop-streaming的依赖。我已将它添加到我的build.sbt文件中，但我得到的结果是出乎意料的:构建.sbtname:="SparkPlayground"version:="1.0"scalaVersion:="2.11.8"libraryDependencies+="org.apache.spark"%%"spark-core"%"2.0.0"%"provided"libraryDependencies+="com.github.scala-incubator.io"%%"

hadoop-streaming streaming scala-sbt scala Resolving hadoop apache-spark sbt

python - 我们可以在 Hadoop Streaming 中级联多个 MapReduce 作业吗(lang : Python)

我正在使用Python，并且必须使用HadoopStreaming处理以下场景:a)Map1->Reduce1->Map2->Reduce2b)我不想存储中间文件c)我不想安装Cascading、Yelp、Oozie等软件包。我将它们保留为最后的选择。我已经在SO和其他地方进行过相同类型的讨论，但找不到关于Python的答案。能否请您提出建议。最佳答案 b)Idontwanttostoreintermediatefilesc)IdontwanttoinstallpackageslikeCascading,Yelp,Oozie.有什

中级 Streaming section blockquote job python hadoop mapreduce hadoop-streaming

unit-testing - 如何对 Hadoop Writable 进行单元测试

我自己实现了WritableComparable，但是我找不到适合单元测试write和readFields方法的好东西。有什么想法吗？最佳答案也许您可以找到更简单的方法来测试您的可写对象，但手动执行序列化/反序列化也可以。例如:MyUtils.java:...importorg.apache.commons.io.IOUtils;...publicstaticbyte[]serialize(Writablewritable)throwsIOException{ByteArrayOutputStreamout=newByteArr

unit-testing Writable section code hadoop

Scala 和 Hive : best way to write a generic method that works with all types of Writable

我正在玩在Scala中为Hive编写通用UDF。我的第一个测试是编写一个函数来对数组(复杂数据类型)求和。我的代码stub如下所示(因为这是stub，请忽略asInstanceOf的用法:D):...classSumElementsextendsGenericUDF{protectedvalexpectedCategories:Array[Category]=Array(ObjectInspector.Category.LIST)protectedvarlistInspector:ListObjectInspector=_@throws(classOf[UDFNullArgumentE

Writable generic code listInspector section scala hadoop generics hive

124 125 126127128 129 130