Spark-Streaming

security - Spark 独立集群的身份验证

我有一个在远程服务器上运行的独立Spark集群，我是Spark的新手。默认情况下，似乎没有身份验证方案保护集群主机的(7077)端口。任何人都可以不受任何限制地简单地向集群提交自己的代码。Sparkdocumentation指出可以使用spark.authenticate.secret参数在独立部署模式下进行身份验证，但并未详细说明应该如何使用它。是否可以使用某种共享secret来阻止任何潜在的攻击者向集群提交任务？谁能解释一下具体是如何配置的？最佳答案启用身份验证支持有2个部分:为主人和所有奴隶设置secret在向集群提交作业

hadoop - 如何在 Hadoop Streaming 中使用 "typedbytes"或 "rawbytes"？

我有一个问题可以通过“typedbytes”或“rawbytes”模式下的HadoopStreaming解决，它允许用Java以外的语言分析二进制数据。(如果没有这个，Streaming会将一些字符(通常是\t和\n)解释为分隔符并提示非utf-8字符。将我所有的二进制数据转换为Base64会减慢工作流程，从而达不到目的。)这些二进制模式是由HADOOP-1722添加的.在调用HadoopStreaming作业的命令行上，“-iorawbytes”让您将数据定义为32位整数大小，后跟该大小的原始数据，“-iotypedbytes”让您将数据定义为1-位零(这意味着原始字节)，后跟32位

amp 34 typedbytes 射器 noreferrer hadoop binary streaming

streaming - Hadoop 或 Hadoop Streaming for MapReduce on AWS

我即将开始一个将在AWS上运行的mapreduce项目，我面临一个选择，是使用Java还是C++。我知道用Java编写项目会使我可以使用更多功能，但是C++也可以通过HadoopStreaming实现它。请注意，我对这两种语言都没有什么背景。一个类似的项目已经用C++完成，代码可供我使用。所以我的问题是:这个额外功能是通过AWS提供的，还是仅在您对云有更多控制权时才相关？为了做出决定，还有什么我应该牢记的，比如hadoop插件的可用性，可以更好地使用一种语言或另一种语言？提前致谢最佳答案您有几个选项可以在AWS上运行Hadoop

Hadoop streaming section C++amazon-web-services mapreduce

python - Hadoop Streaming Job 在 python 中失败

我有一个用Python编写的mapreduce作业。该程序在linuxenv中测试成功，但在Hadoop下运行时失败。这是作业命令:hadoopjar$HADOOP_HOME/contrib/streaming/hadoop-0.20.1+169.127-streaming.jar\-input/data/omni/20110115/exp6-10122-output/home/yan/visitorpy.out\-mapperSessionMap.py-reducerSessionRed.py-fileSessionMap.py\-fileSessionRed.pySession*.

python Streaming java hadoop apache mapreduce

scala - yarn 上的 Spark ；如何将指标发送到 Graphite 水槽？

我是spark的新手，我们正在运行sparkonyarn。我可以很好地运行我的测试应用程序。我正在尝试收集Graphite中的Spark指标。我知道要对metrics.properties文件进行哪些更改。但是我的spark应用程序将如何看到这个conf文件？/xxx/spark/spark-0.9.0-incubating-bin-hadoop2/bin/spark-classorg.apache.spark.deploy.yarn.Client--jar/xxx/spark/spark-0.9.0-incubating-bin-hadoop2/examples/target/sca

水槽 Graphite spark metrics code scala hadoop apache-spark

简单使用Spark、Scala完成对天气数据的指标统计

目录一、前言& 什么是Spark？& 什么是Scala二、数据准备（数据类型的转换）三、Spark部分1、使用Spark完成数据中的“风级”，“风向”、“天气情况”相关指标统计及筛选四、Scala部分1、使用Scala统计某月、全年的温差、平均气温以及最值等相关的指标五、遇到的问题：六、总结一、前言& 什么是Spark？Spark最初由美国加州伯克利大学（UCBerkeley）的AMP（Algorithms,MachinesandPeople）实验室于2009年开发，是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。Spark在诞生之初属于研究性项目，其诸多核心理

指标天气 34 xff strong spark scala 大数据

apache-spark - spark over kubernetes vs yarn/hadoop 生态系统

关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我看到spark比kubernetes有很大的吸引力。它比在Hadoop上运行spark更好吗？这两种方法都以分布式方法运行。有人可以帮助我了解在kubernetes上运行spark与在Hadoop生态系统上运行之间的区别/比较吗？谢谢

spark apache-spark section class notice hadoop kubernetes

hadoop - 如何从命令行运行 Spark-java 程序

关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题editingthispost.关闭8年前。Improvethisquestion我正在spark中运行wordcountjava程序。如何从命令行运行它。

Spark-java hadoop section class notice hdfs apache-spark

scala - Apache Spark 抛出 java.lang.IllegalStateException : unread block data

我们正在做的是:根据网站上的文档安装Spark0.9.1，以及hadoop/hdfs的CDH4(和另一个带有CDH5的集群)发行版。使用sbt构建带有Spark应用程序的fatjar，然后尝试在集群上运行它我还在底部包含了代码片段和sbtdeps。当我用谷歌搜索这个时，似乎有两个有点含糊的回答:a)节点/用户代码上的spark版本不匹配b)需要向SparkConf添加更多的jar现在我知道(b)不是在其他集群上成功运行相同代码但只包含一个jar(它是一个胖jar)的问题。但我不知道如何检查(a)-似乎Spark没有任何版本检查或任何东西-如果它检查版本并抛出“不匹配的版本异常:你有用户

IllegalStateException Apache 34 DAGScheduler scala hadoop hdfs apache-spark

scala - Spark 任务不可序列化(案例类)

当我在闭包中使用扩展Serializable的案例类或类/对象时，Spark抛出Tasknotserializable。objectWriteToHbaseextendsSerializable{defmain(args:Array[String]){valcsvRows:RDD[Array[String]=...valdateFormatter=DateTimeFormat.forPattern("yyyy-MM-ddHH:mm:ss")valusersRDD=csvRows.map(row=>{newUserTable(row(0),row(1),row(2),row(9),row

scala Spark String section UserTable hadoop serialization apache-spark closures

84 85 868788 89 90