草庐IT

sparking

全部标签

scala - 在 spark 集群中运行用 Scala 编写的 Spark 代码

我的笔记本电脑上安装了IntelliJIDE。我正在尝试做一些用Scala编写的BigdataSparkPOC。我的要求是用IntelliJIDE写的spark-scala代码在点Run的时候要运行在sparkcluster中。我的spark集群驻留在windowsazurecloud中。我怎样才能做到这一点? 最佳答案 一种方法是创建一个脚本来运行创建的jar文件,然后运行该脚本。还有另一种使用AzureToolkit插件的方式。您可以使用AzureToolkitforIntelliJIntellijIdea插件提交,运行debu

apache-spark - 两个 Neo4J 数据库之间的数据复制

我有一个Neo4j生产数据库和一个灾难恢复数据库。每个周末,生产中的数据应该在灾难恢复数据库中可用。我在生产数据库中只有读取权限。任何人都可以对此有见解。我可以使用任何大数据技术堆栈来实现这一目标。有什么方法可以使用Hadoop、Spark等实现相同。 最佳答案 这可能太明显了,但你为什么不takeabackupandrestoreitintheDRPenvironment?希望这对您有所帮助。问候,汤姆 关于apache-spark-两个Neo4J数据库之间的数据复制,我们在Stack

apache-spark - Hadoop/ Spark : How replication factor and performance are related?

在不讨论所有其他性能因素、磁盘空间和名称节点对象的情况下,复制因子如何提高MR、Tez和Spark的性能。如果我们有5个数据链,执行引擎将复制设置为5是否更好?什么是最好的和最坏的值(value)?这对聚合、连接和仅限map的作业有何好处? 最佳答案 Hadoop的主要租户之一正在将计算转移到数据。如果您将复制因子设置为大约等于数据节点的数量,则可以保证每台机器都能够处理该数据。但是,正如您提到的,namenode开销非常重要,更多的文件或副本会导致请求缓慢。在不健康的集群中,更多的副本也会使您的网络饱和。我从未见过高于5的数据,而

apache-spark - 如何通过聚合在 Hive 中转换数据

我有一个如下所示的表数据,我想使用聚合来透视数据。ColumnAColumnBColumnC1completeYes1completeYes2InprogressNo2InprogressNo3Notyetstartedinitiate3Notyetstartedinitiate想要像下面那样旋转ColumnACompleteInprogressNotyetstarted120020203002我们是否可以在hive或Impala中实现这一点? 最佳答案 使用case和sum聚合:selectColumnA,sum(casewhen

scala - 从 HDFS 到 Spark 的文件处理不起作用

我正在尝试从SparkShell上的HDFS读取文件并收到如下错误。当我创建第一个RDD时它工作正常但是当我尝试依赖那个RDD时,它给我带来了一些连接错误。我有单节点hdfs设置,在同一台机器上,我有spark运行。请帮忙。当我在同一个盒子上运行“jps”命令以查看hadoop集群是否按预期工作时,我看到一切正常并看到下面的输出。[hadoop@idcrebalancedev~]$jps23606DataNode28245Jps23982TaskTracker26537Main23738SecondaryNameNode23858JobTracker23488NameNode下面是RD

java - Spark 流输出未保存到 HDFS 文件

我正在尝试将Spark流输出保存到HDFS上的文件中。现在,它没有保存任何文件。这是我的代码:StreamingExamples.setStreamingLogLevels();SparkConfsparkConf=newSparkConf().setAppName("MyTestCOunt");JavaStreamingContextssc=newJavaStreamingContext(sparkConf,newDuration(1000));JavaReceiverInputDStreamlines=ssc.socketTextStream(args[0],Integer.par

python - Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下Spark中的输入可能性。我可以从http://spark.apache.org/docs/latest/programming-guide.html看到,我可以使用sc.textFile()将文本文件读取到RDD,但我想做一些预处理,然后再分发到RDD,例如我的文件可能是JSON格式例如。{id:123,text:"...",value:6}我只想使用JSON的某些字段进行进一步处理。我的想法是,是否有可能以某种方式使用Python生成器作为SparkContext的输入?或者如果Spark中有一些更自然的方式来处理自定义文件,而不是由Spark处理纯文本文件?编辑:似乎接

hadoop - 将 Spark 的输出合并到一个文件中

我知道我的问题类似于MergeOutputfilesafterreducephase,但是我认为它可能有所不同,因为我仅在本地计算机上使用Spark而不是分布式文件系统。我在单个虚拟机上安装了Spark(用于测试)。输出在Home/Spark_Hadoop/spark-1.1.1-bin-cdh4/中名为“STjoin”的文件夹中的多个文件(part-000000、part-000001等...)中给出。命令hadoopfs-getmerge/Spark_Hadoop/spark-1.1.1-bin-cdh4/STjoin/desired/local/output/file.txt似乎

hadoop - 加入 Spark 太慢了。有什么办法可以优化吗?

这是我的场景。HDFS中有两个数据源。一个是具有20,000行的元素列表,而另一个由具有相同元素类型的3,000,000,000行组成。我打算计算dataset2中的行数,其元素存在于dataset1中。代码片段如下:valconf=newSparkConf().setAppName("test")valsc=newSparkContext(conf)valds1Rdd=sc.textFile("/dataset_1").keyBy(line=>line)valds2Rdd=sc.textFile("/dataset_2").keyBy(line=>line)println(ds1Rd

c# - Hadoop/Spark 上 .NET 场景模拟(DAG 作业)的分布式计算

我目前正在研究一种使用Hadoop或Spark在集群上运行.NETDAG作业(场景模拟)的方法。在这两种情况下,我都遇到了有关代码语言的问题。如果发现Spark支持用以下语言编写的代码:Scala、Python、Java和R,但不支持.NET。Hadoop确实支持在.NET中编写作业,但是我没有在.NET上找到Hadoop的DAG实现。有没有办法使用.NET编程语言在集群/云上实现作业的DAG? 最佳答案 ApacheSpark的C#语言绑定(bind)现在可通过SparkCLR(https://github.com/Microso