sparking

scala - 在 spark 集群中运行用 Scala 编写的 Spark 代码

我的笔记本电脑上安装了IntelliJIDE。我正在尝试做一些用Scala编写的BigdataSparkPOC。我的要求是用IntelliJIDE写的spark-scala代码在点Run的时候要运行在sparkcluster中。我的spark集群驻留在windowsazurecloud中。我怎样才能做到这一点？最佳答案一种方法是创建一个脚本来运行创建的jar文件，然后运行该脚本。还有另一种使用AzureToolkit插件的方式。您可以使用AzureToolkitforIntelliJIntellijIdea插件提交，运行debu

中运编写 spark section noreferrer scala hadoop apache-spark intellij-idea bigdata

apache-spark - 两个 Neo4J 数据库之间的数据复制

我有一个Neo4j生产数据库和一个灾难恢复数据库。每个周末，生产中的数据应该在灾难恢复数据库中可用。我在生产数据库中只有读取权限。任何人都可以对此有见解。我可以使用任何大数据技术堆栈来实现这一目标。有什么方法可以使用Hadoop、Spark等实现相同。最佳答案这可能太明显了，但你为什么不takeabackupandrestoreitintheDRPenvironment?希望这对您有所帮助。问候，汤姆关于apache-spark-两个Neo4J数据库之间的数据复制，我们在Stack

apache-spark apache section stackoverflow https hadoop neo4j etl

apache-spark - Hadoop/ Spark : How replication factor and performance are related?

在不讨论所有其他性能因素、磁盘空间和名称节点对象的情况下，复制因子如何提高MR、Tez和Spark的性能。如果我们有5个数据链，执行引擎将复制设置为5是否更好？什么是最好的和最坏的值(value)？这对聚合、连接和仅限map的作业有何好处？最佳答案 Hadoop的主要租户之一正在将计算转移到数据。如果您将复制因子设置为大约等于数据节点的数量，则可以保证每台机器都能够处理该数据。但是，正如您提到的，namenode开销非常重要，更多的文件或副本会导致请求缓慢。在不健康的集群中，更多的副本也会使您的网络饱和。我从未见过高于5的数据，而

apache-spark replication section 的 stackoverflow hadoop mapreduce hdfs distributed-computing

apache-spark - 如何通过聚合在 Hive 中转换数据

我有一个如下所示的表数据，我想使用聚合来透视数据。ColumnAColumnBColumnC1completeYes1completeYes2InprogressNo2InprogressNo3Notyetstartedinitiate3Notyetstartedinitiate想要像下面那样旋转ColumnACompleteInprogressNotyetstarted120020203002我们是否可以在hive或Impala中实现这一点？最佳答案使用case和sum聚合:selectColumnA,sum(casewhen

apache-spark apache section code progress hadoop hive impala

scala - 从 HDFS 到 Spark 的文件处理不起作用

我正在尝试从SparkShell上的HDFS读取文件并收到如下错误。当我创建第一个RDD时它工作正常但是当我尝试依赖那个RDD时，它给我带来了一些连接错误。我有单节点hdfs设置，在同一台机器上，我有spark运行。请帮忙。当我在同一个盒子上运行“jps”命令以查看hadoop集群是否按预期工作时，我看到一切正常并看到下面的输出。[hadoop@idcrebalancedev~]$jps23606DataNode28245Jps23982TaskTracker26537Main23738SecondaryNameNode23858JobTracker23488NameNode下面是RD

scala Spark apache hadoop java hdfs bigdata apache-spark

java - Spark 流输出未保存到 HDFS 文件

我正在尝试将Spark流输出保存到HDFS上的文件中。现在，它没有保存任何文件。这是我的代码:StreamingExamples.setStreamingLogLevels();SparkConfsparkConf=newSparkConf().setAppName("MyTestCOunt");JavaStreamingContextssc=newJavaStreamingContext(sparkConf,newDuration(1000));JavaReceiverInputDStreamlines=ssc.socketTextStream(args[0],Integer.par

Spark java code String Integer hadoop apache-spark

python - Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下Spark中的输入可能性。我可以从http://spark.apache.org/docs/latest/programming-guide.html看到，我可以使用sc.textFile()将文本文件读取到RDD，但我想做一些预处理，然后再分发到RDD，例如我的文件可能是JSON格式例如。{id:123,text:"...",value:6}我只想使用JSON的某些字段进行进一步处理。我的想法是，是否有可能以某种方式使用Python生成器作为SparkContext的输入？或者如果Spark中有一些更自然的方式来处理自定义文件，而不是由Spark处理纯文本文件？编辑:似乎接

自定生成器 code section python hadoop apache-spark

hadoop - 将 Spark 的输出合并到一个文件中

我知道我的问题类似于MergeOutputfilesafterreducephase，但是我认为它可能有所不同，因为我仅在本地计算机上使用Spark而不是分布式文件系统。我在单个虚拟机上安装了Spark(用于测试)。输出在Home/Spark_Hadoop/spark-1.1.1-bin-cdh4/中名为“STjoin”的文件夹中的多个文件(part-000000、part-000001等...)中给出。命令hadoopfs-getmerge/Spark_Hadoop/spark-1.1.1-bin-cdh4/STjoin/desired/local/output/file.txt似乎

hadoop Spark section code apache-spark hdfs

hadoop - 加入 Spark 太慢了。有什么办法可以优化吗？

这是我的场景。HDFS中有两个数据源。一个是具有20,000行的元素列表，而另一个由具有相同元素类型的3,000,000,000行组成。我打算计算dataset2中的行数，其元素存在于dataset1中。代码片段如下:valconf=newSparkConf().setAppName("test")valsc=newSparkContext(conf)valds1Rdd=sc.textFile("/dataset_1").keyBy(line=>line)valds2Rdd=sc.textFile("/dataset_2").keyBy(line=>line)println(ds1Rd

hadoop Spark section code dataset apache-spark

c# - Hadoop/Spark 上 .NET 场景模拟(DAG 作业)的分布式计算

我目前正在研究一种使用Hadoop或Spark在集群上运行.NETDAG作业(场景模拟)的方法。在这两种情况下，我都遇到了有关代码语言的问题。如果发现Spark支持用以下语言编写的代码:Scala、Python、Java和R，但不支持.NET。Hadoop确实支持在.NET中编写作业，但是我没有在.NET上找到Hadoop的DAG实现。有没有办法使用.NET编程语言在集群/云上实现作业的DAG？最佳答案 ApacheSpark的C#语言绑定(bind)现在可通过SparkCLR(https://github.com/Microso

c#Hadoop section Spark NET .net apache-spark directed-acyclic-graphs

241 242 243244245 246 247