spark-submit

apache-spark - 分发文件副本给执行者

我有一堆数据(在S3上)正在复制到本地HDFS(在亚马逊EMR上)。现在我正在使用org.apache.hadoop.fs.FileUtil.copy执行此操作，但尚不清楚这是否会将文件副本分发给执行程序。SparkHistory服务器中肯定没有显示任何内容。HadoopDistCp看起来很像(注意我在S3上，所以它实际上应该是s3-dist-cp构建在dist-cp)除了它是一个命令行工具。我正在寻找一种从Scala脚本(又名Java)调用它的方法。有什么想法/线索吗？最佳答案 cloudcp是使用Spark做复制的例子；文

分发 apache-spark section code spark hadoop hdfs amazon-emr distcp

apache-spark - Azure HDInsight 的 SparkRunner 上的 Apache Beam 管道

我尝试让Beam管道在Azure的HDInsightSparkRunner上运行。我首先尝试使用基于Spark2.3.0/Hadoop2.7(HDI3.6)的集群，然后是2.3.1/Hadoop3.0(HDI4.0Preview)。我尝试使用ApacheBeam2.2.0和下一个2.10.0-SNAPSHOT。spark-submit命令是(对于Beam2.10.0):JARS="wasbs:///dependency/hadoop-azure-3.1.1.3.0.2.0-50.jar,wasbs:///dependency/azure-storage-7.0.0.jar,wasbs:

apache-spark SparkRunner apache FileSystem java hadoop azure-storage apache-beam azure-hdinsight

apache-spark - 在 rapidminer : error occurred during submitting or starting the spark job 上运行 Spark

我正在使用rapidminer从大型数据集中提取规则。Radoop是hadoop生态系统的扩展，而sparkRM运算符允许进行fp-growth，从从hive检索数据到探索分析。我正在尝试:-Windows8.1-hadoop6.2-Spark1.5-hive2.1我已将spark-default-conf配置如下:#spark.masteryarn#spark.eventLog.enabledtrue#spark.eventLog.dirhdfs://namenode:8021/directory#spark.serializerorg.apache.spark.serializer

spark apache-spark gt lt property hadoop hadoop-yarn rapidminer resourcemanager

apache-spark - Hadoop 最好的 spark 2.4 版本

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭4年前。Improvethisquestion我是BIGDATA(spark)的初学者，现在已经安装了spark2.4，所以我想知道应该选择哪个版本最好。因为我想避免冲突，这太糟糕了。

spark apache-spark section class notice hadoop

apache-spark - 如何优化 Hadoop MapReduce 在 Google Datproc 中压缩 Spark 输出？

目标:需要尽可能快速高效地提取Cassandra中的数百万行并将其压缩到一个文件中(每天)。当前设置使用GoogleDataproc集群运行Spark作业，将数据直接提取到GoogleCloudStorage存储桶中。我尝试了两种方法:使用(现已弃用)FileUtil.copyMerge()将大约9000个Spark分区文件组合成一个未压缩的文件，然后提交一个HadoopMapReduce作业来压缩该单个文件。将大约9000个Spark分区文件保留为原始输出，并提交HadoopMapReduce作业以将这些文件合并并压缩成一个文件。一些工作细节:大约8亿行。Spark作业输出的Spar

中压 apache-spark Number Spark bytes hadoop google-cloud-dataproc

java - 为什么 spark 在本地或独立模式下需要 hadoop 库？

我下载了spark-2.4.0-bin-without-hadoop.tgz包并安装在我的系统中。我想在本地模式下运行简单的apachespark代码，但它给了我NoClassDefFoundError。Exceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/hadoop/conf/ConfigurationCausedby:java.lang.ClassNotFoundException:org.apache.hadoop.conf.Configuration谷歌搜索后，我发现SPARK_DIST_CLASSP

hadoop spark section strong java apache-spark

sql - 如何将架构添加到 spark Scala 中另一个文件的文件

我正在使用Spark并使用Scala我有两个csv文件，一个有列名，另一个有数据，我如何整合它们，以便我可以制作一个包含架构和数据的结果文件，然后我必须对该文件应用操作，例如groupby、cout等，因为我需要计算这些列中的不同值。所以任何人都可以在这里提供帮助，这将非常有帮助我写了下面的代码，在读取它们之后从两个文件中创建了两个DF，而不是我现在使用union加入两个DF如何将第一行作为模式，或者任何其他方式来继续这个。任何人都可以提出建议。valsparkConf=newSparkConf().setMaster("local[4]").setAppName("hbasesql"

spark Scala 34 code sql apache-spark hadoop

apache-spark - 阅读时忽略了 Spark 中已排序文件的 Parquet 摘要文件 (_metadata)？

我有一个包含不同列和ID的排序数据集。数据集已排序(也使用parquet-tools验证):示例:file1:ID1-10file2:ID10-12file3:ID12-33....我还生成并编写了_metadata和_common_metadata文件。我尝试使用过滤器查询(非常大的)数据集valmydata=spark.read.parquet("s3a://.../mylocation")valresult=mydata.filter(mydata("id")===11)result.explain(true)解释告诉我:==ParsedLogicalPlan==Filter(i

apache-spark metadata spark 34 parquet hadoop

apache-spark - 具有合并 Parquet 文件的 Impala 表的性能问题

在这里，我使用python实用程序使用Pyarrow库为单个数据集创建多个parquet文件，因为一天的数据集大小很大。这里的parquet文件在每个拆分的parquet文件中包含10K的parquet行组，最后我们将拆分文件组合成一个文件以创建一个大的单个parquet文件。在这里，我创建了两个带有合并文件和多个拆分文件的Impala表。当拆分文件数据加载到Impala表中并尝试查询它时，结果会在几秒钟内更快，但是当Impala表是在单个合并的parquet文件上创建时。与提到的拆分文件Impala表相比，它会产生性能问题。在尝试计算Impala表的统计信息时，我无法识别这两个表之间

apache-spark Parquet Impala section hadoop pyarrow

scala - 在 Spark 中将数据帧写入 Teradata

我在dataframe中有值，我在Teradata中创建了一个表结构。我的要求是将数据框加载到Teradata。但是我收到错误:我试过下面的代码:df.write.format("jdbc").option("driver","com.teradata.jdbc.TeraDriver").option("url","organization.td.intranet").option("dbtable",s"select*fromtd_s_zm_brainsdb.emp").option("user","userid").option("password","password").mod

Teradata scala 34 option section apache-spark hadoop apache-spark-sql

191 192 193194195 196 197