sparking

apache-spark - Hadoop 最好的 spark 2.4 版本

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭4年前。Improvethisquestion我是BIGDATA(spark)的初学者，现在已经安装了spark2.4，所以我想知道应该选择哪个版本最好。因为我想避免冲突，这太糟糕了。

apache-spark - 如何优化 Hadoop MapReduce 在 Google Datproc 中压缩 Spark 输出？

目标:需要尽可能快速高效地提取Cassandra中的数百万行并将其压缩到一个文件中(每天)。当前设置使用GoogleDataproc集群运行Spark作业，将数据直接提取到GoogleCloudStorage存储桶中。我尝试了两种方法:使用(现已弃用)FileUtil.copyMerge()将大约9000个Spark分区文件组合成一个未压缩的文件，然后提交一个HadoopMapReduce作业来压缩该单个文件。将大约9000个Spark分区文件保留为原始输出，并提交HadoopMapReduce作业以将这些文件合并并压缩成一个文件。一些工作细节:大约8亿行。Spark作业输出的Spar

中压 apache-spark Number Spark bytes hadoop google-cloud-dataproc

java - 为什么 spark 在本地或独立模式下需要 hadoop 库？

我下载了spark-2.4.0-bin-without-hadoop.tgz包并安装在我的系统中。我想在本地模式下运行简单的apachespark代码，但它给了我NoClassDefFoundError。Exceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/hadoop/conf/ConfigurationCausedby:java.lang.ClassNotFoundException:org.apache.hadoop.conf.Configuration谷歌搜索后，我发现SPARK_DIST_CLASSP

hadoop spark section strong java apache-spark

sql - 如何将架构添加到 spark Scala 中另一个文件的文件

我正在使用Spark并使用Scala我有两个csv文件，一个有列名，另一个有数据，我如何整合它们，以便我可以制作一个包含架构和数据的结果文件，然后我必须对该文件应用操作，例如groupby、cout等，因为我需要计算这些列中的不同值。所以任何人都可以在这里提供帮助，这将非常有帮助我写了下面的代码，在读取它们之后从两个文件中创建了两个DF，而不是我现在使用union加入两个DF如何将第一行作为模式，或者任何其他方式来继续这个。任何人都可以提出建议。valsparkConf=newSparkConf().setMaster("local[4]").setAppName("hbasesql"

spark Scala 34 code sql apache-spark hadoop

apache-spark - 阅读时忽略了 Spark 中已排序文件的 Parquet 摘要文件 (_metadata)？

我有一个包含不同列和ID的排序数据集。数据集已排序(也使用parquet-tools验证):示例:file1:ID1-10file2:ID10-12file3:ID12-33....我还生成并编写了_metadata和_common_metadata文件。我尝试使用过滤器查询(非常大的)数据集valmydata=spark.read.parquet("s3a://.../mylocation")valresult=mydata.filter(mydata("id")===11)result.explain(true)解释告诉我:==ParsedLogicalPlan==Filter(i

apache-spark metadata spark 34 parquet hadoop

apache-spark - 具有合并 Parquet 文件的 Impala 表的性能问题

在这里，我使用python实用程序使用Pyarrow库为单个数据集创建多个parquet文件，因为一天的数据集大小很大。这里的parquet文件在每个拆分的parquet文件中包含10K的parquet行组，最后我们将拆分文件组合成一个文件以创建一个大的单个parquet文件。在这里，我创建了两个带有合并文件和多个拆分文件的Impala表。当拆分文件数据加载到Impala表中并尝试查询它时，结果会在几秒钟内更快，但是当Impala表是在单个合并的parquet文件上创建时。与提到的拆分文件Impala表相比，它会产生性能问题。在尝试计算Impala表的统计信息时，我无法识别这两个表之间

apache-spark Parquet Impala section hadoop pyarrow

scala - 在 Spark 中将数据帧写入 Teradata

我在dataframe中有值，我在Teradata中创建了一个表结构。我的要求是将数据框加载到Teradata。但是我收到错误:我试过下面的代码:df.write.format("jdbc").option("driver","com.teradata.jdbc.TeraDriver").option("url","organization.td.intranet").option("dbtable",s"select*fromtd_s_zm_brainsdb.emp").option("user","userid").option("password","password").mod

Teradata scala 34 option section apache-spark hadoop apache-spark-sql

apache-spark - native 文件系统上的 Spark 行为

我们正在尝试在没有Hadoop和HDFS等分布式存储的情况下在我们的项目中运行Spark。Spark安装在具有10个内核和16GBRAM的单个节点上，并且该节点不属于任何集群。假设Spark驱动程序占用2个内核，其余内核在执行时由执行程序(每个2个)消耗。如果我们将存储在Spark本地磁盘中的一个大CSV文件(大小为1GB)处理为RDD，并将其重新分区为4个不同的分区，执行程序是否会并行处理每个分区？如果我们不将RDD重新分区为4个差异分区，执行者会做什么？如果不使用HDFS，我们会失去分布式计算和并行性的能力吗？最佳答案 Spa

apache-spark apache section Spark 的 hadoop hdfs

apache-spark - Spark S3A写省略上传部分无故障

我使用Spark2.4.0和Hadoop2.7，hadoop-aws2.7.5将数据集写入S3A上的Parquet文件。偶尔会丢失一个文件部分；即部分00003在这里:>awss3lsmy-bucket/folder/2019-02-2813:07:210_SUCCESS2019-02-2813:06:5879428651part-00000-5789ebf5-b55d-4715-8bb5-dfc5c4e4b999-c000.snappy.parquet2019-02-2813:06:5979586172part-00001-5789ebf5-b55d-4715-8bb5-dfc5c4

无故 apache-spark apache java parquet hadoop

apache-spark - 在 Yarn 上运行 Spark 直线

我正在使用直线执行hql查询。该作业似乎没有出现在HDP2.6上SparkHistory服务器的资源管理器中。如何让它运行在Yarn上？谢谢最佳答案 Beeline是一个ApacheHive客户端，与Spark无关，因此您不会在Spark历史服务器中看到查询。不过，查询应该在YARN中运行，如果您转到YARN资源管理器WebUI(如果您有权访问Ambari，应该在快速链接下)，您会在那里看到它们。关于apache-spark-在Yarn上运行Spark直线，我们在StackOverf

apache-spark apache section Spark 中运 hadoop apache-spark-sql hadoop-yarn

179 180 181182183 184 185