草庐IT

sparking

全部标签

apache-spark - Hadoop 最好的 spark 2.4 版本

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。关闭4年前。Improvethisquestion我是BIGDATA(spark)的初学者,现在已经安装了spark2.4,所以我想知道应该选择哪个版本最好。因为我想避免冲突,这太糟糕了。

apache-spark - 如何优化 Hadoop MapReduce 在 Google Datproc 中压缩 Spark 输出?

目标:需要尽可能快速高效地提取Cassandra中的数百万行并将其压缩到一个文件中(每天)。当前设置使用GoogleDataproc集群运行Spark作业,将数据直接提取到GoogleCloudStorage存储桶中。我尝试了两种方法:使用(现已弃用)FileUtil.copyMerge()将大约9000个Spark分区文件组合成一个未压缩的文件,然后提交一个HadoopMapReduce作业来压缩该单个文件。将大约9000个Spark分区文件保留为原始输出,并提交HadoopMapReduce作业以将这些文件合并并压缩成一个文件。一些工作细节:大约8亿行。Spark作业输出的Spar

java - 为什么 spark 在本地或独立模式下需要 hadoop 库?

我下载了spark-2.4.0-bin-without-hadoop.tgz包并安装在我的系统中。我想在本地模式下运行简单的apachespark代码,但它给了我NoClassDefFoundError。Exceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/hadoop/conf/ConfigurationCausedby:java.lang.ClassNotFoundException:org.apache.hadoop.conf.Configuration谷歌搜索后,我发现SPARK_DIST_CLASSP

sql - 如何将架构添加到 spark Scala 中另一个文件的文件

我正在使用Spark并使用Scala我有两个csv文件,一个有列名,另一个有数据,我如何整合它们,以便我可以制作一个包含架构和数据的结果文件,然后我必须对该文件应用操作,例如groupby、cout等,因为我需要计算这些列中的不同值。所以任何人都可以在这里提供帮助,这将非常有帮助我写了下面的代码,在读取它们之后从两个文件中创建了两个DF,而不是我现在使用union加入两个DF如何将第一行作为模式,或者任何其他方式来继续这个。任何人都可以提出建议。valsparkConf=newSparkConf().setMaster("local[4]").setAppName("hbasesql"

apache-spark - 阅读时忽略了 Spark 中已排序文件的 Parquet 摘要文件 (_metadata)?

我有一个包含不同列和ID的排序数据集。数据集已排序(也使用parquet-tools验证):示例:file1:ID1-10file2:ID10-12file3:ID12-33....我还生成并编写了_metadata和_common_metadata文件。我尝试使用过滤器查询(非常大的)数据集valmydata=spark.read.parquet("s3a://.../mylocation")valresult=mydata.filter(mydata("id")===11)result.explain(true)解释告诉我:==ParsedLogicalPlan==Filter(i

apache-spark - 具有合并 Parquet 文件的 Impala 表的性能问题

在这里,我使用python实用程序使用Pyarrow库为单个数据集创建多个parquet文件,因为一天的数据集大小很大。这里的parquet文件在每个拆分的parquet文件中包含10K的parquet行组,最后我们将拆分文件组合成一个文件以创建一个大的单个parquet文件。在这里,我创建了两个带有合并文件和多个拆分文件的Impala表。当拆分文件数据加载到Impala表中并尝试查询它时,结果会在几秒钟内更快,但是当Impala表是在单个合并的parquet文件上创建时。与提到的拆分文件Impala表相比,它会产生性能问题。在尝试计算Impala表的统计信息时,我无法识别这两个表之间

scala - 在 Spark 中将数据帧写入 Teradata

我在dataframe中有值,我在Teradata中创建了一个表结构。我的要求是将数据框加载到Teradata。但是我收到错误:我试过下面的代码:df.write.format("jdbc").option("driver","com.teradata.jdbc.TeraDriver").option("url","organization.td.intranet").option("dbtable",s"select*fromtd_s_zm_brainsdb.emp").option("user","userid").option("password","password").mod

apache-spark - native 文件系统上的 Spark 行为

我们正在尝试在没有Hadoop和HDFS等分布式存储的情况下在我们的项目中运行Spark。Spark安装在具有10个内核和16GBRAM的单个节点上,并且该节点不属于任何集群。假设Spark驱动程序占用2个内核,其余内核在执行时由执行程序(每个2个)消耗。如果我们将存储在Spark本地磁盘中的一个大CSV文件(大小为1GB)处理为RDD,并将其重新分区为4个不同的分区,执行程序是否会并行处理每个分区?如果我们不将RDD重新分区为4个差异分区,执行者会做什么?如果不使用HDFS,我们会失去分布式计算和并行性的能力吗? 最佳答案 Spa

apache-spark - Spark S3A写省略上传部分无故障

我使用Spark2.4.0和Hadoop2.7,hadoop-aws2.7.5将数据集写入S3A上的Parquet文件。偶尔会丢失一个文件部分;即部分00003在这里:>awss3lsmy-bucket/folder/2019-02-2813:07:210_SUCCESS2019-02-2813:06:5879428651part-00000-5789ebf5-b55d-4715-8bb5-dfc5c4e4b999-c000.snappy.parquet2019-02-2813:06:5979586172part-00001-5789ebf5-b55d-4715-8bb5-dfc5c4

apache-spark - 在 Yarn 上运行 Spark 直线

我正在使用直线执行hql查询。该作业似乎没有出现在HDP2.6上SparkHistory服务器的资源管理器中。如何让它运行在Yarn上?谢谢 最佳答案 Beeline是一个ApacheHive客户端,与Spark无关,因此您不会在Spark历史服务器中看到查询。不过,查询应该在YARN中运行,如果您转到YARN资源管理器WebUI(如果您有权访问Ambari,应该在快速链接下),您会在那里看到它们。 关于apache-spark-在Yarn上运行Spark直线,我们在StackOverf