$Spark

scala - 如何使用 spark 在 Hive 中正确加载数据？

我想输入看起来像-"58;""management"";""married"";""tertiary"";""no"";2143;""yes"";""no"";""unknown"";5;""may"";261;1;-1;0;""unknown"";""no""""44;""technician"";""single"";""secondary"";""no"";29;""yes"";""no"";""unknown"";5;""may"";151;1;-1;0;""unknown"";""no""""33;""entrepreneur"";""married"";""secondar

scala spark 34 code unknown hadoop apache-spark hive hiveql

hadoop - 使用接收器和 WAL 的 Spark Kafka 集成

我正在阅读下面的Databricks博客https://databricks.com/blog/2015/03/30/improvements-to-kafka-integration-of-spark-streaming.html在解释sparkkafka集成如何使用接收器和WAl工作的过程时，它说1.TheKafkadataiscontinuouslyreceivedbyKafkaReceiversrunningintheSparkworkers/executors.Thisusedthehigh-levelconsumerAPIofKafka.2.Thereceiveddatai

hadoop Spark 偏移 section zookeeper apache-spark apache-kafka spark-streaming

hadoop - 在 yarn 集群模式 AccessControlException 上执行 Spark

我有一些Spark代码可以分析CSV文件中的输入数据集。当我在集群模式下运行它时，出现以下错误(在本地模式下它到目前为止工作正常)。我的问题是:局部变量是否会影响不同worker的并行执行？我使用本地文件作为输入。我必须使用HDFS文件吗？我相信RDD是并行化的，输入文件可以存储在本地文件系统中。Exceptioninthread"main"org.apache.hadoop.security.AccessControlException:Permissiondenied:user=xxx,access=WRITE,inode="/":hdfs:supergroup:drwxr-xr-

AccessControlException hadoop apache code apache-spark

hadoop - Spark 提交，客户端无法通过 :[TOKEN, KERBEROS 进行身份验证]；

我用kerberos设置了hadoop集群，但是当我运行spark-submit时，它抛出了异常。17/10/1908:46:53WARNscheduler.TaskSetManager:Losttask0.0instage0.0(TID0,192.168.92.4,executor1):java.io.IOException:Failedonlocalexception:java.io.IOException:org.apache.hadoop.security.AccessControlException:Clientcannotauthenticatevia:[TOKEN,KER

KERBEROS hadoop apache java apache-spark

scala - Spark : java. io.FileNotFoundException:copyMerge 中不存在文件

我正在尝试将所有spark输出部分文件合并到一个目录中，并在Scala中创建一个文件。这是我的代码:importorg.apache.spark.sql.functions.input_file_nameimportorg.apache.spark.sql.functions.regexp_extractdefmerge(srcPath:String,dstPath:String):Unit={valhadoopConfig=newConfiguration()valhdfs=FileSystem.get(hadoopConfig)FileUtil.copyMerge(hdfs,new

FileNotFoundException copyMerge section 34 scala hadoop apache-spark hdfs spark-csv

hadoop - 通过 spark job 创建 hive 表

我正在尝试在hadoop集群(BigInsight4.1发行版)上创建hive表作为我的spark(1.5.1版)作业的输出，但我面临权限问题。我的猜测是spark使用默认用户(在本例中为“yarn”而不是作业提交者的用户名)来创建表，因此未能这样做。我尝试自定义hive-site.xml文件以设置一个经过身份验证的用户，该用户有权创建配置单元表，但这没有用。我还尝试将Hadoop用户变量设置为经过身份验证的用户，但它也没有用。我想避免保存txt文件然后创建配置单元表以优化性能并通过orc压缩减小输出的大小。我的问题是:有什么方法可以调用sparkdataframeapi的write函

hadoop spark section code 配置单 apache-spark hive hivecontext

performance - Spark 。数据缓存？

我正在spark-shell中测试以下脚本-分区表的单分区扫描。vals=System.nanoTimevarq=s"""select*frompartitioned_tablewherepart_column='part_column_value'"""spark.sql(q).showprintln("Elapsed:"+(System.nanoTime-s)/1e9+"seconds")第一次执行大约需要30秒，而所有后续执行大约需要2秒。如果我们看一下运行时统计信息——在第一次执行之前还有两个额外的作业看起来有1212个阶段的作业扫描表中的所有分区(分区总数1199，该表的HD

performance Spark section image noreferrer hadoop apache-spark caching apache-spark-sql

Hadoop - 当有 Spark 作业正在运行时，Sqoop 作业卡在已接受状态

目前我有一个始终需要运行的spark作业(java)。它不需要太多资源。但是，每当我运行sqoop作业(MapReduce)时，该作业都会卡在已接受状态:WAITING分配、启动AM容器并向RM注册。我检查了Ambari，用于调度的spark配置是公平的。为了进行测试，我尝试运行2个相同的spark作业，但没有出现任何问题(两者的状态均为RUNNING)。应该有足够的内核和内存来运行mapreduce作业。Spark提交命令:/usr/hdp/current/spark-client/bin/spark-submit\--classcom.some.App\--masteryarn-c

Hadoop Spark section sqoop apache-spark mapreduce hadoop-yarn

hadoop - 将 LD_PRELOAD 与 Apache Spark(或 YARN)结合使用

我们在ApacheHadoopYARN上运行Spark作业。我特别需要在这些作业上使用“LD_PRELOAD技巧”。(在任何人panic之前，它不是用于生产运行；这是自动化作业测试的一部分)。我知道如何在作业中提交额外的文件，我知道如何在节点上设置环境变量，所以将这些设置添加到spark-defaults.conf几乎提供了一个解决方案:spark.files=/home/todd/pwn_connect.sospark.yarn.appMasterEnv.LD_PRELOAD=pwn_connect.sospark.executorEnv.LD_PRELOAD=pwn_connect

LD_PRELOAD PRELOAD code spark hadoop apache-spark hadoop-yarn ld-preload

java - 与 csv 文件相比，将 mysql 表转换为 spark 数据集非常慢

我在Amazons3中有一个大小为62mb(114000行)的csv文件。我正在将它转换为spark数据集，并从中获取前500行。代码如下；DataFrameReaderdf=newDataFrameReader(spark).format("csv").option("header",true);Datasetset=df.load("s3n://"+this.accessId.replace("\"","")+":"+this.accessToken.replace("\"","")+"@"+this.bucketName.replace("\"","")+"/"+this.fil

mysql spark 34 code java apache-spark jdbc amazon-s3

48 49 505152 53 54