spark-submit

shell - 在 yarn 客户端错误上运行 spark shell

我有Spark1.6.1并且我已经设置了exportHADOOP_CONF_DIR=/folder/location现在，如果我运行sparkshell:$./spark-shell--masteryarn--deploy-mode客户端我得到这种类型的错误(相关部分)$16/09/1815:49:18INFOimpl.TimelineClientImpl:Timelineserviceaddress:http://URL:PORT/ws/v1/timeline/16/09/1815:49:18INFOclient.RMProxy:ConnectingtoResourceManager

java - 在 Spark 中将数据集应用为广播

我有两个数据集，我需要在尝试注册时将一个数据集(较小的一个)注册为Broadcast，我才能使用广播功能。代码如下:JavaRDDmaps=ctx.textFile("C:\\Users\\sateesh\\Desktop\\country.txt");Broadcast>broadcastVar=ctx.broadcast(maps);//Broadcast>broadcastVar=ctx.broadcast(map);Listlist=newArrayList();list.add(1);list.add(2);list.add(9);JavaRDDlistrdd=ctx.par

Spark java code section broadcastVar hadoop apache-spark spark-dataframe broadcast

regex - 在 Spark RDD 中使用正则表达式从字符串中提取时间戳

我有一个像这样的日志:[Pipeline]timestamps[Pipeline]{[Pipeline]echo20:33:050[Pipeline]echo我试图只在此处提取时间信息(20:33:05)。我已尝试执行以下操作:vallines=sc.textFile("/logs/log7.txt")valindividualLines=lines.flatMap(_.split("\n"))//Splittingfilecontentintoindividuallinesvaldates=individualLines.filter(value=>value.startsWith(

regex Spark code section pre hadoop apache-spark rdd

java - Windows 上的 Spark - 初始化 SparkContext 时出错，Spark URL 无效

我正在尝试在Windows8.1上运行ApacheSpark当我调用spark-shell命令时，我得到以下堆栈:C:\spark\spark-2.3.0-bin-hadoop2.7\bin>"C:\new\spark\spark-2.3.0-bin-hadoop2.7\bin\spark-submit2.cmd"--classorg.apache.spark.repl.Main--name"Sparkshell"2018-04-1720:30:21WARNNativeCodeLoader:62-Unabletoloadnative-hadooplibraryforyourplatfo

时出 Spark scala apache java apache-spark hadoop

apache-spark - 无法在 hadoop 二进制文件中找到可执行文件 null\bin\winutils.exe

最近我在我的系统中安装了canopy和spark。当我在canopy命令提示符下的c:\spark路径中运行pyspark命令时，出现此错误，但该路径中存在winutils。我是新手，我不知道如何解决这个问题。我在网上搜索但未能理解。谁能帮我解决这个问题。最佳答案您需要执行以下步骤:1.Downloadwinutils.exe2.Createfolder,sayC:\winutils\bin3.Copywinutils.exeinsideC:\winutils\bin4.SetenvironmentvariableHADOOP_

apache-spark winutils section 中运 hadoop pyspark

apache-spark - 如何在转换期间测试数据类型转换

我们有一个将数据映射到数据框的脚本(我们使用的是pyspark)。数据以字符串形式传入，并且对它进行了一些其他有时代价高昂的操作，但作为操作的一部分(调用withColumn)，我们对其最终数据类型进行了强制转换。我需要判断是否发生了截断，但我们不想在截断发生时失败。我们只想要一个数字来知道每个翻译列(大约有300列)中有多少行失败。我的第一个想法是让每一列通过一个UDF来进行测试，输出将是一个包含值的数组，以及一个关于它是否通过数据类型检查的值。然后我会做2个选择。一个从数组中选择原始值，另一个聚合未命中的值。但这似乎是一个草率的解决方案。我是pyspark/hadoop世界的新手.

转换期何在 39 section value apache-spark hadoop pyspark apache-spark-sql

java - 如何使用 spark Java API 将科学格式的 double 转换为 String？

我是sparkJavaAPI的新手。我想用科学格式示例转换double:1.7E7---->17000000,00。我的数据集是:+---------+------------+|account|amount|+---------+------------+|c1|1.7E7||c2|1.5E8||c3|142.0|我想将我的数据集转换成这样的东西。+---------+----------------------+|account|amount|+---------+----------------------+|c1|17000000,00||c2|1500000000,00||c

double String section code amount java apache-spark hadoop hdfs

apache-spark - 如何根据数据大小重新分区rdd

我正在开发SparkStreaming项目，该项目从Kafka获取数据并应用一些规则并将数据保存在Hive中。我的问题是数据摄取率不固定。60秒可能是100万条消息到来，也可能是1条。我想在Dstream上添加重新分区。因为Dstream只有3个分区，无法在一分钟内处理百万条记录。重新分区在少于20条记录时会出现问题。它在Hive中创建多个小文件。dataStream.map(_._2).repartition(20)我的问题是如何根据rdd大小对rdd进行重新分区。这样它就可以处理一条消息或100万条消息。最佳答案你无法以任何

apache-spark apache code section 万条 hadoop apache-kafka spark-streaming rdd

apache-spark - Spark thrift 服务器仅使用 2 个内核

Googledataproc一个节点集群，VCoresTotal=8。我已经从用户spark尝试过:/usr/lib/spark/sbin/start-thriftserver.sh--num-executors2--executor-cores4试图改变/usr/lib/spark/conf/spark-defaults.conf试图执行exportSPARK_WORKER_INSTANCES=6exportSPARK_WORKER_CORES=8在启动thriftserver.sh之前没有成功。在yarnUI中，我可以看到thrift应用程序仅使用2个内核和6个可用内核。更新1:s

apache-spark apache spark code section hadoop google-cloud-dataproc

scala - spark - select 中的条件语句

我正在从Dataframecol1和col2中选择两个Column。df.select((col("a")+col("b")).as("sum_col")现在用户希望此sum_col的空格固定为4。所以a和b的长度是2因此最大值可以小于100(二)或大于100(三)所以需要有条件地添加1或2个空格。任何人都可以告诉我如何在selectblock中使用条件逻辑将Column转换为concat并决定一个或两个空格被添加最佳答案只需使用format_string函数importorg.apache.spark.sql.function

select scala code section 34 apache-spark hadoop bigdata

203 204 205206207 208 209