spark-hive

python - 在 Zeppelin 上增加 Spark Executors

我正在使用Hortnworks(HDP2.4)设置集群。我有一个4节点集群，每个节点都有(16Gb-RAM，8-CPU)。为了使用python(pyspark)，我还在ZeppelinNotebook上安装了Spark。我的问题是:我从3个节点的配置开始，后来我添加了另一个新节点(如前所述总共4个)，无论如何Spark上的执行者数量仍然是“3”。我在网上看到执行者的数量可以在SPARK_EXECUTOR_INSTANCES中设置，但是这个参数只存在于Spark的配置页面的spark-envtemplate中安巴里用户界面。似乎它需要YARN来决定执行者，但在YARN中我还没有找到任何关

java - SPARK 分区和 Worker Core 之间有什么区别？

我使用StandaloneSparkCluster来处理多个文件。当我执行驱动程序时，数据在使用它的核心的每个工作人员上进行处理。现在，我已经阅读了有关Partitions的内容，但我不知道它是否与WorkerCores不同。设置核心数和分区数有区别吗？最佳答案简单View:分区与内核数当您调用RDD的操作时，为其创建了一个“工作”。因此，Job是提交给spark的工作。作业根据洗牌边界分为“STAGE”!!!每个阶段根据RDD上的分区数进一步划分为任务。所以Task是spark的最小工作单元。现在，这些任务中有多少可以同时执行

Worker SPARK section code 心数 java hadoop apache-spark

scala - 将 RDD[String] 转换为 RDD[Row] 到 Dataframe Spark Scala

我正在读取一个有很多空格的文件，需要过滤掉空格。之后我们需要将其转换为数据框。下面的示例输入。2017123¦¦10¦running¦00000¦111¦-EXAMPLE我的解决方案是使用以下函数来解析所有空格并修剪文件。deftruncateRDD(fileName:String):RDD[String]={valexample=sc.textFile(fileName)example.map(lines=>lines.replaceAll("""[\t\p{Zs}]+""",""))}但是，我不确定如何将它放入数据框中。sc.textFile返回一个RDD[String]。我尝试了

RDD Dataframe code section String scala hadoop apache-spark spark-dataframe

scala - Spark BigQuery 连接器 : Writing ARRAY type causes exception: ""Invalid value for: ARRAY is not a valid value""

在GoogleCloudDataproc中运行Spark作业。使用BigQueryConnector将作业输出的json数据加载到BigQuery表中。BigQueryStandard-SQLdatatypesdocumentation表示支持ARRAY类型。我的Scala代码是:valoutputDatasetId="mydataset"valtableSchema="["+"{'name':'_id','type':'STRING'},"+"{'name':'array1','type':'ARRAY'},"+"{'name':'array2','type':'ARRAY'},"+

amp ARRAY 39 34 code scala hadoop apache-spark google-bigquery google-cloud-dataproc

hadoop - PL/SQL 能否可靠地转换为 Pig Lating 或带有 Pig Latin 和 Hive 的 Oozie 管道

我很好奇用Hadoop替换我的Oracle数据库，并且正在学习Hadoop生态系统。如果我要走这条路，我有很多PL/SQL脚本需要替换。我的印象是，通过一些努力，我能够将任何PL/SQL脚本转换/翻译成类似的PigLatin脚本。如果不仅仅是PigLatin，那么通过Oozie结合Hive和Pig。这是正确的吗？最佳答案虽然大多数SQL语句都可以翻译成等效的Pig和/或Hive语句，但hadoop文件系统固有的一些限制会传递给语言。主要限制是HDFS是一个一次写入，多次读取的系统。这意味着包含UPDATESQL命令或DELETE

Pig 可靠 section Hive hadoop plsql apache-pig oozie

date - 如何在 Hadoop Hive 中给定时间戳获取一周第一天的日期？

除了编写自定义UDF来支持此问题外，是否有任何已知的方法可以实现此目的？我目前正在使用Hive0.13。最佳答案从Hive1.2开始，你也可以这样做:selectnext_day(date_sub('2019-01-01',7),'MON')输出:2018-12-31 关于date-如何在HadoopHive中给定时间戳获取一周第一天的日期？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/que

给定何在 section code stackoverflow date hadoop hive hiveql dayofweek

scala - 序列化和自定义 Spark RDD 类

我正在用Scala编写自定义SparkRDD实现，并且正在使用Sparkshell调试我的实现。我现在的目标是:customRDD.count毫无异常(exception)地成功。现在这就是我得到的:15/03/0623:02:32INFOTaskSchedulerImpl:Addingtaskset0.0with1tasks15/03/0623:02:32ERRORTaskSetManager:Failedtoserializetask0,notattemptingtoretryit.java.lang.reflect.InvocationTargetExceptionatsun.r

自定 scala code section hadoop serialization apache-spark rdd

scala - 对 Spark 中的 Double/Int 值进行空检查

我是Spark的新手，如何检查Double中的Null值和scala或Spark中的Int值。像String我们可以这样做:valvalue=(FirstString.isEmpty())match{casetrue=>SecondStringcase_=>FirstString}我搜索了很多，但只找到了字符串值。您能否也建议我使用其他数据类型。提前致谢。最佳答案 null仅适用于Scala中的AnyRef(即非原始类型)类型。AnyVal类型不能设置为null。例如://thebelowareAnyVal(s)andwontco

行空 Double section null code scala hadoop apache-spark hive

hadoop - 如何将多个文件加载到 Hive 表中？

我有很多10MB的日志，我需要将其加载到HIVE中。稍后我需要向现有表中添加更多日志文件。谁能帮我解决这个问题？最佳答案只需使用标准的Hive语法:LOADDATAINPATH'filepath'INTOTABLEtablename这里的文件路径可以引用:相对路径，例如project/data1绝对路径，例如/user/hive/project/data1带有方案和(可选)权限的完整URI，例如hdfs://namenode:9000/user/hive/project/data1文件路径可以是一个目录，该目录下的所有文件都会被

hadoop Hive section code strong

hadoop - 创建hive表加载推特数据报错

我正在尝试创建外部表并将Twitter数据加载到表中。创建表时出现以下错误，无法跟踪错误。hive>ADDJAR/usr/local/hive/lib/hive-serdes-1.0-SNAPSHOT.jar>;Added[/usr/local/hive/lib/hive-serdes-1.0-SNAPSHOT.jar]toclasspathAddedresources:[/usr/local/hive/lib/hive-serdes-1.0-SNAPSHOT.jar]hive>CREATEEXTERNALTABLEtweets(>idBIGINT,>created_atSTRING,

hadoop hive 34 HiveParser twitter flume bigdata

125 126 127128129 130 131