草庐IT

spark-hive

全部标签

python - 在 Zeppelin 上增加 Spark Executors

我正在使用Hortnworks(HDP2.4)设置集群。我有一个4节点集群,每个节点都有(16Gb-RAM,8-CPU)。为了使用python(pyspark),我还在ZeppelinNotebook上安装了Spark。我的问题是:我从3个节点的配置开始,后来我添加了另一个新节点(如前所述总共4个),无论如何Spark上的执行者数量仍然是“3”。我在网上看到执行者的数量可以在SPARK_EXECUTOR_INSTANCES中设置,但是这个参数只存在于Spark的配置页面的spark-envtemplate中安巴里用户界面。似乎它需要YARN来决定执行者,但在YARN中我还没有找到任何关

java - SPARK 分区和 Worker Core 之间有什么区别?

我使用StandaloneSparkCluster来处理多个文件。当我执行驱动程序时,数据在使用它的核心的每个工作人员上进行处理。现在,我已经阅读了有关Partitions的内容,但我不知道它是否与WorkerCores不同。设置核心数和分区数有区别吗? 最佳答案 简单View:分区与内核数当您调用RDD的操作时,为其创建了一个“工作”。因此,Job是提交给spark的工作。作业根据洗牌边界分为“STAGE”!!!每个阶段根据RDD上的分区数进一步划分为任务。所以Task是spark的最小工作单元。现在,这些任务中有多少可以同时执行

scala - 将 RDD[String] 转换为 RDD[Row] 到 Dataframe Spark Scala

我正在读取一个有很多空格的文件,需要过滤掉空格。之后我们需要将其转换为数据框。下面的示例输入。2017123¦¦10¦running¦00000¦111¦-EXAMPLE我的解决方案是使用以下函数来解析所有空格并修剪文件。deftruncateRDD(fileName:String):RDD[String]={valexample=sc.textFile(fileName)example.map(lines=>lines.replaceAll("""[\t\p{Zs}]+""",""))}但是,我不确定如何将它放入数据框中。sc.textFile返回一个RDD[String]。我尝试了

scala - Spark BigQuery 连接器 : Writing ARRAY type causes exception: ""Invalid value for: ARRAY is not a valid value""

在GoogleCloudDataproc中运行Spark作业。使用BigQueryConnector将作业输出的json数据加载到BigQuery表中。BigQueryStandard-SQLdatatypesdocumentation表示支持ARRAY类型。我的Scala代码是:valoutputDatasetId="mydataset"valtableSchema="["+"{'name':'_id','type':'STRING'},"+"{'name':'array1','type':'ARRAY'},"+"{'name':'array2','type':'ARRAY'},"+

hadoop - PL/SQL 能否可靠地转换为 Pig Lating 或带有 Pig Latin 和 Hive 的 Oozie 管道

我很好奇用Hadoop替换我的Oracle数据库,并且正在学习Hadoop生态系统。如果我要走这条路,我有很多PL/SQL脚本需要替换。我的印象是,通过一些努力,我能够将任何PL/SQL脚本转换/翻译成类似的PigLatin脚本。如果不仅仅是PigLatin,那么通过Oozie结合Hive和Pig。这是正确的吗? 最佳答案 虽然大多数SQL语句都可以翻译成等效的Pig和/或Hive语句,但hadoop文件系统固有的一些限制会传递给语言。主要限制是HDFS是一个一次写入,多次读取的系统。这意味着包含UPDATESQL命令或DELETE

date - 如何在 Hadoop Hive 中给定时间戳获取一周第一天的日期?

除了编写自定义UDF来支持此问题外,是否有任何已知的方法可以实现此目的?我目前正在使用Hive0.13。 最佳答案 从Hive1.2开始,你也可以这样做:selectnext_day(date_sub('2019-01-01',7),'MON')输出:2018-12-31 关于date-如何在HadoopHive中给定时间戳获取一周第一天的日期?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/que

scala - 序列化和自定义 Spark RDD 类

我正在用Scala编写自定义SparkRDD实现,并且正在使用Sparkshell调试我的实现。我现在的目标是:customRDD.count毫无异常(exception)地成功。现在这就是我得到的:15/03/0623:02:32INFOTaskSchedulerImpl:Addingtaskset0.0with1tasks15/03/0623:02:32ERRORTaskSetManager:Failedtoserializetask0,notattemptingtoretryit.java.lang.reflect.InvocationTargetExceptionatsun.r

scala - 对 Spark 中的 Double/Int 值进行空检查

我是Spark的新手,如何检查Double中的Null值和scala或Spark中的Int值。像String我们可以这样做:valvalue=(FirstString.isEmpty())match{casetrue=>SecondStringcase_=>FirstString}我搜索了很多,但只找到了字符串值。您能否也建议我使用其他数据类型。提前致谢。 最佳答案 null仅适用于Scala中的AnyRef(即非原始类型)类型。AnyVal类型不能设置为null。例如://thebelowareAnyVal(s)andwontco

hadoop - 如何将多个文件加载到 Hive 表中?

我有很多10MB的日志,我需要将其加载到HIVE中。稍后我需要向现有表中添加更多日志文件。谁能帮我解决这个问题? 最佳答案 只需使用标准的Hive语法:LOADDATAINPATH'filepath'INTOTABLEtablename这里的文件路径可以引用:相对路径,例如project/data1绝对路径,例如/user/hive/project/data1带有方案和(可选)权限的完整URI,例如hdfs://namenode:9000/user/hive/project/data1文件路径可以是一个目录,该目录下的所有文件都会被

hadoop - 创建hive表加载推特数据报错

我正在尝试创建外部表并将Twitter数据加载到表中。创建表时出现以下错误,无法跟踪错误。hive>ADDJAR/usr/local/hive/lib/hive-serdes-1.0-SNAPSHOT.jar>;Added[/usr/local/hive/lib/hive-serdes-1.0-SNAPSHOT.jar]toclasspathAddedresources:[/usr/local/hive/lib/hive-serdes-1.0-SNAPSHOT.jar]hive>CREATEEXTERNALTABLEtweets(>idBIGINT,>created_atSTRING,