草庐IT

Spark-Hive

全部标签

java - Spark Java API,数据集操作?

我是新的sparkJavaAPI。我的数据集包含两列(account,Lib)。我想显示具有不同库的帐户。事实上我的数据集是这样的。ds1+---------+------------+|account|Lib|+---------+------------+|222222|bbbb||222222|bbbb||222222|bbbb|||||333333|aaaa||333333|bbbb||333333|cccc|||||444444|dddd||444444|dddd||444444|dddd|||||555555|vvvv||555555|hhhh||555555|vvvv|我

apache-spark - 使用 Apache Spark 获取大量时间范围的最快方法是什么?

我在Hadoop中有大约100GB的时间序列数据。我想使用Spark从1000个不同的时间范围内抓取所有数据。我已经尝试使用ApacheHive来创建一个非常长的SQL语句,其中包含大约1000个'ORBETWEENXANDYORBETWEENQANDR'语句。我也尝试过使用Spark。在这种技术中,我创建了一个具有相关时间范围的数据框,并将其加载到spark中:spark_session.CreateDataFrame()和df.registerTempTable()有了这个,我正在与新创建的时间戳数据框和更大的时间戳数据集进行连接。此查询需要很长时间,我想知道是否有更有效的方法来执

scala - 如何从 Spark Executor 获取或创建 Hadoop 客户端

在对SparkDataframe执行mapPartitions操作时,是否有任何方法可以从SparkExecutor获取Hadoop文件系统?如果没有,至少有什么方法可以获取Hadoop配置以生成新的Hadoop文件系统?考虑到HDFS是基于Kerberos的。用例类似于(伪代码):spark.sql("SELECT*FROMcities").mapPartitions{iter=>iter.groupedBy(some-variable).foreach{rows=>hadoopFS.write(rows)}TaskContext.getPartitionId}

hadoop - 插入 HIVE 表时转换值

我已经创建了名为emp_bucket的分桶表,分为4个桶,这些桶聚集在salary列上。表的结构如下:hive>describeConsultant_Table_Bucket;OKidintageintgenderstringrolestringsalarydoubleTimetaken:0.069seconds,Fetched:5row(s)我还有一个暂存表,我可以从中将数据插入到上面的分桶表中。以下是暂存表中的示例数据:idageGenderrolesalary-----------------------------------------------------93838Fco

Hadoop集群-重启后Hive无法启动

我有5个节点的hadoop集群正在运行。Hive运行良好,可以创建表、添加数据等。然后尝试重新启动所有5个节点,现在Hive无法启动。使用MySql作为Metastore。可能是什么问题以及如何解决?尝试启动hive时的日志:Exceptioninthread"main"java.lang.RuntimeException:org.apache.hadoop.hive.ql.metadata.HiveException:java.lang.RuntimeException:Unabletoinstantiateorg.apache.hadoop.hive.ql.metadata.Ses

hadoop - 如何使用 Ambari UI 配置分析引擎使用 Hive LLAP?

IAE是否支持HiveLLAP功能?如果是,如何使用AmbariUI启用它?我尝试根据tutorialfromHortonworks启用但我收到错误:$hiveLogginginitializedusingconfigurationinfile:/etc/hive/2.6.5.0-292/0/hive-log4j.propertiesExceptioninthread"main"java.lang.RuntimeException:org.apache.tez.dag.api.TezException:org.apache.hadoop.yarn.exceptions.YarnExce

java - Spark App 参数编码

Spark似乎为应用程序参数使用了平台编码参数,但具体是哪一个呢?我用这样的参数启动一个spark应用程序:finalListparams=createParamList(...)sparkLauncher.addAppArgs(params.toArray(newString[params.size()]));似乎是平台相关的,在某些平台上,编码是错误的:INFOS:childArgs[[...]---user=Syst??me]用户应该是“Système”我尝试将javaoptsfile.encoding参数设置为驱动程序和执行程序,但我没有更改任何内容。有没有人有想法?谢谢

hadoop - 如何将 mapreduce 结果加载到 Hive 中?

我有一个目录,我在其中存储格式为“(integer1,integer2,integer3)”的mapreduce结果,我想将该数据加载到ApacheHive中。首先我创建这样的表:创建表测试(field1int,field2int,field3int);后来我尝试以这种方式加载数据:将路径'/user/myuser/output/test'中的数据加载到表test中;路径没问题,表格加载了好几行,但都是空的(3个字段为NULL)。我该如何解决? 最佳答案 轻松修复。在你的MR程序中按照以下格式写入数据integer1,integer

java - 尝试使用 spark shell 计算托管在本地 HDFS 上的文件中的行数时出现 HadoopRDD 错误

我是ApacheSpark、Scala和Hadoop工具的新手。我已经设置了一个新的本地单节点Hadoop集群,如前所述here并且还设置了spark以提供对此Hadoop环境的引用,如前所述here.我能够验证spark-shell、sparkUI已启动并正在运行。此外,我可以使用localhost查看HDFS。.为了更进一步,我将示例文件上传到HDFS,并使用Hadooplocalhost验证它是否可用。现在,我尝试使用Java和spark-shell(Scala)来计算文件中的行数,但是这两个调用都因该堆栈跟踪而失败。Exceptioninthread"dag-scheduler

apache-spark - 由于 java.io.FileNotFoundException :/hadoop/yarn/nm-local-dir/usercache/root/appcache/,Google Dataproc 上的 Spark 失败

几个月来,我一直在通过Zeppelin和Dataproc控制台在Dataproc上使用Spark/Hadoop,但最近我遇到了以下错误。Causedby:java.io.FileNotFoundException:/hadoop/yarn/nm-local-dir/usercache/root/appcache/application_1530998908050_0001/blockmgr-9d6a2308-0d52-40f5-8ef3-0abce2083a9c/21/temp_shuffle_3f65e1ca-ba48-4cb0-a2ae-7a81dcdcf466(Nosuchfil