草庐IT

spark-hive

全部标签

apache-spark - 为什么在 hadoop 上使用 H2O 时在 Yarn 中看不到具体的任务执行?

我按照官方要求在yarn上运行了H2O:http://h2o-release.s3.amazonaws.com/h2o/rel-wolpert/11/index.html这是我的命令:cd~/opt/h2o-3.18.0.8-hdp2.6hadoopjarh2odriver.jar-nodes1-mapperXmx6g-output/user/spark/h2o-3_output而且h2o集群运行成功。但是我在h2o-flow中运行exampleflow之后,并没有看到任何与GBM算法相关的计算,只有H2O本身。我想我会看到这样的东西。这是使用RapidMiner的决策树流程图的结果,

Java 序列化 vs Hadoop 序列化 vs Spark 序列化

我研究过Java的Serialization和Deserialization过程,并试图理解Hadoop和Spark还有。谁能告诉我Hadoop、Spark和Java的序列化过程之间的区别。 最佳答案 Hadoop有自己的序列化接口(interface)(Writable),旨在让产生的垃圾尽可能少。当mapper或reducer运行时,实现它的对象是可变的和重用的,从而进一步减少了垃圾量。此外,经过适当设计的Writable可以由不同版本的代码编写,解决了Serializable的固有问题。Spark没有自己的序列化,默认使用原生

java - Spark Java API,数据集操作?

我是新的sparkJavaAPI。我的数据集包含两列(account,Lib)。我想显示具有不同库的帐户。事实上我的数据集是这样的。ds1+---------+------------+|account|Lib|+---------+------------+|222222|bbbb||222222|bbbb||222222|bbbb|||||333333|aaaa||333333|bbbb||333333|cccc|||||444444|dddd||444444|dddd||444444|dddd|||||555555|vvvv||555555|hhhh||555555|vvvv|我

apache-spark - 使用 Apache Spark 获取大量时间范围的最快方法是什么?

我在Hadoop中有大约100GB的时间序列数据。我想使用Spark从1000个不同的时间范围内抓取所有数据。我已经尝试使用ApacheHive来创建一个非常长的SQL语句,其中包含大约1000个'ORBETWEENXANDYORBETWEENQANDR'语句。我也尝试过使用Spark。在这种技术中,我创建了一个具有相关时间范围的数据框,并将其加载到spark中:spark_session.CreateDataFrame()和df.registerTempTable()有了这个,我正在与新创建的时间戳数据框和更大的时间戳数据集进行连接。此查询需要很长时间,我想知道是否有更有效的方法来执

scala - 如何从 Spark Executor 获取或创建 Hadoop 客户端

在对SparkDataframe执行mapPartitions操作时,是否有任何方法可以从SparkExecutor获取Hadoop文件系统?如果没有,至少有什么方法可以获取Hadoop配置以生成新的Hadoop文件系统?考虑到HDFS是基于Kerberos的。用例类似于(伪代码):spark.sql("SELECT*FROMcities").mapPartitions{iter=>iter.groupedBy(some-variable).foreach{rows=>hadoopFS.write(rows)}TaskContext.getPartitionId}

hadoop - 插入 HIVE 表时转换值

我已经创建了名为emp_bucket的分桶表,分为4个桶,这些桶聚集在salary列上。表的结构如下:hive>describeConsultant_Table_Bucket;OKidintageintgenderstringrolestringsalarydoubleTimetaken:0.069seconds,Fetched:5row(s)我还有一个暂存表,我可以从中将数据插入到上面的分桶表中。以下是暂存表中的示例数据:idageGenderrolesalary-----------------------------------------------------93838Fco

Hadoop集群-重启后Hive无法启动

我有5个节点的hadoop集群正在运行。Hive运行良好,可以创建表、添加数据等。然后尝试重新启动所有5个节点,现在Hive无法启动。使用MySql作为Metastore。可能是什么问题以及如何解决?尝试启动hive时的日志:Exceptioninthread"main"java.lang.RuntimeException:org.apache.hadoop.hive.ql.metadata.HiveException:java.lang.RuntimeException:Unabletoinstantiateorg.apache.hadoop.hive.ql.metadata.Ses

hadoop - 如何使用 Ambari UI 配置分析引擎使用 Hive LLAP?

IAE是否支持HiveLLAP功能?如果是,如何使用AmbariUI启用它?我尝试根据tutorialfromHortonworks启用但我收到错误:$hiveLogginginitializedusingconfigurationinfile:/etc/hive/2.6.5.0-292/0/hive-log4j.propertiesExceptioninthread"main"java.lang.RuntimeException:org.apache.tez.dag.api.TezException:org.apache.hadoop.yarn.exceptions.YarnExce

java - Spark App 参数编码

Spark似乎为应用程序参数使用了平台编码参数,但具体是哪一个呢?我用这样的参数启动一个spark应用程序:finalListparams=createParamList(...)sparkLauncher.addAppArgs(params.toArray(newString[params.size()]));似乎是平台相关的,在某些平台上,编码是错误的:INFOS:childArgs[[...]---user=Syst??me]用户应该是“Système”我尝试将javaoptsfile.encoding参数设置为驱动程序和执行程序,但我没有更改任何内容。有没有人有想法?谢谢

hadoop - 如何将 mapreduce 结果加载到 Hive 中?

我有一个目录,我在其中存储格式为“(integer1,integer2,integer3)”的mapreduce结果,我想将该数据加载到ApacheHive中。首先我创建这样的表:创建表测试(field1int,field2int,field3int);后来我尝试以这种方式加载数据:将路径'/user/myuser/output/test'中的数据加载到表test中;路径没问题,表格加载了好几行,但都是空的(3个字段为NULL)。我该如何解决? 最佳答案 轻松修复。在你的MR程序中按照以下格式写入数据integer1,integer