spark-hive

apache-spark - 为什么在 hadoop 上使用 H2O 时在 Yarn 中看不到具体的任务执行？

我按照官方要求在yarn上运行了H2O:http://h2o-release.s3.amazonaws.com/h2o/rel-wolpert/11/index.html这是我的命令:cd~/opt/h2o-3.18.0.8-hdp2.6hadoopjarh2odriver.jar-nodes1-mapperXmx6g-output/user/spark/h2o-3_output而且h2o集群运行成功。但是我在h2o-flow中运行exampleflow之后，并没有看到任何与GBM算法相关的计算，只有H2O本身。我想我会看到这样的东西。这是使用RapidMiner的决策树流程图的结果，

中看 apache-spark section image H2O hadoop hadoop-yarn

Java 序列化 vs Hadoop 序列化 vs Spark 序列化

我研究过Java的Serialization和Deserialization过程，并试图理解Hadoop和Spark还有。谁能告诉我Hadoop、Spark和Java的序列化过程之间的区别。最佳答案 Hadoop有自己的序列化接口(interface)(Writable)，旨在让产生的垃圾尽可能少。当mapper或reducer运行时，实现它的对象是可变的和重用的，从而进一步减少了垃圾量。此外，经过适当设计的Writable可以由不同版本的代码编写，解决了Serializable的固有问题。Spark没有自己的序列化，默认使用原生

Hadoop Spark code section java apache-spark serialization deserialization

java - Spark Java API，数据集操作？

我是新的sparkJavaAPI。我的数据集包含两列(account,Lib)。我想显示具有不同库的帐户。事实上我的数据集是这样的。ds1+---------+------------+|account|Lib|+---------+------------+|222222|bbbb||222222|bbbb||222222|bbbb|||||333333|aaaa||333333|bbbb||333333|cccc|||||444444|dddd||444444|dddd||444444|dddd|||||555555|vvvv||555555|hhhh||555555|vvvv|我

Spark java section 34 account apache-spark hadoop hdfs

apache-spark - 使用 Apache Spark 获取大量时间范围的最快方法是什么？

我在Hadoop中有大约100GB的时间序列数据。我想使用Spark从1000个不同的时间范围内抓取所有数据。我已经尝试使用ApacheHive来创建一个非常长的SQL语句，其中包含大约1000个'ORBETWEENXANDYORBETWEENQANDR'语句。我也尝试过使用Spark。在这种技术中，我创建了一个具有相关时间范围的数据框，并将其加载到spark中:spark_session.CreateDataFrame()和df.registerTempTable()有了这个，我正在与新创建的时间戳数据框和更大的时间戳数据集进行连接。此查询需要很长时间，我想知道是否有更有效的方法来执

apache-spark 最快 section code pre hadoop bigdata

scala - 如何从 Spark Executor 获取或创建 Hadoop 客户端

在对SparkDataframe执行mapPartitions操作时，是否有任何方法可以从SparkExecutor获取Hadoop文件系统？如果没有，至少有什么方法可以获取Hadoop配置以生成新的Hadoop文件系统？考虑到HDFS是基于Kerberos的。用例类似于(伪代码):spark.sql("SELECT*FROMcities").mapPartitions{iter=>iter.groupedBy(some-variable).foreach{rows=>hadoopFS.write(rows)}TaskContext.getPartitionId}

Executor Hadoop section scala spark apache-spark apache-spark-sql hdfs

hadoop - 插入 HIVE 表时转换值

我已经创建了名为emp_bucket的分桶表，分为4个桶，这些桶聚集在salary列上。表的结构如下:hive>describeConsultant_Table_Bucket;OKidintageintgenderstringrolestringsalarydoubleTimetaken:0.069seconds,Fetched:5row(s)我还有一个暂存表，我可以从中将数据插入到上面的分桶表中。以下是暂存表中的示例数据:idageGenderrolesalary-----------------------------------------------------93838Fco

hadoop HIVE strong code consultant hadoop-partitioning

Hadoop集群-重启后Hive无法启动

我有5个节点的hadoop集群正在运行。Hive运行良好，可以创建表、添加数据等。然后尝试重新启动所有5个节点，现在Hive无法启动。使用MySql作为Metastore。可能是什么问题以及如何解决？尝试启动hive时的日志:Exceptioninthread"main"java.lang.RuntimeException:org.apache.hadoop.hive.ql.metadata.HiveException:java.lang.RuntimeException:Unabletoinstantiateorg.apache.hadoop.hive.ql.metadata.Ses

Hadoop Hive java apache centos cluster-computing

hadoop - 如何使用 Ambari UI 配置分析引擎使用 Hive LLAP？

IAE是否支持HiveLLAP功能？如果是，如何使用AmbariUI启用它？我尝试根据tutorialfromHortonworks启用但我收到错误:$hiveLogginginitializedusingconfigurationinfile:/etc/hive/2.6.5.0-292/0/hive-log4j.propertiesExceptioninthread"main"java.lang.RuntimeException:org.apache.tez.dag.api.TezException:org.apache.hadoop.yarn.exceptions.YarnExce

hadoop Ambari apache java hive ibm-cloud analytics-engine

java - Spark App 参数编码

Spark似乎为应用程序参数使用了平台编码参数，但具体是哪一个呢？我用这样的参数启动一个spark应用程序:finalListparams=createParamList(...)sparkLauncher.addAppArgs(params.toArray(newString[params.size()]));似乎是平台相关的，在某些平台上，编码是错误的:INFOS:childArgs[[...]---user=Syst??me]用户应该是“Système”我尝试将javaoptsfile.encoding参数设置为驱动程序和执行程序，但我没有更改任何内容。有没有人有想法？谢谢

Spark java section code params apache-spark hadoop encoding hdfs

hadoop - 如何将 mapreduce 结果加载到 Hive 中？

我有一个目录，我在其中存储格式为“(integer1,integer2,integer3)”的mapreduce结果，我想将该数据加载到ApacheHive中。首先我创建这样的表:创建表测试(field1int,field2int,field3int);后来我尝试以这种方式加载数据:将路径'/user/myuser/output/test'中的数据加载到表test中；路径没问题，表格加载了好几行，但都是空的(3个字段为NULL)。我该如何解决？最佳答案轻松修复。在你的MR程序中按照以下格式写入数据integer1,integer

mapreduce hadoop section integer code hive

70 71 727374 75 76