草庐IT

hadoop-mapreduce

全部标签

performance - 多节点上的h2o和hadoop上的h2o有什么区别?

在H2O网站上,它说H2O’scorecodeiswritteninJava.InsideH2O,aDistributedKey/Valuestoreisusedtoaccessandreferencedata,models,objects,etc.,acrossallnodesandmachines.ThealgorithmsareimplementedontopofH2O’sdistributedMap/ReduceframeworkandutilizetheJavaFork/Joinframeworkformulti-threading.这是否意味着如果H2O在单节点集群上运行,

scala - 如何从 Spark Executor 获取或创建 Hadoop 客户端

在对SparkDataframe执行mapPartitions操作时,是否有任何方法可以从SparkExecutor获取Hadoop文件系统?如果没有,至少有什么方法可以获取Hadoop配置以生成新的Hadoop文件系统?考虑到HDFS是基于Kerberos的。用例类似于(伪代码):spark.sql("SELECT*FROMcities").mapPartitions{iter=>iter.groupedBy(some-variable).foreach{rows=>hadoopFS.write(rows)}TaskContext.getPartitionId}

hadoop - 如何检查 hdfs 目录中的总文件大小

有没有办法以GB或MB为单位计算HDFS文件目录的总文件大小?我不想使用du命令。没有那个也有办法目录-/test/my_dir 最佳答案 你可以使用df或report、'hadoopfs-count-q-h它会显示总大小[root@hadoop0~]#hadoopfs-df-h/FilesystemSizeUsedAvailableUse%hdfs://hadoop0:8020119.9G27.8G62.3G23%[root@hadoop0~]#hadoopdfsadmin-reportDEPRECATED:Useofthissc

hadoop - 数据节点故障后恢复的 hdfs

我有一个包含2个主节点和2个数据节点的4节点hadoop集群。我在这个集群中有很多文件。我的一个数据节点崩溃了(从aws控制台意外终止)。因为我有复制因子1,所以我认为这不会导致任何数据丢失。我添加了新节点并将其作为数据节点。但是现在我的hdfsdfsadmin-report说很多缺失的block。为什么是这样?我怎样才能从这里恢复过来?我不能执行fsck-delete,因为这些文件对我很重要。当我尝试从这个集群到另一个新创建的集群的distcp时,我得到了丢失的block异常。添加新数据节点后是否需要执行任何步骤? 最佳答案 Ha

hadoop - Apache Kylin 的 Hibernate 方言

我想尝试ApacheKylin构建的OLAP多维数据集的Jpa实现。有没有我可以用于ApacheKylin的休眠方言? 最佳答案 据我所知,麒麟没有休眠方言。Kylin的SQL是ANSI-SQL的子集(仅查询)。大多数Kylin用户都在使用Tableau、Superset等工具,或者他们开发了自己的查询工具将SQL发送到Kylin。Hibernate在OLTP中被广泛使用,在OLAP中我没有看到很多案例。只是我的两分钱。 关于hadoop-ApacheKylin的Hibernate方言,

hadoop - 插入 HIVE 表时转换值

我已经创建了名为emp_bucket的分桶表,分为4个桶,这些桶聚集在salary列上。表的结构如下:hive>describeConsultant_Table_Bucket;OKidintageintgenderstringrolestringsalarydoubleTimetaken:0.069seconds,Fetched:5row(s)我还有一个暂存表,我可以从中将数据插入到上面的分桶表中。以下是暂存表中的示例数据:idageGenderrolesalary-----------------------------------------------------93838Fco

Hadoop集群-重启后Hive无法启动

我有5个节点的hadoop集群正在运行。Hive运行良好,可以创建表、添加数据等。然后尝试重新启动所有5个节点,现在Hive无法启动。使用MySql作为Metastore。可能是什么问题以及如何解决?尝试启动hive时的日志:Exceptioninthread"main"java.lang.RuntimeException:org.apache.hadoop.hive.ql.metadata.HiveException:java.lang.RuntimeException:Unabletoinstantiateorg.apache.hadoop.hive.ql.metadata.Ses

hadoop - 如何使用 Ambari UI 配置分析引擎使用 Hive LLAP?

IAE是否支持HiveLLAP功能?如果是,如何使用AmbariUI启用它?我尝试根据tutorialfromHortonworks启用但我收到错误:$hiveLogginginitializedusingconfigurationinfile:/etc/hive/2.6.5.0-292/0/hive-log4j.propertiesExceptioninthread"main"java.lang.RuntimeException:org.apache.tez.dag.api.TezException:org.apache.hadoop.yarn.exceptions.YarnExce

Hadoop,Hbase - 列及对应值提取

我是hbase的新手,我有一个查询,比如如何将列名及其相应的值单独从hbase提取到excel/csv。我已经尝试过类似的可能场景写入导出整个数据hbaseshell到我们的本地位置,但没有成功。谁能给我一个解决方案所以为了展示例子cf:ABCtimestamp=1234,value=qwercf:DEFtimestamp=5678,value=9874cf:GEHtimestamp=10254,value=11223344如果这是我们的数据那么我们的最终结果应该是ABCqwerDEF9874GEH11223344 最佳答案 如果您

hadoop - 如何找到 sqoop 支持的连接管理器?

我需要一些帮助...我正在开发一个sqoop指南来教新员工如何使用sqoop。有一个名为--connection-manager的标志,我必须知道我应该列出什么jar文件,以返回我的配置支持的所有连接管理器类。谢谢 最佳答案 如果你看源代码,特别是https://github.com/apache/sqoop/blob/trunk/src/java/org/apache/sqoop/manager/SupportedManagers.java#L26,你会看到:publicenumSupportedManagers{MYSQL(Jd