HADOOP_PREFIX

hadoop - Mapreduce 作业消耗更多资源和更改队列

我有一个运行超过1.7亿条记录的MapReduce作业。这导致消耗了98%的队列资源和89%的集群资源。管理团队建议他们创建配置有限的新队列，我应该将我的工作推送到该队列中。这里有问题，我有:-1-我怎样才能将我的mapreduce作业(“hadoopjar”)推送到新队列并进行最少的更改？2-由于新创建的队列资源有限，如果队列容量已满怎么办？它会导致长期运行或作业失败吗？3-是否有任何其他最佳方法来防止作业消耗所有资源，如果作业运行时间稍长一点，我们就可以接受。请指教。任何帮助都会很棒。最佳答案如果您正在使用容量/公平份额调度

hadoop - Cloudera hadoop数据存储到特定节点

我有10个amazonec2节点集群用于每天的数据处理，我想将所有10个节点用于每天的批处理(仅处理2小时)，一旦生成报告数据点，我想关闭5节点，并在一天的其余时间仅使5个节点处于事件状态以进行成本优化。我的复制因子是3。在某些情况下，所有3个数据block(实际和复制block)都存储在我正在关闭的那5个节点中。因此我无法正确读取数据。我能否在cloudera管理器中进行一些设置以将特定数据库或特定表持久保存到给定节点中，这样我在只有5个事件节点时读取数据时不会有任何问题。或任何其他建议将不胜感激。最佳答案您可以使用机架感知(

hadoop Cloudera section 点中久保 hdfs cloudera-cdh cloudera-manager

performance - 多节点上的h2o和hadoop上的h2o有什么区别？

在H2O网站上，它说H2O’scorecodeiswritteninJava.InsideH2O,aDistributedKey/Valuestoreisusedtoaccessandreferencedata,models,objects,etc.,acrossallnodesandmachines.ThealgorithmsareimplementedontopofH2O’sdistributedMap/ReduceframeworkandutilizetheJavaFork/Joinframeworkformulti-threading.这是否意味着如果H2O在单节点集群上运行，

performance h2o section hadoop machine-learning cluster-computing

scala - 如何从 Spark Executor 获取或创建 Hadoop 客户端

在对SparkDataframe执行mapPartitions操作时，是否有任何方法可以从SparkExecutor获取Hadoop文件系统？如果没有，至少有什么方法可以获取Hadoop配置以生成新的Hadoop文件系统？考虑到HDFS是基于Kerberos的。用例类似于(伪代码):spark.sql("SELECT*FROMcities").mapPartitions{iter=>iter.groupedBy(some-variable).foreach{rows=>hadoopFS.write(rows)}TaskContext.getPartitionId}

Executor Hadoop section scala spark apache-spark apache-spark-sql hdfs

hadoop - 如何检查 hdfs 目录中的总文件大小

有没有办法以GB或MB为单位计算HDFS文件目录的总文件大小？我不想使用du命令。没有那个也有办法目录-/test/my_dir 最佳答案你可以使用df或report、'hadoopfs-count-q-h它会显示总大小[root@hadoop0~]#hadoopfs-df-h/FilesystemSizeUsedAvailableUse%hdfs://hadoop0:8020119.9G27.8G62.3G23%[root@hadoop0~]#hadoopdfsadmin-reportDEPRECATED:Useofthissc

hadoop hdfs section code

hadoop - 数据节点故障后恢复的 hdfs

我有一个包含2个主节点和2个数据节点的4节点hadoop集群。我在这个集群中有很多文件。我的一个数据节点崩溃了(从aws控制台意外终止)。因为我有复制因子1，所以我认为这不会导致任何数据丢失。我添加了新节点并将其作为数据节点。但是现在我的hdfsdfsadmin-report说很多缺失的block。为什么是这样？我怎样才能从这里恢复过来？我不能执行fsck-delete，因为这些文件对我很重要。当我尝试从这个集群到另一个新创建的集群的distcp时，我得到了丢失的block异常。添加新数据节点后是否需要执行任何步骤？最佳答案 Ha

hadoop hdfs section stackoverflow image

hadoop - Apache Kylin 的 Hibernate 方言

我想尝试ApacheKylin构建的OLAP多维数据集的Jpa实现。有没有我可以用于ApacheKylin的休眠方言？最佳答案据我所知，麒麟没有休眠方言。Kylin的SQL是ANSI-SQL的子集(仅查询)。大多数Kylin用户都在使用Tableau、Superset等工具，或者他们开发了自己的查询工具将SQL发送到Kylin。Hibernate在OLTP中被广泛使用，在OLAP中我没有看到很多案例。只是我的两分钱。关于hadoop-ApacheKylin的Hibernate方言，

方言 Hibernate section Kylin hadoop olap

hadoop - 插入 HIVE 表时转换值

我已经创建了名为emp_bucket的分桶表，分为4个桶，这些桶聚集在salary列上。表的结构如下:hive>describeConsultant_Table_Bucket;OKidintageintgenderstringrolestringsalarydoubleTimetaken:0.069seconds,Fetched:5row(s)我还有一个暂存表，我可以从中将数据插入到上面的分桶表中。以下是暂存表中的示例数据:idageGenderrolesalary-----------------------------------------------------93838Fco

hadoop HIVE strong code consultant hadoop-partitioning

Hadoop集群-重启后Hive无法启动

我有5个节点的hadoop集群正在运行。Hive运行良好，可以创建表、添加数据等。然后尝试重新启动所有5个节点，现在Hive无法启动。使用MySql作为Metastore。可能是什么问题以及如何解决？尝试启动hive时的日志:Exceptioninthread"main"java.lang.RuntimeException:org.apache.hadoop.hive.ql.metadata.HiveException:java.lang.RuntimeException:Unabletoinstantiateorg.apache.hadoop.hive.ql.metadata.Ses

Hadoop Hive java apache centos cluster-computing

hadoop - 如何使用 Ambari UI 配置分析引擎使用 Hive LLAP？

IAE是否支持HiveLLAP功能？如果是，如何使用AmbariUI启用它？我尝试根据tutorialfromHortonworks启用但我收到错误:$hiveLogginginitializedusingconfigurationinfile:/etc/hive/2.6.5.0-292/0/hive-log4j.propertiesExceptioninthread"main"java.lang.RuntimeException:org.apache.tez.dag.api.TezException:org.apache.hadoop.yarn.exceptions.YarnExce

hadoop Ambari apache java hive ibm-cloud analytics-engine

74 75 767778 79 80