草庐IT

bubble_cluster_one

全部标签

azure - 即使使用 hive.merge,Tez : one file per insert, 上的 Hive 0.14。 active

我需要每隔15分钟将数据插入到存储为ORC的不同表中并聚合值。那些INSERT使用动态分区。每个INSERT都会在分区中创建一个新文件,这会减慢我的聚合查询速度。我在网上搜索,发现了一些关于这个案例的主题,比如thisone.所以我在hive-site.xml中添加了这些设置:hive.merge.mapfiles=true;hive.merge.mapredfiles=true;hive.merge.tezfiles=truehive.merge.smallfiles.avgsize=256000000;但即使使用这些设置,每次插入都会在每个分区上创建一个新文件,并且文件不会合并。有

python - hbase 动物园管理员 : Which one come first on AWS environement?

我在我的AWS免费套餐上设置了一个Hadoop环境。它是运行hadoop2.7.1-Ubuntu14.04(不是EMR)的1master-3slaves。现在我想进入下一步,看起来HBase是一个很好的起点。进一步阅读后,我注意到Zookeeper正在出现......问题:设置好hadoop后,是先安装配置HBase多节点还是Zookeeper再安装HBase(sqoop、flume、pig...应该按照这一步完成)?奖励:我的目的是像可视化软件一样连接R、Tableau并运行一些python程序来与AWS一起玩,所以欢迎提出建议 最佳答案

java - 错误 : java heap space on Google Data-Proc Cluster

我在Googledataproc集群上从一个表运行Hive插入覆盖查询13783531记录到另一个分区表,不做任何转换。失败并出现错误DiagnosticMessagesforthisTask:Error:JavaheapspaceFAILED:ExecutionError,returncode2fromorg.apache.hadoop.hive.ql.exec.mr.MapRedTaskMapReduceJobsLaunched:Stage-Stage-1:Map:34CumulativeCPU:1416.18secHDFSRead:6633737937HDFSWrite:0FAI

Hadoop Kerberos : hdfs command 'Failed to find any Kerberos tgt' even though I had got one ticket using kinit

我为Hadoop集群设置了Kerberos身份验证。当我尝试使用kinit获取kerberos票证时,它将票证存储在krb5cc_0中$sudoklistTicketcache:FILE:/tmp/krb5cc_0Defaultprincipal:hduser/stwhdrm01@FDATA.COMValidstartingExpiresServiceprincipal01/04/201810:15:1401/05/201810:15:14krbtgt/FDATA.COM@FDATA.COM但是当我尝试在命令行上列出HDFS目录时,出现以下错误:$hdfsdfs-ls/openjdkv

Hue 中的 hadoop.hdfs_clusters.default.webhdfs_url 错误

任何人都可以帮我解决这个色调错误。Currentvalue:http://localhost:50070/webhdfs/v1Failedtocreatetemporaryfile"/tmp/hue_config_validation.15785472045199379485"仅供引用,我使用的是ClouderaManager5.1.3和Hue3.6。 最佳答案 好的,我自己解决问题。错误原因是NameNode处于安全模式。此命令将使您的Namenode离开安全模式。sudo-uhdfshdfsdfsadmin-safemodele

performance - HDFS 与 HBASE : Which one performs better on millions of small text files?

如果我们有数百万个大小从几KB到几MB不等的小文本文件,HDFS和HBASE中哪一个花费的处理时间更少?还有更少的内存消耗? 最佳答案 这是一个高层次的问题。缺少有关数据类型的信息。但是,一般而言,我们在决定存储位置等事项时需要牢记以下事项。在HDFS或HBase中:由于我们有质量较小的文件,将其存储在HDFS中会遇到一些问题。名称节点上的元数据会很高如果block大小(输入拆分大小)配置不正确,则完整数据局部性和并行处理的潜力将不会利用。有关输入拆分和之间关系的更多信息block大小,请引用SplitsizevsBlocksize

hadoop - Cloudera Cluster 安装过程出错?

我已经成功安装了Cloudera管理器。它显示Currentlymanagedhosts为127.0.0.1并且它是事件的。当我在加载后使用cloudera管理器搜索和安装集群时,它显示以下错误。Installationfailed.Failedtoreceiveheartbeatfromagent.Ensurethatthehost'shostnameisconfiguredproperly.Ensurethatport7182isaccessibleontheClouderaManagerserver(checkfirewallrules).Ensurethatports9000a

java - Spark Yarn Cluster 连接到 Hbase 错误

我有一个应用程序可以解析vcf文件并将数据插入到hbase中。该应用程序在使用masterlocal时运行,使用apachespark没有问题,但是当我使用apachesparkyarncluster运行它时,出现以下错误:17/03/3110:36:09INFOyarn.Client:Applicationreportforapplication_1490344846293_0020(state:RUNNING)17/03/3110:36:10INFOyarn.Client:Applicationreportforapplication_1490344846293_0020(stat

Python 和 MapReduce : beyond basics -- how to do more tasks on one database

我有一个巨大的txt数据存储,我想在其中收集一些统计数据。使用Hadoop流和Python我知道如何实现MapReduce以在单个列上收集统计信息,例如计算100个类别中的每个类别有多少条记录。我创建了一个简单的mapper.py和reducer.py,并将它们分别作为-mapper和-reducer插入到hadoop-streaming命令中。现在,我对如何实际处理更复杂的任务有点不知所措:除了上述类别(例如地理位置、类型、日期等)之外,还收集各种其他列的各种统计数据。所有这些数据都在同一个txt文件中。我是否将mapper/reducer任务链接在一起?我是否传递最初很长的键值对(

hadoop - 我是否必须在所有节点中运行历史服务器才能在 Hadoop Cluster WebUI 中获取作业历史记录

我在Hadoop集群中遇到一个问题。我有一个包含5个数据节点和一个边缘/网关节点的Hadoop集群。我的问题是我必须在每个节点(1个名称节点和5个数据节点)中启动历史服务器,以从hadoopwebUI获取任何提交作业的作业历史记录。我在mapred-site.xml中添加了mapreduce.jobhistory.address和mapreduce.jobhistory.webapp.address但我猜它不能正常工作。如果我仅在名称节点或任何其他节点中启动历史服务器,HadoopClusterWeb-UI将无法向我显示作业历史记录并以一些错误结束。我的映射站点XMLmapred.jo