草庐IT

Hadoop-mkdir

全部标签

hadoop - 启动 Spark REPL 时出错

我有预构建的Spark1.4.1,我正在运行HDP2.6。当我尝试运行spark-shell时,它会给我一条错误消息,如下所示。Exceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/hadoop/fs/FSDataInputStreamatorg.apache.spark.deploy.SparkSubmitArguments$$anonfun$mergeDefaultSparkProperties$1.apply(SparkSubmitArguments.scala:111)atorg.apache.spar

hadoop - HDFS 行为 : Datanodes up but all data goes to one node (using -copyFromLocal)

我有一个集群配置。主人(也是奴隶)两个奴隶复制因子=1我将一个~9GB的文件movies.txt复制到hdfs中:hadoopdfs-copyFromLocalmovies.txt/input/我观察到一半的block被保存到Master,另一半分布在两个slave上。然后我想到使用以下方法格式化hadoop_stores:stop-all.shrm-rf{hadoop_store}/*hdfsnamenode-formatsshslave1rm-rf{hadoop_store}/*hdfsnamenode-formatexitsshslave2rm-rf{hadoop_store}/

hadoop - HBase 和 Hive 需要放在同一台机器上吗?

我们目前正在构建一个新的hbase集群。架构如下:现在我想添加一个新的Hive集群。但是不知道要不要和hbase在同一个hadoop集群上搭建hive。还是应该为hive构建一个新的hadoop集群?如果我为hive新建一个hadoop集群,执行sql聚合hbase的数据时,hive和hbase之间的流量会不会太大(AFAIK,hive需要将hbase上的数据导入到自己的hdfs存储中)? 最佳答案 让我们首先定义HBase和Hive之间的流量是多少。在每个Hive查询中,您将:使用Hive直接查询HBase使用Hive执行Ware

hadoop - 配置单元 : The application won't work without a running HiveServer2

我是这个领域的新手。我正在检查CDH5.8快速启动VM以尝试一些基本的hive/impala示例。但是我遇到了一个问题,当我打开HUE时出现以下错误。我搜索了解决方案,但没有找到任何可以解决我的问题的方法。Configurationfileslocatedin/etc/hue/conf.emptyPotentialmisconfigurationdetected.FixandrestartHue.HiveTheapplicationwon'tworkwithoutarunningHiveServer2.我检查过,它已启动并正在运行。尝试重新启动服务和CDH,没有帮助。HiveServe

hadoop - 如何使用 hive/spark-sql 生成大数据集?

例如生成序号在1到1G之间的1G记录。 最佳答案 创建分区种子表createtableseed(iint)partitionedby(pint)用序列号在0到999之间的1K记录填充种子表。每条记录都被插入到不同的分区中,因此位于不同的HDFS目录中,更重要的是-在不同的文件中。附言需要以下集合sethive.exec.dynamic.partition.mode=nonstrict;sethive.exec.max.dynamic.partitions.pernode=1000;sethive.hadoop.supports.sp

macos - 极慢的 Hadoop CLI

我在OSX10.12.3上通过brew安装了hadoop。一切看起来都很棒,而且Hadoop似乎正在运行。我有一个问题:每当我运行hadoopCLI命令时,大约需要50秒才能完成。这是正常的吗?问题是什么,我该如何纠正?例子: 最佳答案 试试这个示例命令:exportHADOOP_ROOT_LOGGER=DEBUG,consolehdfsdfs-ls而且您应该能够看到它卡在了哪个步骤(可能是组解析或DNS之类的东西)。如果输出太多,您可以将其重定向到一个文件。 关于macos-极慢的Ha

hadoop - HDFS(序列文件)中的单个大文件或多个小文件?

目前我正在使用SequenceFile来压缩我们现有的HDFS数据。现在我有两个选项可以将这个序列文件存储为单个大文件,这意味着所有记录都转到这个文件。多个小文件,每个文件的大小与HDFSblock大小(128MB)完全匹配众所周知,HDFS文件存储为block,每个block都到一个映射器。所以我认为当MR处理序列文件时没有什么不同。我知道选项二的唯一缺点是名称节点需要更多开销来维护这些文件,而选项一只有一个文件。我对这两个选项感到困惑,因为我看到太多文章推荐了尽可能使您的HDFS文件大小与block大小匹配。尽可能将小文件合并为一个大文件。任何人都可以指出正确的方法吗?哪个更好?这

hadoop - 使用 Ambari 2.4.2.0 安装 spark 2.1.0

我对Spark和Ambari的集群安装还比较陌生。最近,我接到一个任务,要在一个集群上安装Spark2.1.0,该集群预装了带有Spark1.6.2和HDFS&YARN2.7.3的Ambari。我的任务是安装Spark2.1.0,因为它是最新版本,与RSpark等具有更好的兼容性。我在互联网上搜索了几天,只在AWS或Spark2.1.0上找到了一些安装指南。例如:http://data-flair.training/blogs/install-deploy-run-spark-2-x-multi-node-cluster-step-by-step-guide/和http://spark

hadoop - Spark 上的错误 'neither present in the group by, nor is it an aggregate function'

关闭。这个问题需要debuggingdetails.它目前不接受答案。编辑问题以包含desiredbehavior,aspecificproblemorerror,andtheshortestcodenecessarytoreproducetheproblem.这将有助于其他人回答问题。关闭5年前。Improvethisquestion表格:id|val|category----------------a1|10|Aa1|30|Ba1|20|Ca2|5|Aa2|7|Ba2|2|Ca3|50|Ca3|60|Ba3|90|A查询:SELECTmax(val),id,categoryFROM

hadoop - 如何将多个文件加载到配置单元中的表中?

有一个目录包含多个待分析的文件,例如file1、file2、file3。我要loaddatainpath'path/to/*'overwriteintotabledemo代替loaddatainpath'path/to/file1'overwriteintotabledemoloaddatainpath'path/to/file2'overwriteintotabledemoloaddatainpath'path/to/file3'overwriteintotabledemo.然而,它就是行不通。有没有更简单的方法来实现这个? 最佳答案