草庐IT

HADOOP_NAMENODE_OPTS

全部标签

hadoop - 替换 pig 中的字符

我的数据采用以下格式..{"Foo":"ABC","Bar":"20090101100000","Quux":"{\"QuuxId\":1234,\"QuuxName\":\"Sam\"}"}我需要它采用这种格式:{"Foo":"ABC","Bar":"20090101100000","Quux":{"QuuxId":1234,"QuuxName":"Sam"}}我正在尝试使用Pig的替换功能以我需要的格式获取它..所以,我试过了.."LOGS=LOAD'inputloc'USINGTextStorage()asunparsedString:chararray;;"+"REPL1=fo

unix - 使用 SCP 将文件从 Windows 桌面移动到 vmware 上的 hadoop 沙箱

我认为这很简单,但非常感谢您的帮助。我的Windows桌面上有一个zip文件“RECEIPTS_LAB.zip”,我在vmware上运行一个hadoop沙箱。沙箱是我用mapr注册的培训类(class)的一部分,但我是初学者,不确定如何将zip文件从Windows移动到沙箱中的目录“/user/user01/3”手册使用如下代码scpRECEIPTS_LAB.zipuser01@node-ip:/user/user01/3node-ip是我在启动沙箱时得到的ip地址,假设它是192.168.88.128当我编写以下命令时:scpRECEIPTS_LAB.zipuser01@192.16

hadoop - 没有类名的 ClassNotFoundException

我尝试在jar中添加UDF并尝试加载。以下是我的片段register'target/warcbase-0.1.0-SNAPSHOT-fatjar.jar';DEFINEWarcLoaderorg.warcbase.pig.WarcLoader();warc=LOAD'/raw/'USINGWarcLoaderAS(url:chararray,date:chararray,mime:chararray,content:bytearray);STOREwarcINTO'/raw/proc/';我得到以下异常。不幸的是,它没有告诉我找不到哪个类。以下是整个堆栈跟踪Backenderrorme

hadoop - 启动 Spark REPL 时出错

我有预构建的Spark1.4.1,我正在运行HDP2.6。当我尝试运行spark-shell时,它会给我一条错误消息,如下所示。Exceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/hadoop/fs/FSDataInputStreamatorg.apache.spark.deploy.SparkSubmitArguments$$anonfun$mergeDefaultSparkProperties$1.apply(SparkSubmitArguments.scala:111)atorg.apache.spar

hadoop - HDFS 行为 : Datanodes up but all data goes to one node (using -copyFromLocal)

我有一个集群配置。主人(也是奴隶)两个奴隶复制因子=1我将一个~9GB的文件movies.txt复制到hdfs中:hadoopdfs-copyFromLocalmovies.txt/input/我观察到一半的block被保存到Master,另一半分布在两个slave上。然后我想到使用以下方法格式化hadoop_stores:stop-all.shrm-rf{hadoop_store}/*hdfsnamenode-formatsshslave1rm-rf{hadoop_store}/*hdfsnamenode-formatexitsshslave2rm-rf{hadoop_store}/

hadoop - HBase 和 Hive 需要放在同一台机器上吗?

我们目前正在构建一个新的hbase集群。架构如下:现在我想添加一个新的Hive集群。但是不知道要不要和hbase在同一个hadoop集群上搭建hive。还是应该为hive构建一个新的hadoop集群?如果我为hive新建一个hadoop集群,执行sql聚合hbase的数据时,hive和hbase之间的流量会不会太大(AFAIK,hive需要将hbase上的数据导入到自己的hdfs存储中)? 最佳答案 让我们首先定义HBase和Hive之间的流量是多少。在每个Hive查询中,您将:使用Hive直接查询HBase使用Hive执行Ware

hadoop - 配置单元 : The application won't work without a running HiveServer2

我是这个领域的新手。我正在检查CDH5.8快速启动VM以尝试一些基本的hive/impala示例。但是我遇到了一个问题,当我打开HUE时出现以下错误。我搜索了解决方案,但没有找到任何可以解决我的问题的方法。Configurationfileslocatedin/etc/hue/conf.emptyPotentialmisconfigurationdetected.FixandrestartHue.HiveTheapplicationwon'tworkwithoutarunningHiveServer2.我检查过,它已启动并正在运行。尝试重新启动服务和CDH,没有帮助。HiveServe

hadoop - 如何使用 hive/spark-sql 生成大数据集?

例如生成序号在1到1G之间的1G记录。 最佳答案 创建分区种子表createtableseed(iint)partitionedby(pint)用序列号在0到999之间的1K记录填充种子表。每条记录都被插入到不同的分区中,因此位于不同的HDFS目录中,更重要的是-在不同的文件中。附言需要以下集合sethive.exec.dynamic.partition.mode=nonstrict;sethive.exec.max.dynamic.partitions.pernode=1000;sethive.hadoop.supports.sp

macos - 极慢的 Hadoop CLI

我在OSX10.12.3上通过brew安装了hadoop。一切看起来都很棒,而且Hadoop似乎正在运行。我有一个问题:每当我运行hadoopCLI命令时,大约需要50秒才能完成。这是正常的吗?问题是什么,我该如何纠正?例子: 最佳答案 试试这个示例命令:exportHADOOP_ROOT_LOGGER=DEBUG,consolehdfsdfs-ls而且您应该能够看到它卡在了哪个步骤(可能是组解析或DNS之类的东西)。如果输出太多,您可以将其重定向到一个文件。 关于macos-极慢的Ha

hadoop - HDFS(序列文件)中的单个大文件或多个小文件?

目前我正在使用SequenceFile来压缩我们现有的HDFS数据。现在我有两个选项可以将这个序列文件存储为单个大文件,这意味着所有记录都转到这个文件。多个小文件,每个文件的大小与HDFSblock大小(128MB)完全匹配众所周知,HDFS文件存储为block,每个block都到一个映射器。所以我认为当MR处理序列文件时没有什么不同。我知道选项二的唯一缺点是名称节点需要更多开销来维护这些文件,而选项一只有一个文件。我对这两个选项感到困惑,因为我看到太多文章推荐了尽可能使您的HDFS文件大小与block大小匹配。尽可能将小文件合并为一个大文件。任何人都可以指出正确的方法吗?哪个更好?这