HADOOP_NAMENODE_OPTS

hadoop - 替换 pig 中的字符

我的数据采用以下格式..{"Foo":"ABC","Bar":"20090101100000","Quux":"{\"QuuxId\":1234,\"QuuxName\":\"Sam\"}"}我需要它采用这种格式:{"Foo":"ABC","Bar":"20090101100000","Quux":{"QuuxId":1234,"QuuxName":"Sam"}}我正在尝试使用Pig的替换功能以我需要的格式获取它..所以，我试过了.."LOGS=LOAD'inputloc'USINGTextStorage()asunparsedString:chararray;;"+"REPL1=fo

hadoop pig 34 code section apache-pig azure-hdinsight

unix - 使用 SCP 将文件从 Windows 桌面移动到 vmware 上的 hadoop 沙箱

我认为这很简单，但非常感谢您的帮助。我的Windows桌面上有一个zip文件“RECEIPTS_LAB.zip”，我在vmware上运行一个hadoop沙箱。沙箱是我用mapr注册的培训类(class)的一部分，但我是初学者，不确定如何将zip文件从Windows移动到沙箱中的目录“/user/user01/3”手册使用如下代码scpRECEIPTS_LAB.zipuser01@node-ip:/user/user01/3node-ip是我在启动沙箱时得到的ip地址，假设它是192.168.88.128当我编写以下命令时:scpRECEIPTS_LAB.zipuser01@192.16

沙箱 Windows section user unix hadoop mapr

hadoop - 没有类名的 ClassNotFoundException

我尝试在jar中添加UDF并尝试加载。以下是我的片段register'target/warcbase-0.1.0-SNAPSHOT-fatjar.jar';DEFINEWarcLoaderorg.warcbase.pig.WarcLoader();warc=LOAD'/raw/'USINGWarcLoaderAS(url:chararray,date:chararray,mime:chararray,content:bytearray);STOREwarcINTO'/raw/proc/';我得到以下异常。不幸的是，它没有告诉我找不到哪个类。以下是整个堆栈跟踪Backenderrorme

类名 ClassNotFoundException java apache hadoop apache-pig hadoop2

hadoop - 启动 Spark REPL 时出错

我有预构建的Spark1.4.1，我正在运行HDP2.6。当我尝试运行spark-shell时，它会给我一条错误消息，如下所示。Exceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/hadoop/fs/FSDataInputStreamatorg.apache.spark.deploy.SparkSubmitArguments$$anonfun$mergeDefaultSparkProperties$1.apply(SparkSubmitArguments.scala:111)atorg.apache.spar

时出 hadoop SparkSubmitArguments java URLClassLoader apache-spark hadoop-yarn

hadoop - HDFS 行为 : Datanodes up but all data goes to one node (using -copyFromLocal)

我有一个集群配置。主人(也是奴隶)两个奴隶复制因子=1我将一个~9GB的文件movies.txt复制到hdfs中:hadoopdfs-copyFromLocalmovies.txt/input/我观察到一半的block被保存到Master，另一半分布在两个slave上。然后我想到使用以下方法格式化hadoop_stores:stop-all.shrm-rf{hadoop_store}/*hdfsnamenode-formatsshslave1rm-rf{hadoop_store}/*hdfsnamenode-formatexitsshslave2rm-rf{hadoop_store}/

copyFromLocal Datanodes hadoop code section formatting hdfs

hadoop - HBase 和 Hive 需要放在同一台机器上吗？

我们目前正在构建一个新的hbase集群。架构如下:现在我想添加一个新的Hive集群。但是不知道要不要和hbase在同一个hadoop集群上搭建hive。还是应该为hive构建一个新的hadoop集群？如果我为hive新建一个hadoop集群，执行sql聚合hbase的数据时，hive和hbase之间的流量会不会太大(AFAIK，hive需要将hbase上的数据导入到自己的hdfs存储中)？最佳答案让我们首先定义HBase和Hive之间的流量是多少。在每个Hive查询中，您将:使用Hive直接查询HBase使用Hive执行Ware

hadoop HBase Hive section

hadoop - 配置单元 : The application won't work without a running HiveServer2

我是这个领域的新手。我正在检查CDH5.8快速启动VM以尝试一些基本的hive/impala示例。但是我遇到了一个问题，当我打开HUE时出现以下错误。我搜索了解决方案，但没有找到任何可以解决我的问题的方法。Configurationfileslocatedin/etc/hue/conf.emptyPotentialmisconfigurationdetected.FixandrestartHue.HiveTheapplicationwon'tworkwithoutarunningHiveServer2.我检查过，它已启动并正在运行。尝试重新启动服务和CDH，没有帮助。HiveServe

配置单 HiveServer2 code section pre hadoop cloudera cloudera-cdh hue cloudera-quickstart-vm

hadoop - 如何使用 hive/spark-sql 生成大数据集？

例如生成序号在1到1G之间的1G记录。最佳答案创建分区种子表createtableseed(iint)partitionedby(pint)用序列号在0到999之间的1K记录填充种子表。每条记录都被插入到不同的分区中，因此位于不同的HDFS目录中，更重要的是-在不同的文件中。附言需要以下集合sethive.exec.dynamic.partition.mode=nonstrict;sethive.exec.max.dynamic.partitions.pernode=1000;sethive.hadoop.supports.sp

大数 spark-sql strong section code hadoop apache-spark hive apache-spark-sql hiveql

macos - 极慢的 Hadoop CLI

我在OSX10.12.3上通过brew安装了hadoop。一切看起来都很棒，而且Hadoop似乎正在运行。我有一个问题:每当我运行hadoopCLI命令时，大约需要50秒才能完成。这是正常的吗？问题是什么，我该如何纠正？例子: 最佳答案试试这个示例命令:exportHADOOP_ROOT_LOGGER=DEBUG,consolehdfsdfs-ls而且您应该能够看到它卡在了哪个步骤(可能是组解析或DNS之类的东西)。如果输出太多，您可以将其重定向到一个文件。关于macos-极慢的Ha

Hadoop macos section image noreferrer

hadoop - HDFS(序列文件)中的单个大文件或多个小文件？

目前我正在使用SequenceFile来压缩我们现有的HDFS数据。现在我有两个选项可以将这个序列文件存储为单个大文件，这意味着所有记录都转到这个文件。多个小文件，每个文件的大小与HDFSblock大小(128MB)完全匹配众所周知，HDFS文件存储为block，每个block都到一个映射器。所以我认为当MR处理序列文件时没有什么不同。我知道选项二的唯一缺点是名称节点需要更多开销来维护这些文件，而选项一只有一个文件。我对这两个选项感到困惑，因为我看到太多文章推荐了尽可能使您的HDFS文件大小与block大小匹配。尽可能将小文件合并为一个大文件。任何人都可以指出正确的方法吗？哪个更好？这

大文 hadoop block section hdfs

118 119 120121122 123 124