hdfs-agent_草庐IT

hadoop - java.lang.NoClassDefFoundError : org/apache/hadoop/hdfs/BenchmarkThroughput 错误

我尝试在CDH4.4上运行TestDFSIO，这是我通过命令行(而不是ClouderaManager)启动的。这是我运行的命令:bin/hadoopjarhadoop-test-2.0.0-mr1-cdh4.4.0-SNAPSHOT.jarTestDFSIO-Ddfs.replication=1-write-nrFiles2-fileSize4000这是我得到的错误:java.lang.NoClassDefFoundError:org/apache/hadoop/hdfs/BenchmarkThroughputatorg.apache.hadoop.test.AllTestDriver

hadoop - 在没有 YARN 的情况下安装 HDFS 以与 SHARK 一起使用

我正在尝试安装ApacheShark。其中一项要求是安装HDFS。我不想使用YARN或MESOS。我只想要HDFS。我的问题是:这是否意味着我只能安装2.x之前的hadoop发行版？如果有，是哪一个？或者我可以使用Hadoop2.4并以某种方式禁用YARN吗？我不太确定该怎么做。我能找到的所有教程似乎都使用YARN。有人对如何仅在2.x中使用HDFS有任何建议吗？如果只想安装HDFS，我需要哪个hadoop发行版？最佳答案要使用shark，您需要安装:HDFS存储数据hive用于内存中使用的Sparkyarn不是强制性的

hadoop SHARK section HDFS YARN apache-spark shark-sql

hadoop - hdfs-site.xml 上的配置属性是否适用于 hadoop 中的 NameNode？

最近搭建了一个hadoop的测试环境集群-一主两从Master不是dataNode(尽管有些使用master节点作为主节点和从节点)。所以基本上我有2个数据节点。复制的默认配置是3。最初，我没有更改conf/hdfs-site.xml上的任何配置。我遇到错误couldonlybereplicatedto0nodesinsteadof1。然后我在我的主从中更改了conf/hdfs-site.xml中的配置，如下所示:dfs.replication3瞧!一切正常。我的问题是:尽管我更改了所有数据节点和名称节点中的hdfs-site.xml，但此配置是否适用于名称节点或数据节点。如果我的理解

hadoop hdfs-site code section site mapreduce hdfs

ubuntu - hdfs namenode -格式错误(没有那个文件或目录)

尝试在我的ubuntu机器上本地运行hadoop2.3.0，尝试格式化hdfs名称节点，我收到以下错误:/usr/local/hadoop/hadoop-hdfs-project/hadoop-hdfs/src/main/bin/hdfs:line34:/usr/local/hadoop/hadoop-hdfs-project/hadoop-hdfs/src/main/bin/../libexec/hdfs-config.sh:Nosuchfileordirectory/usr/local/hadoop/hadoop-hdfs-project/hadoop-hdfs/src/main/

namenode ubuntu hadoop code hdfs

hadoop - -Dpig.additional.jars 包含 HDFS 和本地文件系统上的文件

如何将jar从我的本地文件系统和Hadoop分布式文件系统(HDFS)传递到-Dpig.additional.jars？假设我有两个jar:/home/local/myjar1.jarhdfs:///user/notlocal/myjar2.jar第一个jar在我的本地目录中。第二个jar在HDFS中。我想在Hadoop集群上运行test_script.pig1并将以上两个jar包含在-Dpig.additional.jars中。pig-xmapreduce-ftest_script.pig1-Dpig.additional.jars=/home/local/myjar1.jar:hd

additional hadoop code jar myjar mapreduce apache-pig

hadoop - 使用 http 源在具有相同扩展名的 HDFS 中保存文件(不同扩展名)

我需要创建一条数据管道，其中源是HTTP，接收器是HDFS来发布数据和文件。问题是我想用与最初发送到HTTP源相同的扩展名保存文件。我用下面的脚本创建了一个流流创建httpToHdfs--defination"http|HDFS"--deploy但是当我以.gzip/.xml/.json格式上传文件时，它会将文件存储在.txt中我只想通过HTTP源复制HDFS中的文件，springxd可以吗？最佳答案 hdfs接收器用于将基于文本的流写入hdfs。它采用名为--fileExtension的选项，您可以在其中指定文件扩展名。虽然这个

扩展名 hadoop section code spring-xd

hadoop - 如何从 hdfs 符号链接(symbolic link)读取多个文本文件

我正在尝试从spark中读取hdfs符号链接(symboliclink)的多个部分文件。如果路径是物理路径，我可以使用通配符(*)从路径中读取多个文件例如sparkContext.textFile(/some/path/file_123321_00/part-r-000*)但是我已经在hdfs上创建了指向这个名为“fullset”的文件夹的符号链接(symboliclink)。当我使用/some/path/fullset/part-r-000*它无法检测到任何路径。我在两条路径上都尝试了hadoopfs-ls。第一个可以工作，但是带有符号链接(symboliclink)的一个不能按预期

symbolic 本文 section code hadoop apache-spark hdfs symlink mapr

hadoop - 为什么匿名 FTP 到 HDFS DistCp 不起作用？

我尝试使用以下命令将FTP数据复制到HDFS，hadoopdistcpftp://ftp.ncdc.noaa.gov/pub/data/noaa/1901/data/noaa/1901/这是我收到的错误15/03/0411:29:13INFOtools.DistCp:InputOptions:DistCpOptions{atomicCommit=false,syncFolder=false,deleteMissing=false,ignoreFailures=false,maxMaps=20,sslConfigurationFile='null',copyStrategy='unifo

匿名 hadoop apache DistCp ftp hdfs anonymous-users

r - 将 Hive 表从 HDFS 移动到 Amazon Redshift

我尝试将通过连接4-5个数据集创建的Hive表传输到Redshift。这个过程应该如何实现？我们在边缘节点上有可用的R。Hive表必须先传输到S3，然后从s3传输到Redshift。这是唯一的方法吗？是否可以使用R，即使用RHive包将我的数据集从HDFS移动到R，然后将该数据集从R移动到Redshift？最佳答案您可以使用RJDBC连接到Redshift(Redshift是pgsql)。因此，您可以使用从配置单元读取一行，并使用R中的RJDBC将其加载到Redshift。您创建1000个或更多的批处理并插入Redshift。如

Redshift Amazon section stackoverflow r hadoop hive amazon-redshift

hadoop - 如果我们使用Sqoop从MySql导入数据到HDFS，HDFS存储的文件格式是什么？

如果我们使用Sqoop从MySql导入数据到HDFS，HDFS存储的文件格式是什么最佳答案 Sqoop已将您的数据导入为逗号分隔的文本文件。它支持许多其他文件格式，可以使用下面列出的参数激活控制导入命令文件格式的mSqoop参数参数--as-avrodatafileDataisimportedasAvrofiles.--as-sequencefileDataisimportedasSequenceFiles.--as-textfileThedefaultfileformat,withimporteddataasCSVtextfil

HDFS hadoop section imported