hdfs

linux - 从本地文件上传数据到 hdfs 时出错

您好，我刚刚开始研究Hadoop。当我尝试在HDFS上上传数据以在hadoop上运行mapreduce作业时。我遇到了问题。我运行以下命令hduser@bharti-desktop:/home/maitreyee/hadoop$bin/hadoopdfs-copyFromLocal/home/hduser/gutenberg/user/hduser/gutenberg然后在终端中弹出以下错误:14/12/0416:59:48WARNconf.Configuration:badconffile:elementnot14/12/0416:59:48WARNconf.Configuratio

时出 linux conf Configuration property ubuntu hadoop hdfs

hadoop - 从远程位置(某个远程机器上的本地文件系统)拉取一个文件到 Hadoop HDFS

我在不属于Hadoop(或HDFS)数据中心的机器(比如A)中有文件。所以机器A位于远离HDFS数据中心的位置。是否有脚本或命令或程序或工具可以在连接到Hadoop(数据中心的一部分)的机器上运行并将文件从机器A直接拉入HDFS？如果是，最好和最快的方法是什么？我知道有很多方法，比如WebHDFS、Talend，但它们需要从机器A运行，要求是避免这种情况并在数据中心的机器上运行它。最佳答案有两种方法可以实现:可以使用scp拉取数据并存放到一个临时位置，然后复制到hdfs，删除临时存放的数据。如果您不想将其保留为两步过程，您可以编

hadoop section 数据中心 HDFS

hadoop - Flume to HDFS 将一个文件分割成很多文件

我正在尝试将一个700MB的日志文件从flume传输到HDFS。我已按如下方式配置了flume代理:...tier1.channels.memory-channel.type=memory...tier1.sinks.hdfs-sink.channel=memory-channeltier1.sinks.hdfs-sink.type=hdfstier1.sinks.hdfs-sink.path=hdfs://***tier1.sinks.hdfs-sink.fileType=DataStreamtier1.sinks.hdfs-sink.rollSize=0source是一个spool

hadoop Flume code hdfs section flume-ng

hadoop - 如何使用 PIG 将数据从本地系统加载到 hdfs

我有一个csv文件sample.csv并且位于\home\hadoop\Desktop\script\sample.csv中。我尝试使用加载PIGmovies=load'/home/hadoop/Desktop/script/sample.csv'usingPigStorage(',')as(id,name,year,rating,duration);但是这个PIG语句给出了一个错误，但是当给出语句作为dumpmovies;时，它抛出错误并显示输入和输出失败。请建议我如何使用pig语句加载数据。最佳答案如果你的输入文件在本地，那

hadoop hdfs code section chararray apache-pig

hadoop - Hive中如何使用DistCp直接将数据转表？

我正在使用DistCp将数据从集群1复制到集群2。我成功地将表数据从集群1复制到集群2。但是，使用hdfs，数据已发送到文件浏览器。是否有任何直接的方法可以通过使用DistCp命令将此hdfs数据转换为Hive表(包括数据类型、分隔符等)？我当然可以查询它以从hdfs收集数据，但是我必须将它们一个接一个地转换。试图寻找有效的方法。谢谢!示例:hadoopdistcphdfs://nn1:8020/source/ahdfs://nn1:8020/source/bhdfs://nn2:8020/destination 最佳答案还没有找

hadoop DistCp section hdfs lt bigdata

hadoop - 在运行 S3DistCp 时设置 HDFS 复制因子

我正在使用S3DistCp将内容从S3复制到AmazonEMRHDFS。对于一些工作，我的空间不足，希望通过降低复制因子来解决这个问题。但我看不到在工作层面实现这一目标的方法。有人可以帮助解决这个问题吗？最佳答案您通常不希望在逐个作业的基础上修改集群的复制因子。复制用于数据冗余(在发生故障的情况下)和提高性能(通过使数据更接近计算操作)。最好将集群保留为预定义的值。默认情况下，AmazonEMR将1-3个核心节点的默认复制因子设置为1，将4-9个核心节点的值设置为2，将10+个核心节点的值设置为3。理论上您可以更改dfs.rep

S3DistCp 3DistCp section strong 好将 hadoop amazon-web-services mapreduce emr

java - 将 hadoop 的 Configuration 转换为 Map<String, String>

如何转换hadoop的Configurationconf至Map？我有一个将Map作为参数的方法，我想将Configurationconf传递给它，那么如何在两者之间转换？最佳答案您可以使用Configuration提供的迭代器并构建map。Configurationconfiguration=newConfiguration();Mapmap=newHashMap();Iterator>iterator=configuration.iterator();while(iterator.hasNext()){Map.Entryen

String Configuration section java hadoop hdfs

scala - 在 Spark 中重用连接的数据框

我在本地运行HDFS和Spark，并试图了解Spark持久性的工作原理。我的目标是将连接的数据集存储在内存中，然后动态地对其运行查询。但是，我的查询似乎是重做连接而不是简单地扫描持久的预连接数据集。我通过从HDFS加载两个CSV文件创建并保存了两个数据帧，比方说df1和df2。我将两个数据帧的连接保存在内存中:valresult=df1.join(df2,"USERNAME")result.persist()result.count()然后我在结果之上定义了一些操作:valresult2=result.select("FOO","BAR").groupBy("FOO").sum("BA

重用 scala result code section hadoop apache-spark hdfs spark-dataframe

scala - 缓存的 Spark RDD(从序列文件中读取)有无效条目，我该如何解决？

我正在使用Spark(v1.6.1)阅读Hadoop序列文件。缓存RDD后，RDD中的内容变为无效(最后一个条目重复了n次)。这是我的代码片段:importorg.apache.hadoop.io.Textimportorg.apache.hadoop.mapred.SequenceFileOutputFormatimportorg.apache.spark.{SparkConf,SparkContext}objectMain{defmain(args:Array[String]){valseqfile="data-1.seq"valconf:SparkConf=newSparkCon

条目有无 Text code section scala hadoop apache-spark hdfs sequencefile

python - 在没有pydoop的情况下列出HDFS Python中的所有文件

我有一个在centos6.5上运行的hadoop集群。我目前正在使用python2.6。由于不相关的原因，我无法升级到python2.7。由于这个不幸的事实，我无法安装pydoop。在hadoop集群中，我有大量名为raw"yearmonthdaytimehour".txt的原始数据文件，括号中的所有内容都是数字。有没有办法在python中列出hadoop目录中的所有文件？所以程序会创建一个看起来像这样的列表。listoffiles=['raw160317220001.txt','raw160317230001.txt',....]这将使我需要做的一切变得容易得多，因为从第2天第15小

python pydoop section noreferrer hadoop

53 54 555657 58 59