草庐IT

Linux和HADOOP安装在一台机器的一个驱动器上,我可以在电脑的另一个驱动器上安装HDFS吗

我是HADOOP的初学者。我有一台Windows笔记本电脑,硬盘分为4个驱动器。最近清空了一个盘(D盘),在上面安装了Ubuntu14.04,安装了HADOOP和HIVE。现在,在尝试通过Linux处理HADOOP时,我面临着空间限制。LINUX安装在D盘,Windows安装在C盘。当我想将本地文件系统中的数据移动到HIVE时,我必须先将它复制到HDFS,然后再复制到HIVE,现在我的问题是我电脑上的另外两个驱动器在这方面是否有任何用处作为本地文件系统或HDFS,最重要的是HDFS。如果是,请告诉我该怎么做。非常感谢任何帮助。 最佳答案

hadoop - hadoop如何存储数据和使用MapReduce?

当我试图理解hadoop架构时,我想弄清楚一些问题。当有大数据输入时,HDFS会把它分成很多block(每个block64MB或128MB)然后复制很多次存储在内存块中,对吧?但是,我仍然不知道MapReduce在哪里工作。是用分合数据来存储的吗?或者用它来返回一些有用的输出? 最佳答案 在HDFS中存储数据与使用MapReduce范式分析数据是完全不同的事情。当上传到HDFS时,大数据文件被拆分成block存储在数据节点中,每个block被复制的次数与配置的复制因子(默认为3)一样多。数据拆分就像将文件除以配置的block大小一样

hadoop - 使用 Spark Streaming 将非结构化数据持久化到 Hadoop

我有一个使用SparkStreaming创建的摄取管道,我想将RDD作为大型非结构化(JSONL)数据文件存储在hadoop中,以简化future的分析。将astream持久化到hadoop而不会产生大量小文件的最佳方法是什么?(因为hadoop不适合这些,而且它们使分析工作流程复杂化) 最佳答案 首先,我建议使用可以像Cassandra一样处理这种情况的持久层。但是,如果您对HDFS死心塌地,那么themailinglisthasanansweralready您可以使用FileUtil.copyMerge(来自hadoopfs)A

hadoop - 使用 Google Cloud Dataflow 合并 Google Cloud Storage 中的文件

NathanMarz在他的书“BigData”中描述了如何维护HDFS中的数据文件。以及如何使用他的Pail优化文件大小以尽可能接近原生HDFSblock大小在MapReduce之上运行的库.是否有可能在GoogleCloudStorage中获得相同的结果??我可以使用GoogleCloudDataflow吗?而不是MapReduce用于此目的? 最佳答案 GoogleCloudStorage允许组合对象,让您可以将一个对象存储在多个部分中,然后将它们组合起来,一次最多可组合32个部分,总共1024个组成部分。API中提供了此功能。

hadoop - 在 hadoop 多节点集群上启动 HDFS 守护进程时出错。Datanode 未启动

我正在尝试设置hadoop集群并在连接数据节点时出现以下错误。Namenode已启动并运行良好,但数据节点正在产生问题。/etc/hosts文件在两个节点上都可用。IP表已停止(f/w)。ssh发生。2015-05-2020:54:05,008INFOorg.apache.hadoop.ipc.Client:Retryingconnecttoserver:nn1.cluster1.com/192.168.1.11:9000.Alreadytried9time(s);retrypolicyisRetryUpToMaximumCountWithFixedSleep(maxRetries=1

hadoop - 无法从 Pig Latin 的 Hadoop HDFS 加载文件

我在尝试从文件加载csv时遇到问题。我不断收到以下错误:Input(s):Failedtoreaddatafrom"hdfs://localhost:9000/user/der/1987.csv"Output(s):Failedtoproduceresultin"hdfs://localhost:9000/user/der/totalmiles3"查看我安装在本地计算机上的Hadoophdfs,我看到了该文件。事实上,该文件位于多个位置,例如/、/user/等。hdfsdfs-ls/user/derFound1items-rw-r--r--1dersupergroup127162942

hadoop MapR2 作业无操作

ayush@ayush-Inspiron-3521:~/apps/h260$jps3474ResourceManager3603NodeManager3316SecondaryNameNode3957Jps3129DataNode2975NameNodeayush@ayush-Inspiron-3521:~/apps/h260$bin/hdfsdfs-mkdir/userayush@ayush-Inspiron-3521:~/apps/h260$bin/hdfsdfs-mkdir/user/ayushayush@ayush-Inspiron-3521:~/apps/h260$bin/h

hadoop - 我没有收到来自 Twitter 的推文

我尝试在HDFS中通过Flume流式传输推文,但我没有从twitter获取推文。该过程在下面提到的这一点停止....!!除了这一步什么都没有。INFOinstrumentation.MonitoredCounterGroup:Monitoriedcountergroupfortype:SINK,name:HDFS,registeredsuccessfully.INFOinstrumentation.MonitoredCounterGroup:Componenttype:SINK,name:HDFSstarted我的flume.conf文件:TwitterAgent.sources=Tw

csv - 使用spark访问放置在hdfs中的csv文件

我已经使用hadoop-put命令将一个csv文件放入hdfs文件系统。我现在需要使用pysparkcsv访问csv文件.它的格式类似于`plaintext_rdd=sc.textFile('hdfs://x.x.x.x/blah.csv')`我是hdfs的新手。如何找到要放在hdfs://x.x.x.x中的地址?这是我输入时的输出hduser@remus:~$hdfsdfs-ls/inputFound1items-rw-r--r--1hdusersupergroup1582015-06-1214:13/input/test.csv感谢任何帮助。 最佳答案

在 Rstudio 中读取 HDFS block

我想读HDFSRstudio中的文件,它不是一个容易做的CSV文件,但它们是block。我使用sqoop从数据库加载数据,所以我将数据分成block。我有这样的文件:/data/_SUCCESS/data/part-m-00000/data/part-m-00001/data/part-m-00002/data/part-m-00003/data/part-m-00004/data/part-m-00005但我无法读取所有文件,使用此命令我一次只能读取一个文件:hdfs.data//每次都更改part-m-0000*,*无法读取所有文件... 最佳答案