草庐IT

hdfs_clusters

全部标签

python - 在 Pyspark-Cluster 模式下的工作节点上安装外部库

我正在为NLP处理等开发pyspark。我正在使用TextBlobPython库。通常,在独立模式下,安装外部Python库很容易。在集群模式下,我面临着在工作节点上远程安装这些库的问题。我无法访问每台工作机器以在Python路径中安装这些库。我尝试使用Sparkcontextpyfiles选项传送.zip文件...但问题是这些Python包需要安装在工作机器上。是否有不同的方法可以使这个lib-Textblob在Python路径中可用? 最佳答案 ItriedtouseSparkcontextpyfilesoptiontoship

hadoop - 如何使用 hdfs 客户端连接到远程数据节点?

我的目标是从hdfs下载文件到本地文件系统。我正在使用连接到远程HDFSNameNode的客户端。hadoopfs-gethdfs://sourceHDFS:8020/path_to_file/file/path_to_save_file我得到了一个异常(exception)。15/03/1712:18:49WARNclient.ShortCircuitCache:ShortCircuitCache(0x11bbad83):failedtoload1073754800_BP-703742109-127.0.0.1-139845939166415/03/1712:18:49WARNhdf

hadoop - HDFS 有文件但发生 java.io.FileNotFoundException

我在Hadoop上运行MapReduce程序。输入格式将每个文件路径传递给映射器。我可以这样通过cmd查看文件,$hadoopfs-lshdfs://slave1.kdars.com:8020/user/hadoop/num_5/13.pdf找到1项-rwxrwxrwx3hdfshdfs1842692015-03-3122:50hdfs://slave1.kdars.com:8020/user/hadoop/num_5/13.pdf但是,当我尝试从映射器端打开该文件时,它不起作用。15/04/0106:13:04INFOmapreduce.Job:任务ID:attempt_142788

Linux和HADOOP安装在一台机器的一个驱动器上,我可以在电脑的另一个驱动器上安装HDFS吗

我是HADOOP的初学者。我有一台Windows笔记本电脑,硬盘分为4个驱动器。最近清空了一个盘(D盘),在上面安装了Ubuntu14.04,安装了HADOOP和HIVE。现在,在尝试通过Linux处理HADOOP时,我面临着空间限制。LINUX安装在D盘,Windows安装在C盘。当我想将本地文件系统中的数据移动到HIVE时,我必须先将它复制到HDFS,然后再复制到HIVE,现在我的问题是我电脑上的另外两个驱动器在这方面是否有任何用处作为本地文件系统或HDFS,最重要的是HDFS。如果是,请告诉我该怎么做。非常感谢任何帮助。 最佳答案

hadoop - 在 hadoop 多节点集群上启动 HDFS 守护进程时出错。Datanode 未启动

我正在尝试设置hadoop集群并在连接数据节点时出现以下错误。Namenode已启动并运行良好,但数据节点正在产生问题。/etc/hosts文件在两个节点上都可用。IP表已停止(f/w)。ssh发生。2015-05-2020:54:05,008INFOorg.apache.hadoop.ipc.Client:Retryingconnecttoserver:nn1.cluster1.com/192.168.1.11:9000.Alreadytried9time(s);retrypolicyisRetryUpToMaximumCountWithFixedSleep(maxRetries=1

hadoop - 无法从 Pig Latin 的 Hadoop HDFS 加载文件

我在尝试从文件加载csv时遇到问题。我不断收到以下错误:Input(s):Failedtoreaddatafrom"hdfs://localhost:9000/user/der/1987.csv"Output(s):Failedtoproduceresultin"hdfs://localhost:9000/user/der/totalmiles3"查看我安装在本地计算机上的Hadoophdfs,我看到了该文件。事实上,该文件位于多个位置,例如/、/user/等。hdfsdfs-ls/user/derFound1items-rw-r--r--1dersupergroup127162942

csv - 使用spark访问放置在hdfs中的csv文件

我已经使用hadoop-put命令将一个csv文件放入hdfs文件系统。我现在需要使用pysparkcsv访问csv文件.它的格式类似于`plaintext_rdd=sc.textFile('hdfs://x.x.x.x/blah.csv')`我是hdfs的新手。如何找到要放在hdfs://x.x.x.x中的地址?这是我输入时的输出hduser@remus:~$hdfsdfs-ls/inputFound1items-rw-r--r--1hdusersupergroup1582015-06-1214:13/input/test.csv感谢任何帮助。 最佳答案

在 Rstudio 中读取 HDFS block

我想读HDFSRstudio中的文件,它不是一个容易做的CSV文件,但它们是block。我使用sqoop从数据库加载数据,所以我将数据分成block。我有这样的文件:/data/_SUCCESS/data/part-m-00000/data/part-m-00001/data/part-m-00002/data/part-m-00003/data/part-m-00004/data/part-m-00005但我无法读取所有文件,使用此命令我一次只能读取一个文件:hdfs.data//每次都更改part-m-0000*,*无法读取所有文件... 最佳答案

Hadoop:是否可以以非 hdfs 用户身份运行 TestDFSIO 基准测试

是否可以以非hdfs用户身份执行TestDFSIO基准测试?此基准测试试图创建一个/benchmarks目录,但由于缺少权限而失败。有没有办法让这个基准测试使用我的hdfshome来存储数据? 最佳答案 应该可以通过设置配置参数“test.build.data”来实现,默认为“/benchmarks/TestDFSIO”。(参见:https://github.com/apache/hadoop/blob/release-2.6.0/hadoop-mapreduce-project/hadoop-mapreduce-client/ha

hadoop - 如果输入数据源在 HDFS 中不断增加,MapReduce 作业会发生什么情况?

我们有一个与HDFS一起运行的日志收集代理,即代理(如Flume)不断收集一些应用程序的日志,然后写入HDFS。读写过程不停地运行,导致HDFS的目标文件不断增加。这里的问题是,由于输入数据不断变化,如果我将收集代理的目标路径设置为作业的输入路径,MapReduce作业会发生什么情况?FileInputFormat.addInputPath(job,newPath("hdfs://namenode:9000/data/collect")); 最佳答案 map-reduce作业仅处理开始时可用的数据。Map-Reduce用于批量数据处