hdfs_sink

hadoop - 无法从 Pig Latin 的 Hadoop HDFS 加载文件

我在尝试从文件加载csv时遇到问题。我不断收到以下错误:Input(s):Failedtoreaddatafrom"hdfs://localhost:9000/user/der/1987.csv"Output(s):Failedtoproduceresultin"hdfs://localhost:9000/user/der/totalmiles3"查看我安装在本地计算机上的Hadoophdfs，我看到了该文件。事实上，该文件位于多个位置，例如/、/user/等。hdfsdfs-ls/user/derFound1items-rw-r--r--1dersupergroup127162942

csv - 使用spark访问放置在hdfs中的csv文件

我已经使用hadoop-put命令将一个csv文件放入hdfs文件系统。我现在需要使用pysparkcsv访问csv文件.它的格式类似于`plaintext_rdd=sc.textFile('hdfs://x.x.x.x/blah.csv')`我是hdfs的新手。如何找到要放在hdfs://x.x.x.x中的地址？这是我输入时的输出hduser@remus:~$hdfsdfs-ls/inputFound1items-rw-r--r--1hdusersupergroup1582015-06-1214:13/input/test.csv感谢任何帮助。最佳答案

csv spark code section hdfs hadoop apache-spark pyspark

在 Rstudio 中读取 HDFS block

我想读HDFSRstudio中的文件，它不是一个容易做的CSV文件，但它们是block。我使用sqoop从数据库加载数据，所以我将数据分成block。我有这样的文件:/data/_SUCCESS/data/part-m-00000/data/part-m-00001/data/part-m-00002/data/part-m-00003/data/part-m-00004/data/part-m-00005但我无法读取所有文件，使用此命令我一次只能读取一个文件:hdfs.data//每次都更改part-m-0000*，*无法读取所有文件... 最佳答案

Rstudio block section part-m data r hadoop

Hadoop:是否可以以非 hdfs 用户身份运行 TestDFSIO 基准测试

是否可以以非hdfs用户身份执行TestDFSIO基准测试？此基准测试试图创建一个/benchmarks目录，但由于缺少权限而失败。有没有办法让这个基准测试使用我的hdfshome来存储数据？最佳答案应该可以通过设置配置参数“test.build.data”来实现，默认为“/benchmarks/TestDFSIO”。(参见:https://github.com/apache/hadoop/blob/release-2.6.0/hadoop-mapreduce-project/hadoop-mapreduce-client/ha

TestDFSIO Hadoop mapreduce benchmarking

hadoop - 如果输入数据源在 HDFS 中不断增加，MapReduce 作业会发生什么情况？

我们有一个与HDFS一起运行的日志收集代理，即代理(如Flume)不断收集一些应用程序的日志，然后写入HDFS。读写过程不停地运行，导致HDFS的目标文件不断增加。这里的问题是，由于输入数据不断变化，如果我将收集代理的目标路径设置为作业的输入路径，MapReduce作业会发生什么情况？FileInputFormat.addInputPath(job,newPath("hdfs://namenode:9000/data/collect")); 最佳答案 map-reduce作业仅处理开始时可用的数据。Map-Reduce用于批量数据处

MapReduce hadoop section noreferrer https

hadoop - 数据存储在 HDFS 中的什么位置？有没有办法改变它的存储位置？

我是新手。我有一个3节点集群。NameNode、JobTracker和SecondaryNameNode在一个节点中运行，另外两个集群中有两个数据节点(HData1、HData2)。如果我将数据从本地系统存储到HDFS，如何找到它驻留在哪个节点？有没有一种方法可以明确指定它必须存储在哪个数据节点中？提前致谢! 最佳答案是的，您可以使用hadoopfsck路径找到它您可以引用以下链接howdoeshdfschooseadatanodetostoreHowtoexpliciltydefinedatanodestostoreaparti

hadoop HDFS section stackoverflow questions

java - Cloudera:在 HDFS 异常中上传文件

我使用带有VMcloudera-quickstart-vm-5.4.2-0-virtualbox的MACOSXYosemite。当我键入“hdfsdfs-puttestfile.txt”将文本文件放入HDFS时，我得到了一个DataStreamer异常。我注意到主要问题是我拥有的节点数为空。我在下面复制了完整的错误消息，我想知道我应该如何解决这个问题。>WARNhdfs.DFSClient:DataStreamer>Exceptionorg.apache.hadoop.ipc.RemoteException(java.io.IOException):>File/user/clouder

中上 Cloudera hadoop java apache hdfs

java - Cloudera Quickstart VM illegalArguementException : Wrong FS: hdfs: expected: file:

我有一个简单的java代码可以将一个文本文件从本地复制到hdfs。我正在使用cloudera的quickstart虚拟机。Configurationconf=newConfiguration();conf.addResource(newPath("/etc/hadoop/conf/core-site.xml"));conf.addResource(newPath("/etc/hadoop/conf/hdfs-site.xml"));FileSystemfs=FileSystem.get(conf);fs.copyFromLocalFile(newPath("/home/cloudera

illegalArguementException Quickstart hadoop cloudera FileSystem java eclipse cloudera-quickstart-vm

hadoop - Hive 如何存储数据(从 HDFS 加载)？

我对Hadoop(HDFS和Hbase)和Hadoop生态系统(Hive、Pig、Impala等)相当陌生。我对NamedNode、DataNode、JobTracker、TaskTracker等Hadoop组件以及它们如何协同工作以高效方式存储数据有了很好的理解。在尝试了解Hive等数据访问层的基础知识时，我需要了解表的数据(在Hive中创建)的确切存储位置？我们可以在Hive中创建外部表和内部表。由于外部表可以在HDFS或任何其他文件系统中，因此Hive不会将此类表的数据存储在仓库中。内部表呢？该表将创建为Hadoop集群上其中一个数据节点上的目录。一旦我们从本地或HDFS文件系统

hadoop Hive 中创 section hbase hdfs bigdata

java - 如何从亚马逊 EMR HDFS 远程读取(或任何其他 hadoop 远程服务器)

我很清楚如何使用hadoopfs-get.....在unix中如何使用java从amazonaws(HDFS)获取文件？这是一个远程服务器。但我需要以某种方式提供一个(ppk文件)。如何在java中完成？添加到此link的代码. 最佳答案扩展“sras”已经注意到的内容。您必须使用org.apache.hadoop.fs.FileSystemAPI。可以远程调用该API，以便您可以从远程主机连接到HDFS。下面的stackoverflow问题实际上有一个代码片段和一些关于验证您的请求的详细解释。HDFSaccessfromremo

hadoop java section stackoverflow amazon-web-services hdfs

21 22 232425 26 27