草庐IT

hdfs_clusters

全部标签

scala - 将数据帧写入 HDFS 时出现 NumberFormatException 错误

我正在将dataframe写入HDFS,代码如下final_df.write.format("com.databricks.spark.csv").option("header","true").save("path_to_hdfs")它给我以下错误:Causedby:java.lang.NumberFormatException:Forinputstring:"124085346080"下面的完整堆栈:atorg.apache.spark.sql.execution.datasources.DefaultWriterContainer.writeRows(WriterContaine

hadoop - 将 hadoop fs 路径转换为 ​​hdfs ://paths on EMR

我想知道如何将数据从EMR集群的HDFS文件系统移动到S3存储桶。我认识到我可以在Spark中直接写入S3,但原则上它也应该在之后直接写入,但到目前为止我还没有发现在实践中是这样。AWS文档推荐s3-dist-cp用于在HDFS和S3之间移动数据。documentation对于s3-dist-cp声明应该以URL格式指定HDFS源,即hdfs://path/to/file。到目前为止,我已经使用hadoopfs-get在HDFS和我的本地文件系统之间移动数据,它采用path/to/file而不是hdfs的语法//路径/到/文件。目前尚不清楚如何在两者之间进行映射。我正在从SSH连接到主

hadoop - 无法更改对 hdfs 目录的读写权限

我正在尝试将文本文件复制到hdfs位置。我遇到了访问问题,所以我尝试更改权限。但我无法更改同样面临以下错误:chaithu@localhost:~$hadoopfs-puttest.txt/userput:Permissiondenied:user=chaithu,access=WRITE,inode="/user":hdfs:supergroup:drwxr-xr-xchaithu@localhost:~$hadoopfs-chmod777/userchmod:changingpermissionsof'/user':Permissiondenied.user=chaithuisno

Hadoop:将文件本地目录复制到 Hdfs 时出错

当我尝试在hdfs中复制3个文件的目录时出现以下错误hduser@saket-K53SM:/usr/local/hadoop$bin/hadoopdfs-copyFromLocal/tmp/gutenberg/user/hduser/gutenberg12/08/0123:48:46WARNhdfs.DFSClient:DataStreamerException:org.apache.hadoop.ipc.RemoteException:java.io.IOException:File/user/hduser/gutenberg/gutenberg/pg20417.txtcouldon

hadoop - 将文件样本从 hdfs 复制到本地 fs?

好的,一个很愚蠢的问题...我在hdfs中有一个大文件/user/input/foo.txt我想从这个位置复制前100行到本地文件系统...而且数据非常敏感,所以我对实验有点犹豫。将样本数据从hdfs复制到本地fs的正确方法是什么。 最佳答案 如果文件没有被压缩:bin/hadoopfs-cat/path/to/file|head-100>/path/to/local/file如果文件是压缩的:bin/hadoopfs-text/path/to/file|head-100>/path/to/local/file

hadoop - Flume HDFS Sink Flush 和 Roll 的区别

我在Flume文档中遇到了HDFSSink的两个配置属性:hdfs.rollCountNumberofeventswrittentofilebeforeitrolled(0=neverrollbasedonnumberofevents)和hdfs.batchSizenumberofeventswrittentofilebeforeitisflushedtoHDFS我想知道这两个属性之间的区别,以及roll和flush的区别。在我看来它们看起来一样。 最佳答案 在HDFSSink中,roll表示关闭当前文件,将即将发生的事件写入新文件

hadoop - 方案 : hdfs 没有文件系统

当我运行包含HbaseBolt的Storm拓扑时出现以下错误。java.io.IOException:NoFileSystemforscheme:hdfsatorg.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2298)~[hadoop-common-2.0.0-cdh4.7.0.jar:na]atorg.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2305)~[hadoop-common-2.0.0-cdh4.7.0.jar:

hadoop - 是否可以在没有 HDFS 和 Hadoop 集群的情况下在本地运行 MapReduce?

鉴于我在我的Windows系统中开发MapReduce任务,并且在将它们移动到HDFS集群之前,我想在本地运行MapReduce。我只想检查我的映射器逻辑、inputSplits、输入/输出格式等是如何工作的。这可能吗? 最佳答案 Hadoop以3种模式运行。1.localmode2.psuedomode3.distributedmode.您正在寻找的是本地模式。在以2或3种模式运行之前,您可以从eclipse调试mapreduce代码。This在本地模式下运行应用程序的分步指南可以帮助您调试应用程序。希望对您有所帮助!

java - Hadoop 将数据附加到 hdfs 文件并忽略重复条目

如何将数据附加到HDFS文件并忽略重复值?我有一个巨大的HDFS文件(MainFile),我还有2个来自不同来源的新文件,我想将这些文件中的数据附加到MainFile。主文件和其他文件具有相同的结构。 最佳答案 您可以编写一个mapreduce作业以将您的文件合并到hdfs中,或者您使用读取“2otherfiles”并写入“MainFile”:FileSystemfs=FileSystem.get(newConfiguration());FileStatus[]status=fs.listStatus(newPath(/*2othe

hadoop - 是否有工具可以将目录内容按原样连续复制到 HDFS?

我尝试使用flume目录后台处理程序源和HDFS接收器。但这并不符合我的目的,因为文件由Flume读取,然后作为可以按大小/时间滚动的部分文件写入HDFS(如果我弄错了,请纠正我)。是否有一种工具可以像HDFS一样对转储到假脱机目录中的所有文件连续执行操作? 最佳答案 如果我答对了你的问题,那么你有一个,你正在将文件放入其中,你想将该文件移动到HDFS而不读取它和HDFScopyFromLocal将解决您的问题然后您只需要有一个逻辑可以返回目录中最近的文件并运行CopyFromLocal命令将其复制到HDFS.