草庐IT

windows - 在没有 Cygwin 的情况下,如何在 WIndows cmdline 上将文件传输到 Hadoop FS (HDFS)?

我对Hadoop的经验为零,但突然不得不在Windows上与Spark一起使用它。我的问题在这里被问过几次,但我永远无法完全理解我需要的语法,是这个。我正在尝试传输一个名为:gensortText.txt假设在c:\gensortText.txt我知道您可以使用hadoopfs-copyFromLocal。我试过这些东西:hadoopfs-copyFromLocalC:\gensortText.txthdfs://0.0.0.0:19000ERROR:RelativepathinabsoluteURI.hadoopfs-copyFromLocalC:\gensortOutText.tx

hadoop - 将中间 Amazon EMR 任务输出写入 S3

我正在运行一个输出数千GB数据的EMR作业。每个map任务输出10GB的数据,据我所知,这些中间输出存储在运行map任务的机器的磁盘上。因此,在同一台机器处理了多个map任务后,它会耗尽磁盘空间来存储这些map任务的中间结果。我知道如何在S3上存储最终结果(在reducer运行之后),但是有没有办法将中间输出(映射器的结果)也存储在S3上?不幸的是,仅仅分配更多的机器(或具有更多内存的机器)并不是一个实际的解决方案,因为我将在数百TB的数据上运行相同的作业。如有任何帮助,我们将不胜感激。 最佳答案 为了防止其他人遇到这个问题,我无法

java.lang.NoClassDefFoundError : ./oozie-setup.sh sharelib 创建-fs hdfs://localhost:9000

我构建了Oozie并在hdfs中创建共享库,但它给出了以下错误。我按照所有步骤操作,但这是唯一出错的步骤。settingCATALINA_OPTS="$CATALINA_OPTS-Xmx1024m"Exceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/commons/io/filefilter/IOFileFilteratjava.lang.Class.getDeclaredMethods0(NativeMethod)atjava.lang.Class.privateGetDeclaredMethods(Cla

hadoop - 步骤因 exitCode、Amazon Emr Hadoop、S3DistCp 而失败

我正在尝试创建一个“步骤”并将许多小文件收集到一个文件中,这样我就可以将它分开几天。问题是我正在跑intetando却不让我跑。执行它对我来说效果很好命令:hadoopdistcps3n://buket-name/output-files-hive/*s3n://buket-name/files-hive/test但是如果我已经输入了命令“groupby”或“srcPattern”,它不会让我有任何东西。在AmazonEMR控制台中创建“步骤”后,始终出现错误。你指出了文件命令:awsemradd-steps--cluster-idj-XXXXXXX--stepsName="S3Dis

amazon-web-services - 由 s3 透明支持的 EMR hdfs

有了hadoop,我可以使用s3作为存储url。但目前我有很多使用hdfs://...的应用程序,我想将整个集群和应用程序迁移到EMR和s3。我是否必须将每个应用程序中的url从hdfs://...更改为s3://...或者是否可以以某种方式告诉EMR存储s3上的hdfs内容所以每个应用程序仍然可以使用hdfs://...但实际上它会指向s3?如果是,怎么办? 最佳答案 这是一个很好的问题。有协议(protocol)欺骗这样的东西吗?您真的可以通过编写覆盖协议(protocol)处理方式的内容来影响此行为吗?老实说,这种解决方案让我

amazon-web-services - Amazon S3 错误代码 403 禁止进入 EMR 集群

我知道这个问题可能被问过多次,但我尝试了这些解决方案,但没有成功。因此,在新线程中询问它以获得确定的解决方案。我创建了一个具有S3只读权限(在所有S3资源上获取和列出)的IAM用户,但是当我尝试使用HDFS命令从EMR集群访问S3时,它会针对某些文件夹抛出“错误代码403禁止访问”异常。其他帖子的人回答是权限问题;我没有找到正确的解决方案,因为它是“禁止”而不是“拒绝访问”。此错误的行为仅针对存储桶内的某些文件夹(包含对象)和某些空文件夹出现。据观察,如果我使用nativeAPI调用,那么它会正常工作,如下所示:使用s3a调用时出现“禁止”异常:hdfsdfs-lss3a:///使用s

csv - 使用 Spark 从 S3 加载嵌套的 csv 文件

我尝试加载s3中的数百个gzip压缩csv文件。目录结构类似于以下内容:bucket--level1----level2.1--------level3.1------------manyfiles--------level3.2------------manyfiles----level2.2--------level3.1------------manyfiles--------level3.2------------manyfiles可能有多个level2、level3目录,每个目录下都有很多文件。过去我使用.textFile加载数据并使用通配符传递路径,例如:s3a://buc

Hadoop:hadoop fs -put error MSG:[ 有 2 个数据节点正在运行,2 个节点被排除在该操作中。]

enterimagedescriptionhere我已经安装了hadoop2.6.5,当我尝试将文件从本地放到hdfs时,出现了这个异常,我不知道如何解决这个问题!!需要帮助... 最佳答案 这将是一个网络问题。客户端进程(您运行hdfsdfs-put命令的位置)无法连接到DataNode主机。我可以从堆栈跟踪中看出,此时,您已经通过了与NameNode交互的点,因此从客户端到NameNode的连接很好。我建议将此作为客户端和所有DataNode主机之间的基本网络连接故障排除问题来处理。使用ping或nc或telnet等工具来测试连

xml - 当aws S3中存在成功文件时如何触发oozie作业

我正在使用oozie执行HDFS数据传输操作,要求是只要awsS3存储桶中有可用数据就触发oozie工作流作业。我正在考虑在我的S3存储桶中保留一个成功文件和数据文件,但我不确定如何让oozie协调器定期从S3读取以检查成功文件是否可用。如果有人可以提供相同的示例coordinator.xml,那就太好了。 最佳答案 你能试试下面的吗:-s3n://mybucket/a/b/${YEAR}/${MONTH}/${DAY}${coord:current(0)}fileDirectory${coord:dataIn('coorddata

hadoop - 使用 spark thrift 服务的 s3 位置创建/访问配置单元外部表的问题

我已经使用hadoop-credentialapi在jceks文件中配置了s3key(访问key和secretkey)。用于相同的命令如下:hadoop凭据创建fs.s3a.access.key-providerjceks://hdfs@nn_hostname/tmp/s3creds_test.jcekshadoop凭据创建fs.s3a.secret.key-providerjceks://hdfs@nn_hostname/tmp/s3creds_test.jceks然后,我使用beeline打开到SparkThriftServer的连接,并在连接字符串中传递jceks文件路径,如下所