草庐IT

hadoop - 将 HDFS 从本地磁盘替换为 s3 出现错误 (org.apache.hadoop.service.AbstractService)

我们正在尝试设置Cloudera5.5,其中HDFS将仅在s3上工作,因为我们已经在Core-site.xml中配置了必要的属性fs.s3a.access.key################fs.s3a.secret.key###############fs.default.names3a://bucket_Namefs.defaultFSs3a://bucket_Name设置完成后,我们可以通过命令浏览s3存储桶的文件hadoopfs-ls/它显示了仅在s3上可用的文件。但是当我们启动yarn服务时,JobHistory服务器无法启动并出现以下错误,而在启动pig作业时,我们会遇

scala - 如何使用 Spark 在 S3 中捆绑多个文件

我在S3中有2000万个文件,跨越大约8000天。文件按UTC时间戳组织,如下所示:s3://mybucket/path/txt/YYYY/MM/DD/filename.txt.gz。每个文件都是UTF-8文本,包含0(空)到100KB的文本(第95个百分位数,尽管有一些文件高达数MB)。使用Spark和Scala(我对两者都不熟悉,想学习),我想保存“每日包”(其中8000个),每个包包含当天找到的任意数量的文件。理想情况下,我想存储原始文件名及其内容。输出也应驻留在S3中并以某种适合在进一步的Spark步骤和实验中输入的格式进行压缩。一个想法是将包存储为一堆JSON对象(每行一个,

scala - 使用来自 s3 或本地文件系统的 spark 从子目录递归读取文件

我正在尝试从包含许多子目录的目录中读取文件。数据在S3中,我正在尝试这样做:valrdd=sc.newAPIHadoopFile(data_loc,classOf[org.apache.hadoop.mapreduce.lib.input.TextInputFormat],classOf[org.apache.hadoop.mapreduce.lib.input.TextInputFormat],classOf[org.apache.hadoop.io.NullWritable])这似乎行不通。感谢帮助 最佳答案 是的,它可以工作,

hadoop fs 命令显示本地文件系统而不是 hdfs

为了组成一个hadoop集群,我在几台笔记本电脑上安装了hadoop。首先,我们以伪分布式模式安装,除了一个非常完美的地方(即所有服务都在运行,当我使用hadoopfs进行测试时,它显示了hdfs).在后面提到的笔记本电脑(有问题的那台)中,`hadoopfs-ls命令显示本地目录的信息不是hdfs,命令-cat、-mkdir、-put也会发生同样的情况。我可能做错了什么?任何帮助将不胜感激这是我的core-site.xmlhadoop.tmp.dir/home/hduser/hdfs_dir/tmpfs.default.namehdfs://localhost:54310.我必须说,

hadoop - 在 core-site.xml 中设置 fs.default.name 将 HDFS 设置为安全模式

我在一台机器上以伪分布式模式安装了ClouderaCDH4发行版并成功测试它是否正常工作(例如可以运行MapReduce程序,在Hive服务器上插入数据等)但是,如果我有机会core-site.xml文件将fs.default.name设置为机器名而不是localhost并重启NameNode服务,HDFS进入安全-模式。在更改fs.default.name之前,我运行了以下命令来检查HDFS的状态:$hadoopdfsadmin-report...ConfiguredCapacity:18503614464(17.23GB)PresentCapacity:13794557952(12

amazon-s3 - 如何以编程方式有效地将文件从 HDFS 复制到 S3

我的hadoop作业在HDFS上生成大量文件,我想编写一个单独的线程将这些文件从HDFS复制到S3。谁能告诉我处理它的任何JavaAPI。谢谢 最佳答案 “对S3block文件系统的支持已添加到Hadoop0.11.0中的${HADOOP_HOME}/bin/hadoopdistcp工具中(参见HADOOP-862)。distcp工具设置MapReduce作业来运行副本。使用distcp,一个成员众多的集群,可以快速复制大量数据。map任务的数量是通过统计source中的文件数来计算的:即每个map任务负责复制一个文件。source

hadoop - 当我使用 hadoop fs -mkdir 时,我的文件(目录)存储在哪里?

我是hadoop的新手,刚刚完成安装,这花了我2天的时间......我现在正在尝试使用hadoopdfs命令,但我就是无法理解它,虽然我已经浏览了好几天,但我找不到我想知道的答案。所有的例子都显示了结果应该是什么,没有解释它的真正结构,所以如果有人能帮助我理解hadoophdfs,我会很高兴。我已经在HDFS上创建了一个目录。bin/hadoopfs-mkdirinput好的,我将使用ls命令检查它。bin/hadoopfs-lsFound1itemsdrwxr-xr-x-hadoopsupergroup02012-07-3011:08input好的,没问题,一切看起来都很完美。但是H

hadoop - hadoop中core-site.xml中fs.defaultFS属性的含义

我正在尝试以完全分布式模式设置hadoop,并且在某种程度上我成功地做到了这一点。但是,我对core-site.xml中的一个参数设置有些疑惑-->fs.defaultFS在我的设置中,我有如下所述的三个节点:Node1--192.168.1.2-->配置为主节点(运行ResourceManager和NameNode守护进程)Node2--192.168.1.3-->配置为从节点(运行NodeManager和Datanode守护进程)Node3--192.168.1.4-->配置为从站(运行NodeManager和Datanode守护进程)现在属性fs.defaultFS是什么意思?例

amazon-s3 - 使用 Amazon EC2/S3 将本地数据复制到 Hadoop 集群上的 HDFS 时出现问题

我在AmazonEC2上设置了一个包含5个节点的Hadoop集群。现在,当我登录到主节点并提交以下命令时bin/hadoopjar.jar它抛出以下错误(不同时)。第一个错误是在我没有用“%2F”替换斜杠时抛出的,第二个是在我用“%2F”替换斜杠时抛出的:1)Java.lang.IllegalArgumentException:InvalidhostnameinURIS3://:@/2)org.apache.hadoop.fs.S3.S3Exception:org.jets3t.service.S3ServiceException:S3PUTfailedfor'/'XMLErrorMe

hadoop - 绕过 org.apache.hadoop.mapred.InvalidInputException : Input Pattern s3n://[. ..] 匹配 0 个文件

这是我的一个问题alreadyasked在spark用户邮件列表上,我希望在这里取得更大的成功。我不确定它是否与spark直接相关,尽管spark与我无法轻易解决该问题的事实有关。我正在尝试使用各种模式从S3获取一些文件。我的问题是其中一些模式可能什么都不返回,当它们返回时,我得到以下异常:org.apache.hadoop.mapred.InvalidInputException:InputPatterns3n://bucket/mypatternmatches0filesatorg.apache.hadoop.mapred.FileInputFormat.listStatus(Fi