草庐IT

hadoop - 设备异常、亚马逊 EMR 介质实例和 S3 上没有剩余空间

我在AmazonEMR上运行MapReduce作业,它创建40个输出文件,每个大约130MB。最后9个reduce任务因“设备上没有剩余空间”异常而失败。这是集群配置错误的问题吗?作业运行没有问题,输入文件更少,输出文件更少,reducer更少。任何帮助都感激不尽。谢谢!完整堆栈跟踪如下:Error:java.io.IOException:Nospaceleftondeviceatjava.io.FileOutputStream.writeBytes(NativeMethod)atjava.io.FileOutputStream.write(FileOutputStream.java:

hadoop - 使用 Hadoop fs --copyFromLocal 命令时没有这样的文件或目录错误

我有一个本地VM,上面安装了HortonworksHadoop和hdfs。我从我的机器ssh'ed进入虚拟机,现在我正尝试通过以下命令集将文件从我的本地文件系统复制到hdfs:[root@sandbox~]#sudo-uhdfshadoopfs-mkdir/folder1/[root@sandbox~]#sudo-uhdfshadoopfs-copyFromLocal/root/folder1/file1.txt/hdfs_folder1/当我执行它时,出现以下错误-copyFromLocal:/root/folder1/file1.txt':Nosuchfileordirectory

hadoop - s3distcp srcPattern 不工作?

我在S3中有这样的文件:1-2013-08-22-22-something2-2013-08-22-22-somethingetc没有srcPattern我可以轻松地从存储桶中获取所有文件,但我想获取特定的前缀,例如所有的1。我试过使用srcPattern,但由于某种原因它没有获取任何文件。我当前的命令是:elastic-mapreduce--jobflow$JOBFLOW--jar/home/hadoop/lib/emr-s3distcp-1.0.jar\--args'--src,s3n://some-bucket/,--dest,hdfs:///hdfs-input,--srcPa

hadoop - 如何使用 hadoop fs -getmerge 下载 .deflate 文件?

我试过运行hadoopfs-getmerge在.deflate文件的目录中。结果是我本地机器上的一个压缩文件。将未压缩格式的整个目录下载到我的本地计算机上的最简单方法是什么? 最佳答案 试试这个:hadoopfs-text/some/where/job-output/part-* 关于hadoop-如何使用hadoopfs-getmerge下载.deflate文件?,我们在StackOverflow上找到一个类似的问题: https://stackoverfl

hadoop - Cloudera hadoop : not able to run Hadoop fs command and at same time HBase is not able to create directory on HDFS?

我已经启动并运行了6个节点的cloudera5.0beta集群但是我无法使用命令查看hadoopHDFS的文件和文件夹sudo-uhdfshadoopfs-ls/在输出中它显示了linux目录的文件和文件夹。尽管namenodeUI正在显示文件和文件夹。在HDFS上创建文件夹时出现错误sudo-uhdfshadoopfs-mkdir/testmkdir:`/test':Input/outputerror由于此错误,hbase未启动并关闭并出现以下错误:Unhandledexception.Startingshutdown.java.io.IOException:Exceptioninm

hadoop - 使用 s3distcp 将文件从 amazon s3 复制到 hdfs 失败

我正在尝试使用EMR中的工作流将文件从s3复制到hdfs,当我运行以下命令时,作业流成功启动但在尝试将文件复制到HDFS时给我一个错误。我需要设置任何输入吗文件权限?命令:./elastic-mapreduce--jobflowj-35D6JOYEDCELA--jars3://us-east-1.elasticmapreduce/libs/s3distcp/1.latest/s3distcp.jar--args'--src,s3://odsh/input/,--dest,hdfs:///Users输出任务TASKID="task_201301310606_0001_r_000000"T

java.lang.IllegalArgumentException : Wrong FS: , 预期:hdfs://localhost:9000

我正在尝试实现reducesidejoin,并使用mapfilereader查找分布式缓存,但在stderr中检查时它没有查找值,它显示以下错误,lookupfile文件已经存在于hdfs中,并且似乎如标准输出所示正确加载到缓存中。java.lang.IllegalArgumentException:WrongFS:file:/app/hadoop/tmp/mapred/local/taskTracker/distcache/-8118663285704962921_-1196516983_170706299/localhost/input/delivery_status/Delive

hadoop - Spark/Hadoop - 无法使用服务器端加密保存到 s3

我正在运行AWSEMR集群来运行spark作业。为了使用s3存储桶,hadoop配置设置了访问key、secretkey、enableServerSideEncryption和用于加密的算法。请看下面的代码valhadoopConf=sc.hadoopConfiguration;hadoopConf.set("fs.s3.impl","org.apache.hadoop.fs.s3native.NativeS3FileSystem")hadoopConf.set("fs.s3.awsAccessKeyId","xxx")hadoopConf.set("fs.s3.awsSecretAc

scala - Spark : SAXParseException while writing to parquet on s3

我正在尝试读取一些json,推断模式,然后将其作为parquet再次写出到s3(s3a)。出于某种原因,在运行的写入部分进行了大约三分之一的过程中,spark总是出错并出现以下错误。我找不到任何明显的问题原因:它不是内存不足;没有长时间的GC暂停。各个执行者的日志中似乎没有任何其他错误消息。该脚本在我拥有的另一组数据上运行良好,它具有非常相似的结构,但小了几个数量级。我正在运行spark2.0.1-hadoop-2.7并使用FileOutputCommitter。算法版本似乎并不重要。编辑:对于格式错误的json或损坏的文件,这似乎不是问题。我已经解压缩并单独读取每个文件,没有错误。这

hadoop - 您可以使用 Spark SQL/Hive/Presto 直接从 Parquet/S3 复制到 Redshift 吗?

我们有大量服务器数据存储在S3中(很快将采用Parquet格式)。数据需要一些转换,因此它不能是S3的直接副本。我将使用Spark来访问数据,但我想知道是否可以不使用Spark来处理它,写回S3,然后复制到Redshift,如果我可以跳过一个步骤,运行查询以提取/转换数据,然后将其直接复制到Redshift? 最佳答案 没问题,完全有可能。读取parquet的Scala代码(取自here)valpeople:RDD[Person]=...people.write.parquet("people.parquet")valparquet