草庐IT

read_buffer

全部标签

hadoop - Spark : yarn cluster mode can't read hdfs path (No such file or directory)

我在yarn模式下使用spark提交,但我收到了这个错误:显然我的输入路径hdfs://缺少一个'/'我正在通过hdfs://master:8020/usr/jimmy/Test/,但是日志输出是日志文件中的hdfs:/master:8020/usr/jimmy/Test/Personal1(Personal1在我的代码中指定)缺少的'/'显然是问题所在我能做什么?请帮帮我我的命令:./bin/spark-submit--masteryarn-cluster--classMovie.Movies/usr/jimmy/Move.jarhdfs://master:8020/usr/jimm

scala - Spark 流 : Write Data to HDFS by reading from one HDFSdir to another

我正在尝试使用SparkStreaming将数据从一个HDFS位置读取到另一个位置下面是我在spark-shell上的代码片段但我看不到在HDFS输出目录上创建的文件能否指出如何在HDFS上加载文件scala>sc.stop()scala>importorg.apache.spark.SparkConfscala>importorg.apache.spark.streamingscala>importorg.apache.spark.streaming.{StreamingContext,Seconds}scala>valconf=newSparkConf().setMaster("l

java - 为什么 HDFS 使用 Protocol Buffer 而不是 Java 序列化 API 进行序列化?

为什么HDFS使用ProtocolBuffer而不是Java序列化API?如果我想通过Java序列化将对象从一个数据节点发送到另一个数据节点怎么办?我已经尝试了几件事,但我收到以下错误:java.io.WriteAbortedException:写入中止;java.io.NotSerializableException:java.lang.Thread 最佳答案 因为具有外部架构定义的格式(如ProtocolBuffers)比生成非常冗长文件的内置Java序列化更节省空间。HDFS可以使用不同的格式来存储数据。提供最佳空间效率同时又

Hadoop/MapReduce : Reading and writing classes generated from DDL

谁能带我了解使用从DDL生成的类读写数据的基本工作流程?我已经使用DDL定义了一些类似结构的记录。例如:classCustomer{ustringFirstName;ustringLastName;ustringCardNo;longLastPurchase;}我编译它以获得一个Customer类并将其包含到我的项目中。我可以很容易地看到如何将其用作映射器和缩减器的输入和输出(生成的类实现了可写),但看不到如何将其读取和写入文件。org.apache.hadoop.record包的JavaDoc谈到以二进制、CSV或XML格式序列化这些记录。我该怎么做呢?假设我的reducer生成In

hadoop - 如何使用 LZO 以外的压缩处理 Hadoop Map/Reduce 中的 Protocol Buffer 文件?

我想使用HadoopMap/Reduce来处理delimited使用LZO以外的东西压缩的ProtocolBuffer文件,例如xz或gzip。Twitter的elephant-bird库似乎主要支持读取LZO压缩的protobuf文件,因此似乎不能满足我的需求。是否有现有的库或标准方法来执行此操作?(注意:正如您从我选择的压缩算法中看到的那样,解决方案没有必要使protobuf文件可拆分。您的答案甚至不需要指定特定的压缩算法,但应该至少允许我提到的其中之一。) 最佳答案 您可能需要查看Hadoop的RAgzip补丁,以处理大型gz

java - 错误 : org. apache.hadoop.security.AccessControlException : Permission denied: user=root, access=READ_EXECUTE,

我在CentOS6机器上使用的是hadoop-1.2.1版本,并且已经配置好,它运行成功,我还在Eclipsekepler中安装了hadoop的插件,但不幸的是我得到了一个权限被拒绝的错误,我有如图所示,我试图通过阅读许多博客来解决这个问题,但我仍然被困在那里..有人可以解决这个问题吗? 最佳答案 我从您的问题中了解到,我想您正在使用操作系统的“root”登录以启动Hadoop。我建议重新启动您的系统并从“Hadoop”(在用户列表中给出,例如root、Guest、Hadoop)登录,然后启动Hadoop。然后它就会工作。

java - Spark : Read Iterate on 2 files

我需要一些有关Spark+Java编程的帮助。这是我的问题:我在hdfs中有一个大文件,名为A,另一个大文件名为B。基本上,我需要同时迭代第一个(A)和第二个(B)。我的意思是这样的(这是伪代码):a=read.A;//ReadrecordfromAb=read.B;//ReadrecordfromBwhile(a!=EOF){if(a>b){b=read.B;//WriteOutputinsomeway}else{a=read.A;//Writeoutputinsomeway}}是否可以使用Spark+Java做类似的事情? 最佳答案

hadoop - ArrayIndexOutOfBoundsException 在 MapOutputBuffer$Buffer.write 在 MapTask (Hadoop 2.7.1)

在Hadoop2.7.1上运行的Scalding驱Action业中出现ArrayIndexOutOfBounds的情况非常奇怪。下面的映射器日志转储。看起来Equator在spill2中以某种方式设置为负数。这正常吗?2015-08-1223:39:19,649INFO[main]org.apache.hadoop.mapred.MapTask:numReduceTasks:12015-08-1223:39:20,174INFO[main]org.apache.hadoop.mapred.MapTask:(EQUATOR)0kvi469762044(1879048176)2015-08

hadoop - hive : Read a struct value inside a map in hive

我有一个包含以下数据类型的列的配置单元表:map>我正在尝试使用横向View爆炸从map中读取id的值,但它抛出了以下错误:selectvalue.idfrommy_tablelateralviewexplode(my_map)valuelimit10;FAILED:SemanticException[Error10002]:Line1:14Invalidcolumnreference'id'谁能帮我从map中读取结构值。 最佳答案 selectval.idfrommy_tablelateralviewexplode(my_map)

hadoop - Spark : Not able to read data from hive tables

我已经创建了一个Maven项目作为pom.xml1.3.0org.apache.sparkspark-core_2.11${spark.version}org.scala-langscala-libraryorg.apache.sparkspark-sql_2.11${spark.version}mysqlmysql-connector-java5.1.6-->org.apache.sparkspark-hive_2.11${spark.version}我的类(class)正在从配置单元表中读取数据:importorg.apache.spark.sql.SQLContextimport