read_actions_草庐IT

hadoop - 接口(interface)错误 : TSocket read 0 bytes when using hue with hbase

这是我在hueconfig中的设置[hbase]#以逗号分隔的HBaseThrift服务器列表#集群，格式为“(name|host:port)”。hbase_clusters=(集群|MasterIP:ThriftPort)#在截断之前获取的每行的行数或列数的硬限制。##truncate_limit=500但是当我连接到hue网页并切换到Hbase选项卡时，它显示日志:[08/Dec/201319:30:13+0000]中间件信息处理异常:Api错误:TSocket读取0字节:回溯(最近调用最后):文件“/home/ubuntu/workspaces/hue/hue-master/bu

java - Hadoop + Jackson 解析: ObjectMapper reads Object and then breaks

我正在使用Jackson在Hadoop中实现一个JSONRecordReader。到目前为止，我正在使用JUnit+MRUnit在本地进行测试。每个JSON文件包含一个对象，在一些header之后，它有一个字段，其值是一个条目数组，我希望将每个条目理解为一个记录(因此我需要跳过这些header)。我可以通过将FSDataInputStream推进到读取点来做到这一点。在我的本地测试中，我执行以下操作:fs=FileSystem.get(newConfiguration());in=fs.open(newPath(filename));longoffset=getOffset(in,"H

ObjectMapper Jackson code java json hadoop recordreader

hadoop - Spark : yarn cluster mode can't read hdfs path (No such file or directory)

我在yarn模式下使用spark提交，但我收到了这个错误:显然我的输入路径hdfs://缺少一个'/'我正在通过hdfs://master:8020/usr/jimmy/Test/，但是日志输出是日志文件中的hdfs:/master:8020/usr/jimmy/Test/Personal1(Personal1在我的代码中指定)缺少的'/'显然是问题所在我能做什么？请帮帮我我的命令:./bin/spark-submit--masteryarn-cluster--classMovie.Movies/usr/jimmy/Move.jarhdfs://master:8020/usr/jimm

directory cluster code hdfs master hadoop apache-spark

hadoop - Oozie - 从 Hive Action 捕获输出

在Oozie中，我们如何捕获可以在后续HiveAction中进一步使用的第一个HiveAction的输出？最佳答案假设您有两个hive表A和B。这里您正在对表A的数据执行一些转换，并希望将数据存储在表B中。为此，您的表B应该在Metastore中定义为外部表。Oozie工作流将在表A中执行转换查询，其输出将作为表B的源存储在表B的表定义中定义的同一目录中。关于hadoop-Oozie-从HiveAction捕获输出，我们在StackOverflow上找到一个类似的问题：

hadoop Action section 中进 hive bigdata oozie oozie-coordinator

hadoop - 创建 SPARK RDD(HDFS 上的文件)和调用 Action 时出错

scala>valmanager=sc.textFile("hdfs://localhost:54310/user/training/employee_dir/employeeManager")scala>manager.first错误:java.io.EOFException:EndofFileExceptionbetweenlocalhostis:"localhost.localdomain/127.0.0.1";destinationhostis:"localhost":54310;:java.io.EOFException;Formoredetailssee:http://wi

时出 hadoop section 34 localhost apache-spark

scala - Spark 流 : Write Data to HDFS by reading from one HDFSdir to another

我正在尝试使用SparkStreaming将数据从一个HDFS位置读取到另一个位置下面是我在spark-shell上的代码片段但我看不到在HDFS输出目录上创建的文件能否指出如何在HDFS上加载文件scala>sc.stop()scala>importorg.apache.spark.SparkConfscala>importorg.apache.spark.streamingscala>importorg.apache.spark.streaming.{StreamingContext,Seconds}scala>valconf=newSparkConf().setMaster("l

HDFSdir another scala section streamingcontext_dir apache-spark hadoop hdfs

Hadoop/MapReduce : Reading and writing classes generated from DDL

谁能带我了解使用从DDL生成的类读写数据的基本工作流程？我已经使用DDL定义了一些类似结构的记录。例如:classCustomer{ustringFirstName;ustringLastName;ustringCardNo;longLastPurchase;}我编译它以获得一个Customer类并将其包含到我的项目中。我可以很容易地看到如何将其用作映射器和缩减器的输入和输出(生成的类实现了可写)，但看不到如何将其读取和写入文件。org.apache.hadoop.record包的JavaDoc谈到以二进制、CSV或XML格式序列化这些记录。我该怎么做呢？假设我的reducer生成In

MapReduce generated Customer IntWritable public hadoop ddl

hadoop - 如何从 Oozie 工作流将参数传递给 Hadoop ToolRunner(或任何 MapReduce Action)

从命令行，可以按如下方式将参数传递给ToolRunner:hadoopjarmyJar.jarcom.Main-Dprop1=prop1value-Dprop2=prop2value我想调用我的MapReduce作业作为来自Oozie的MapReduce操作的一部分。我尝试按如下方式在工作流中定义属性:param1HelloWorld编辑这就是我尝试从我的MapReduce作业中读取参数的方式:Jobjob=newJob();Configurationconf=job.getConfiguration();System.out.println(conf.get("param1"));但

ToolRunner MapReduce section WorkflowFunctionalSpec hadoop oozie

java - 错误 : org. apache.hadoop.security.AccessControlException : Permission denied: user=root, access=READ_EXECUTE,

我在CentOS6机器上使用的是hadoop-1.2.1版本，并且已经配置好，它运行成功，我还在Eclipsekepler中安装了hadoop的插件，但不幸的是我得到了一个权限被拒绝的错误，我有如图所示，我试图通过阅读许多博客来解决这个问题，但我仍然被困在那里..有人可以解决这个问题吗？最佳答案我从您的问题中了解到，我想您正在使用操作系统的“root”登录以启动Hadoop。我建议重新启动您的系统并从“Hadoop”(在用户列表中给出，例如root、Guest、Hadoop)登录，然后启动Hadoop。然后它就会工作。

AccessControlException READ_EXECUTE section Hadoop java eclipse

java - Spark : Read Iterate on 2 files

我需要一些有关Spark+Java编程的帮助。这是我的问题:我在hdfs中有一个大文件，名为A，另一个大文件名为B。基本上，我需要同时迭代第一个(A)和第二个(B)。我的意思是这样的(这是伪代码):a=read.A;//ReadrecordfromAb=read.B;//ReadrecordfromBwhile(a!=EOF){if(a>b){b=read.B;//WriteOutputinsomeway}else{a=read.A;//Writeoutputinsomeway}}是否可以使用Spark+Java做类似的事情？最佳答案

Iterate Spark section 大文 java hadoop bigdata apache-spark