草庐IT

Hadoop-Connector

全部标签

hadoop - 启动 spark-submit 时出错,因为 avro

我正在用spark创建一个应用程序。我在Hadoop2的HDFS中使用avro文件。我使用maven并像这样包含avro:org.apache.avroavro-mapred1.7.6hadoop2我做了一个单元测试,当我使用mvntest时,一切正常。但是当我用spark启动时提交没有!我有这个错误:Exceptioninthread"main"org.apache.spark.SparkException:Jobabortedduetostagefailure:Task1instage0.0failed1times,mostrecentfailure:Losttask1.0inst

apache - Hadoop 文件系统复制 - 名称节点与数据节点

我需要将一个文件从我的文件系统复制到HDFS,下面是我在hdfs-site.xml中的配置。我应该如何使用“hadoopfs”命令将/home/text.txt中的文件复制到HDFS中?我应该将它复制到名称节点还是数据节点?dfs.replication1dfs.namenode.name.dirfile:/usr/local/hadoop_store/hdfs/namenodedfs.datanode.data.dirfile:/usr/local/hadoop_store/hdfs/datanode 最佳答案 您使用的是什么版本

hadoop - 使用 Collectl 监控 Hadoop 集群

我正在评估各种系统监控工具,以便使用其中一个来监控我的hadoop集群。我印象深刻的工具之一是collectl。几天以来我一直在研究它。我正在努力寻找如何在使用colmux时聚合collectl捕获的指标?比如说,我的hadoop集群中有10个节点,每个节点都将collectl作为服务运行。使用colmux我可以看到单个View中每个节点的性能指标(单行和多行格式)。太棒了!但是,如果我正在考虑集群中所有节点上的CPU、IO等聚合,该怎么办?那就是我要找的通过将每个节点的性能指标聚合到相应的集群中,我的集群整体表现如何数字,从而为我提供集群级指标而不是节点级指标。非常感谢任何帮助。谢谢

java - 如何在 Pig Hadoop 中以简单日期格式 ex "yyyy-MM-dd hh-MM-ss"转换长毫秒

如何将long毫秒转换为simpledate格式ex:yyyy-MM-ddhh-MM-ss在PigHadoop中exampleinput=1409051466000output="yyyy-MM-ddhh-MM-ss"在Pig脚本中。 最佳答案 谢谢krishanthy-mohanachandran。但是我在pig中有很好的脚本。我正在试用并完成。以简单的日期格式转换毫秒yyyy-MM-ddhh-MM-sspig中的脚本:curtime=milisecond-long(1409051466000)为了格式化,我可以将它转换为日期,然

hadoop - 如何在 MRUnit 中使用 avro 参数测试 reducer ?

我正在尝试测试下面的ReducerReducer,AvroKey,NullWritable>出于这些目的,我在测试中使用了下一个代码:CustomReducerreducer=newCustomReducer();reduceDriver=newReduceDriver,AvroKey,NullWritable>();Jobjob=newJob();reduceDriver=ReduceDriver.newReduceDriver(reducer).withConfiguration(job.getConfiguration());reduceDriver.setReducer(red

mongodb - 在 Hadoop MapReduce(使用 Mongo Hadoop 连接器)之后,重复记录被写入 MongoDB

我们在AWSEMR上的Hadoop测试环境1个主节点2个从节点当我们提交一个小测试作业时,它会触发1个maptask。map任务完成后,将触发3个reduce任务。reduce任务完成后,我们的输出数据将写入Mongo集合。但是我们注意到,在某些情况下,输出中有重复的记录。这会导致我们的下游处理任务崩溃,因为它们不需要重复。我注意到的一件事是,其中一个reduce任务有时会被终止,然后由hadoop重新启动-如果它在将数据写入Mongo的过程中被终止,这会导致重复记录吗?有什么方法可以从日志中看出Mongohadoop连接器是否真的在向Mongo写入数据?有什么方法可以确保在提交给Mo

hadoop - 如何在 PIG 中使用 FILTER 获取 for 循环内的匹配值?

将此视为我的输入,Input(File1):12345;1134567;12..Input(File2):11;(1,2,3,4,5,6,7,8,9)12;(9,8,7,6,5,4,3,2,1)..我想得到如下输出:Output:(1,2,3,4,5,6,7,8,9)(9,8,7,6,5,4,3,2,1)这是我尝试使用FILTER的示例代码,我遇到了一些错误。请建议我一些其他选项。data1=load'/File1'usingPigStorage(';')as(id,number);data2=load'/File2'usingPigStorage(';')as(numberInfo,

hadoop - 二级名称节点备份名称节点的默认时间是多少?

二级名称节点备份名称节点的默认时间(定期检查)是多少?我可以编辑的参数是什么? 最佳答案 fs.checkpoint.period,setto1hourbydefault,specifiesthemaximumdelaybetweentwoconsecutivecheckpoints更多信息here.仅供引用……SNN不用于备份来自NN的数据。它用于合并NN上存在的fsImage和编辑文件。 关于hadoop-二级名称节点备份名称节点的默认时间是多少?,我们在StackOverflow上

hadoop - HIVE:应用定界符直到指定的列

我正在尝试将数据从文件移动到配置单元表中。文件中的数据看起来像这样:-StringAStringBStringCStringDStringE其中每个字符串由空格分隔。问题是我想要单独的列用于StringA、StringB和StringC,而一列用于StringD,即StringD和StringE应该属于同一列。如果我使用ROWDELIMITEDBYFIELDSTERMINATEDBY'',Hive将为StringD和StringE生成单独的列。(StringD和StringE本身包含空格,而其他字符串本身不包含空格)hive中是否有任何特殊语法来实现此目的,或者我是否需要以某种方式预处

hadoop - 不耐烦的第 1 部分 gradle 公会的级联失败

我刚刚获得Gradle1.4和Hadoop2.7.0。在我的Ubuntu14.04虚拟机上。我在Impatienttuturial存储库的Cascading的第1部分目录中。当我运行“gradlecleanjar”时,我得到以下信息:FAILURE:Buildfailedwithanexception.*Where:Buildfile'/home/Impatient/build.gradle'line:29*Whatwentwrong:Aproblemoccurredevaluatingrootproject'impatient'.>Couldnotfindmethodjcenter(