hadoop-mapreduce

scala - Mapreduce 使用 Scala 错误 : java. lang.ClassNotFoundException : scala. Predef$

我尝试通过scala实现一个简单的mapreduce作业。但是，当我使用命令运行包时，hadoopjarhadoop.jarmapreduce.MaxTemperaturehdfs://sandbox/user/ajay/inputhdfs://sandbox/user/ajay/output我得到错误，16/09/0616:06:12INFOmapreduce.Job:TaskId:attempt_1473177830264_0002_m_000001_2,Status:FAILEDError:java.lang.ClassNotFoundException:scala.Predef

hadoop - pig : CONCAT A relation OUTPUT to another RELATION

对于问题的错误措辞，我们深表歉意。我是stackoverflow的新手，也是PIG的新手，正在尝试自己进行实验。我有一个处理words.t文件和data.txt文件的场景。文字.txtword1word2word3word4数据.txt{"created_at":"18:47:31,SunSep302012","text":"RT@Joey7Barton:..giveaword1aboutwhethertheamericanswinsaRydercup.Imeansurelyhehasslightlymoreimportantmatters.#fami...","user_id":45

RELATION 34 word code hadoop apache-pig epoch

hadoop - unix_timestamp 问题

我必须将一个字段填充为9999-12-31，因为我正在使用以下语句。但是当我检查结果时，它给出了9998-12-2700:00:00选择from_unixtime(unix_timestamp('9999-12-31','YYYY-MM-DD'))结果:9998-12-2700:00:00 最佳答案你应该像这样使用它:Selectfrom_unixtime(unix_timestamp('9999-12-31','yyyy-MM-dd')); 关于hadoop-unix_timesta

unix_timestamp timestamp section hadoop hive

linux - bash:bin/hadoop:没有这样的文件或目录(ubuntu 16.04 上的 hadoop 2.7.3)

我尝试在ubuntu16.04桌面上安装hadoop2.7.3。我安装了java并检查了它的版本:hadoop@ubuntu:~$java-versionopenjdkversion"1.8.0_91"OpenJDKRuntimeEnvironment(build1.8.0_91-8u91-b14-3ubuntu1~16.04.1-b14)OpenJDKServerVM(build25.91-b14,mixedmode)我在bashrc中将JAVA_HOME设置为:#HADOOPVARIABLESSTARTexportJAVA_HOME=/usr/lib/jvm/java-1.8.0-

hadoop ubuntu code pre linux bash java-home

amazon-web-services - 中等 Hadoop/Spark 集群管理

如果这个问题更适合不同的channel，请告诉我，但我想知道推荐的工具是什么，可以在大量远程服务器上安装、配置和部署hadoop/spark。我已经熟悉如何设置所有软件，但我正在尝试确定我应该开始使用什么，这将使我能够轻松地跨大量服务器进行部署。我已经开始研究配置管理工具(即chef、puppet、ansible)，但想知道最好的和最用户友好的选项是什么。我也不想使用spark-ec2。我应该创建自己开发的脚本来遍历包含IP的主机文件吗？我应该使用pssh吗？PSCP？等。我希望能够根据需要与尽可能多的服务器进行ssh连接并安装所有软件。最佳答案

amazon-web-services services section stackoverflow 的 hadoop apache-spark amazon-ec2

hadoop - 如何使用 Spark 编写 avro 文件？

我有一个Array[Byte]代表一个avro模式。我正在尝试将它作为带有spark的avro文件写入Hdfs。这是代码:valvalues=messages.map(row=>(null,AvroUtils.decode(row._2,topic))).saveAsHadoopFile(outputPath,classOf[org.apache.hadoop.io.NullWritable],classOf[CrashPacket],classOf[AvroOutputFormat[SpecificRecordBase]])row._2是Array[Byte]我收到此错误:org.a

编写 hadoop apache org java apache-spark avro spark-avro

hadoop - 在hadoop中，我只想在每个节点上执行自己自定义的程序

是的，我想在每个hadoop节点上运行我的自定义程序。我想部署Nomapper和reducer。它就像分布式计算系统，不像mapreduce那样工作(但在内部使用hdfs)。我该怎么办？最佳答案 MapReduce和Tez作业都使用YARN(YetAnotherResourceNegotiator)在所谓的容器中在集群上分布和执行。您也可以自己使用YARN来运行您自己的作业。请看HadoopArchitectureOverview以获得高级概述。关于hadoop-在hadoop中，我

自定 hadoop section mapreduce distributed-computing

hadoop - hadoop 本身是否包含容错故障转移功能？

我刚刚安装了新版本的hadoop2，我想知道如果我配置了一个hadoop集群并启动了，我怎么知道是否数据传输失败，是否需要进行故障转移？我是否必须安装其他组件(如zookeeper)来跟踪/启用任何HA事件？谢谢! 最佳答案默认情况下不启用高可用性。我强烈建议您阅读Apache的Hadoop文档。(http://hadoop.apache.org/)它将概述在Hadoop集群上运行的架构和服务。许多Hadoop服务都需要Zookeeper来协调它们在整个Hadoop集群中的操作，无论集群是否为HA。可以在ApacheZookeep

hadoop 本身 section high-availability failover fault

hadoop - 带 RAID 的 HDP 集群？

您在HDP集群上使用RAID1的体验如何？我有两个选择:为主节点和zoo节点设置RAID1，完全不要在从属节点(如kafka代理、hbase区域服务器和yarn节点管理器)上使用RAID。即使我失去一个从节点，我也会有另外两个副本。在我看来，RAID只会减慢我的集群。无论如何，使用RAID1设置所有内容。你怎么看？您对HDP和RAID有何体验？您如何看待从节点使用RAID0？最佳答案我建议在Hadoop主机上完全不要使用RAID。有一点需要注意，如果您正在运行Oozie和HiveMetastore等在后台使用关系数据库的服务，则

hadoop RAID section 节点 hortonworks-data-platform bigdata

hadoop - pig 错误 : while reading the Attribute from a Relation

嗨，我正在使用下面的代码来执行订单操作，但它抛出了InvalidfieldprojectionwhereAsTheRelationHasthecolumn的错误。grunt>byts=ORDERBBYJB_DLT::job_idDESC;错误2016-09-2007:32:56,815[main]ERRORorg.apache.pig.tools.grunt.Grunt-ERROR1025:Invalidfieldprojection.Projectedfield[JB_DLT::job_id]doesnotexistinschema:group:tuple(JB_ASGNMNT::J

Attribute Relation JOB_ASNMNT_STS_DLT job_id DLT hadoop apache-pig hadoop2

46 47 484950 51 52