Hadoop-Connector

hadoop - 如何使用 Spark 编写 avro 文件？

我有一个Array[Byte]代表一个avro模式。我正在尝试将它作为带有spark的avro文件写入Hdfs。这是代码:valvalues=messages.map(row=>(null,AvroUtils.decode(row._2,topic))).saveAsHadoopFile(outputPath,classOf[org.apache.hadoop.io.NullWritable],classOf[CrashPacket],classOf[AvroOutputFormat[SpecificRecordBase]])row._2是Array[Byte]我收到此错误:org.a

编写 hadoop apache org java apache-spark avro spark-avro

hadoop - 在hadoop中，我只想在每个节点上执行自己自定义的程序

是的，我想在每个hadoop节点上运行我的自定义程序。我想部署Nomapper和reducer。它就像分布式计算系统，不像mapreduce那样工作(但在内部使用hdfs)。我该怎么办？最佳答案 MapReduce和Tez作业都使用YARN(YetAnotherResourceNegotiator)在所谓的容器中在集群上分布和执行。您也可以自己使用YARN来运行您自己的作业。请看HadoopArchitectureOverview以获得高级概述。关于hadoop-在hadoop中，我

自定 hadoop section mapreduce distributed-computing

hadoop - hadoop 本身是否包含容错故障转移功能？

我刚刚安装了新版本的hadoop2，我想知道如果我配置了一个hadoop集群并启动了，我怎么知道是否数据传输失败，是否需要进行故障转移？我是否必须安装其他组件(如zookeeper)来跟踪/启用任何HA事件？谢谢! 最佳答案默认情况下不启用高可用性。我强烈建议您阅读Apache的Hadoop文档。(http://hadoop.apache.org/)它将概述在Hadoop集群上运行的架构和服务。许多Hadoop服务都需要Zookeeper来协调它们在整个Hadoop集群中的操作，无论集群是否为HA。可以在ApacheZookeep

hadoop 本身 section high-availability failover fault

hadoop - 带 RAID 的 HDP 集群？

您在HDP集群上使用RAID1的体验如何？我有两个选择:为主节点和zoo节点设置RAID1，完全不要在从属节点(如kafka代理、hbase区域服务器和yarn节点管理器)上使用RAID。即使我失去一个从节点，我也会有另外两个副本。在我看来，RAID只会减慢我的集群。无论如何，使用RAID1设置所有内容。你怎么看？您对HDP和RAID有何体验？您如何看待从节点使用RAID0？最佳答案我建议在Hadoop主机上完全不要使用RAID。有一点需要注意，如果您正在运行Oozie和HiveMetastore等在后台使用关系数据库的服务，则

hadoop RAID section 节点 hortonworks-data-platform bigdata

hadoop - pig 错误 : while reading the Attribute from a Relation

嗨，我正在使用下面的代码来执行订单操作，但它抛出了InvalidfieldprojectionwhereAsTheRelationHasthecolumn的错误。grunt>byts=ORDERBBYJB_DLT::job_idDESC;错误2016-09-2007:32:56,815[main]ERRORorg.apache.pig.tools.grunt.Grunt-ERROR1025:Invalidfieldprojection.Projectedfield[JB_DLT::job_id]doesnotexistinschema:group:tuple(JB_ASGNMNT::J

Attribute Relation JOB_ASNMNT_STS_DLT job_id DLT hadoop apache-pig hadoop2

hadoop - 边缘或工作节点上的 Flume？

对于数据摄取，我想使用flume并将其放在边缘节点(在集群外的安全DMZ中)或一个工作节点上。是否有放置位置的最佳实践？每种方法的优点/缺点是什么？最佳答案工作节点(即数据节点)上的Flume存在一个问题。使用HDFS，当客户端在数据节点上运行时写入数据时，数据的第一个副本始终写入本地数据节点。所以如果你有很多数据节点，然后你只在其中几个上运行Flume，那么这些数据节点往往会比其他节点使用更多的空间。这实际上取决于您计划使用Flume写入多少数据，这是否会成为一个问题，以及您是否在写入数据后对其进行处理。在边缘节点上安装Flu

hadoop Flume section stackoverflow

java - 从同一个进程访问两个安全的 (Kerberos) Hadoop/HBase 集群

我有一个Java工具，可以将几行数据从一个HBase集群复制到另一个集群(称为ClusterA和ClusterB)。当两个集群都不安全时，这工作正常:ConfigurationconfigA=Utilities.makeHBaseConfig("configA.xml");ConfigurationconfigB=Utilities.makeHBaseConfig("configB.xml");HTabletableA=newHTable(configA,input_table);HTabletableB=newHTable(configB,output_table);tableA.g

Kerberos Hadoop configA section makeHBaseConfig java hbase

hadoop - 使用 distcp 命令复制到 s3 位置

我正在使用以下命令将一些数据从HDFS复制到S3:$hadoopdistcp-m1/user/hive/data/test/test_folder=2015_09_19_03_30s3a://data/Test/buc/2015_09_19_03_302015_09_19_03_30存储桶不存在于S3中。它成功地将/user/hive/data/test/test_folder=2015_09_19_03_30目录的数据复制到S32015_09_19_03_30存储桶中，但是当我再次执行相同的命令时，它会创建另一个存储桶进入S3。我希望这两个文件应该在同一个桶中。

hadoop distcp testing input section amazon-s3 s3distcp

hadoop - 无法通过 Hive 1.2 中的 alter table 恢复分区

我无法在配置单元1.2上运行ALTERTABLEMY_EXTERNAL_TABLERECOVERPARTITIONS;，但是当我运行替代方案时MSCKREPAIRTABLEMY_EXTERNAL_TABLE它只是列出了分区'在HiveMetaStore中并且没有添加它。根据hive-exec的源代码，我可以在org/apache/hadoop/hive/ql/parse/HiveParser.g:1001:1下看到语法中没有用于RECOVER的标记匹配分区。如果有办法在Hive1.2上创建外部表后恢复所有分区，请告诉我。ALTERTABLEMY_EXTERNAL_TABLERECOVE

hadoop alter apache java amazon-s3 hive hiveql hadoop2

hadoop - 如何读取 pig 中的json数据？

我有以下类型的json文件:{"employees":[{"firstName":"John","lastName":"Doe"},{"firstName":"Anna","lastName":"Smith"},{"firstName":"Peter","lastName":"Jones"}]}我正在尝试执行以下pig脚本来加载json数据A=load'pigdemo/employeejson.json'usingJsonLoader('employees:{(firstName:chararray)},{(lastName:chararray)}');出现错误!!Unabletore

hadoop json firstName lastName 34 hive apache-pig hadoop2

46 47 484950 51 52