master-data-management

java - dfs.data.dir : Failed to set permissions of path:\tmp\hadoop-user\dfs\data to 0755 中的无效目录

我是hadoop框架的新手，目前我正在处理大数据项目，在Windows7中使用cygwin、hadoop-0.19.1、eclipse-3.3.1(Europa)。现在我正在尝试从hadoop-0.19进行更改.1到hadoop-1.2.1version.i如下配置hadoop-1.2.1核心站点.xml:fs.default.namehdfs://localhost:9100hdfs.xmldfs.replication1mapred-site.xmlmapred.job.trackerlocalhost:9101但是我在启动数据节点时出错，如下所示$bin/hadoopdatano

data hadoop-user hadoop gt lt java eclipse cygwin

hadoop - 运行 MR 作业时出现 "Unable to verify integrity of data"

我正在使用AmazonElasticMapReduce运行一个相对较大的MR作业。我在小数据集上运行了很多次作业，没有问题。但是当尝试在大型数据集上运行它时，出现以下异常:Error:com.amazonaws.AmazonClientException:Unabletoverifyintegrityofdatadownload.Clientcalculatedcontentlengthdidn'tmatchcontentlengthreceivedfromAmazonS3.Thedatamaybecorrupt.我用谷歌搜索了一下，得到的唯一建议是设置以下内容:System.setP

时出 amp section blockquote hadoop amazon-web-services amazon-s3 mapreduce elastic-map-reduce

xml - Spark master 不调用 Custom InputFormat

我正在尝试探索ApacheSpark，作为其中的一部分，我想自定义InputFormat。就我而言，我想阅读xml文件并转换每次出现的到新记录。我确实写了定制TextInputFormat(XMLRecordInputFormat.java)返回自定义**XMLRecordReaderextendsorg.apache.hadoop.mapreduce.RecordReader**但我不明白为什么Sparkmaster不调用自定义输入格式(XMLRecordInputFormat.class)？由于某种原因，它继续表现得像普通的分线器。代码如下:importjava.util.Iter

InputFormat Custom import apache hadoop xml apache-spark

hadoop - 在 YARN 集群的特定节点上运行我自己的 application master

首先，我使用的是Hadoop-2.6.0。我想在YARN集群中的特定节点上启动我自己的appmaster，以便在预定的IP地址和端口上打开服务器。为此，我编写了一个驱动程序，在其中创建了一个ResourceRequest对象并调用了setResourceName方法来设置主机名，并将其附加到ApplicationSubmissionContext对象通过调用setAMContainerResourceRequest方法。我尝试了几次，但无法在特定节点上启动AppMaster。搜索代码后，我发现RMAppAttemptImpl使我在ResourceRequest中设置的内容无效，如下所示

application hadoop strong ResourceRequest containers hadoop-yarn

hadoop - Pig 命令问题 'Failed to read data from "/pigdata/student"'

在为关系运行dump命令时不返回任何记录，它给出:测试文件:学生vineet1hisham2raj3ajeet4sujit5ramesh6priya7priyanka8suresh9ritesh10计数器:Totalrecordswritten:0Totalbyteswritten:0SpillableMemoryManagerspillcount:0Totalbagsproactivelyspilled:0Totalrecordsproactivelyspilled:0但它包含一个数据，请帮我解决这个错误grunt>a=load'/pigdata/student';2016-08-0

amp pigdata apache hadoop org apache-pig

hadoop - 无法获取 Master Kerberos 主体以用作 Talend 批处理作业的更新程序

我们正在尝试使用talend批处理(spark)作业访问Kerberos集群中的配置单元，但我们收到以下“无法获取主Kerberos主体以用作更新程序”错误。通过在talend中使用标准作业(非spark)，我们可以毫无问题地访问hive。观察结果如下:当我们运行sparkjobs时，talend可以连接到hiveMetastore并验证语法。例如，如果我提供了错误的表格命名它确实返回“找不到表”。当我们从没有数据的表中选择count(*)时，它返回“NULL”，但如果Hdfs(table)中存在某些数据，它会因错误而失败“无法获得主Kerberos主体以用作更新程序”。我不确定导致t

用作 Kerberos section 中包 hadoop apache-spark talend

java - Hadoop : Code shipped from master to slave

我启动了一个hadoop集群并向master提交了一个作业。jar文件仅包含在master中。hadoop是否会在作业开始时将jar运送到所有从机？从机是否有可能使用上次运行期间发布的先前版本的代码运行？谢谢巴拉最佳答案来自mapreduce教程:Theframeworkwillcopythenecessaryfilestotheslavenodebeforeanytasksforthejobareexecutedonthatnode.Itsefficiencystemsfromthefactthatthefilesareonl

shipped Hadoop section strong the java cloud mapreduce

使用 Ubuntu Master 和 Windows slave 的 Hadoop 集群配置

大家好，我是Hadoop新手。Hadoop版本(2.2.0)目标:独立安装Hadoop-Ubuntu12(已完成)独立安装Hadoop-Windows7(cygwin仅用于sshd)(已完成)使用UbuntuMaster和Windows7slave设置集群(这主要是为了学习目的和设置开发环境)(卡住)设置与以下问题的关系:精通在Ubuntu上运行hadoop2.2.0在Windows7上运行的从站使用来自hadoop2.2.0源代码的自编译版本。我仅将cygwin用于sshd无密码登录设置，我可以使用ssh两种方式登录来自hadoop之外。因为我的Ubuntu和Windows机器有不同

Windows Ubuntu hadoop section

hadoop - map 缩小 : Which is the underlying Data Structure used

我想知道如果在HadoopMapReduce中使用如此大的数据集，那么hadoop使用的数据结构是什么。如果可能，请有人向我提供hadoop中底层数据结构的详细View。最佳答案 HDFS是Hadoop默认的底层存储平台。从某种意义上说，它与任何其他文件系统一样——它不关心文件的结构。它仅确保文件将以冗余方式保存并可快速检索。因此，作为用户，您可以完全根据自己的喜好来存储文件。MapReduce程序只是将文件数据作为输入提供给它。不一定是整个文件，而是它的一部分取决于InputFormats等。然后Map程序可以使以任何想要的方式

underlying Structure section hadoop stackoverflow map reduce

hadoop - [hdfs]如何为每个datanode配置不同的dfs.datanode.data.dir？

我使用ambari来设置hadoop集群。但是当我配置hdfs的配置时。我发现如果我修改dfs.datanode.data.dir，configure会在所有datanodes上生效...如何为每个数据节点配置不同的配置？比如机器A有两block磁盘，分别挂载到/data1、/data2但是机器B只有一个盘，挂载到/data1所以我想将机器A的dfs.datanode.data.dir配置为“/data1,/data2”。但只有机器B的“/data1” 最佳答案不存在的HDFS目录将被忽略。都放进去，没关系。

datanode 何为 section data hadoop hdfs configure

405 406 407408409 410 411