master-data-management

java - Hadoop : Tools for visualizing key value data and files for development

是否有任何简单、易于启动的java工具来可视化来自mapreduce作业目录的键/值数据？具体来说，我想浏览一个20个作业的mapreduceworkflow，点击单个文件并查看数据，甚至可能看到文件大小的直方图。这里有一些注意事项，例如-一些文件有序列化数据(不仅仅是文本)显然，这个系统在“云规模”上使用可能会很愚蠢，而不是一个开发工具。尽管如此，这样的工具对于开发和本地调试大型连接的m/r管道很有用。这是出于开发目的(我不是试图在真实集群中可视化分布式键/值hadoop数据)。最佳答案检查KarmaSphereStudioM

http - 通过 StreamSets Data Collector 流式传输时在文件名中附加 UUID

我正在使用HttpClientorigin将文件从HTTPurl流式传输到Hadoop目标，但目标中的文件名附加了一些随机uuid。我希望文件名与源中的一样。示例:源文件名为README.txt，目标文件名为README_112e5d4b-4d85-4764-ab81-1d7b6e0237b2.txt我希望目标文件名为README.txt我会向您展示我的配置。HTTPClient:GeneralName:HTTPClient1Description:OnRecordError:SendtoErrorHTTPResourceURL:http://files.data.gouv.fr/si

流式 StreamSets section datacollector HTTP hadoop client

hadoop - Hbase master 无法启动

我正在尝试启动hbasemaster但出现以下错误:CouldnotstartZKatrequestedportof2181.ZKwasstartedatport:2182.Abortingasclients(e.g.shell)willnotbeabletofindthisZKquorum.13/07/1406:33:23ERRORmaster.HMasterCommandLine:Failedtostartmasterjava.io.IOException:CouldnotstartZKatrequestedportof2181.ZKwasstartedatport:2182.Ab

hadoop master hbase section HMasterCommandLine

hadoop - 错误 : Failed to create Data Storage while running embedded pig in java

我写了一个简单的程序来测试java中的嵌入式pig在mapreduce模式下运行。我运行的服务器hadoop版本是0.20.2-cdh3u4a，pig版本是0.10.0-cdh3u4a。当我尝试在本地模式下运行时，它运行成功。但是当我尝试以mapreduce模式运行时，它给了我错误。我使用以下命令运行我的程序，如http://pig.apache.org/docs/r0.9.1/cont.html#embed-java中所示javac-cppig.jarEmbedPigTest.javajavac-cppig.jar:.:/etc/hadoop/confEmbedPigTest.jav

embedded Storage java pig apache hadoop apache-pig

hadoop - 无法在 master 上启动节点管理器

我正在设置一个HadoopYARN集群，我正在使用一台机器作为主机和从机。当我使用以下命令启动YARN时，它会在从节点上启动节点管理器，但不会在主节点上启动。sbin/yarn-daemons.shstartnodemanager我有一个主控也是从属，然后我在集群中有另外两个从属，从属中的节点管理器正常启动。我得到的错误:org.apache.hadoop.yarn.exceptions.YarnRuntimeException:java.net.BindException:Problembindingto[0.0.0.0:8040]java.net.BindException:Add

hadoop master yarn section centos hadoop-yarn

hadoop - 亚马逊电子病历 : Initializing a cluster with data

我正在使用AmazonEMR，并且能够使用CLI工具创建和运行工作流。作业运行良好。但是，当我尝试将数据从S3和名称节点的本地文件系统加载到我的EMR集群的HDFS时遇到了问题。我想从S3填充HDFS。我正在尝试使用S3DistCp工具执行此操作。我正在运行这个命令:elastic-mapreduce--jobflow$JOBFLOWID--jars3://us-east-1.elasticmapreduce/libs/s3distcp/1.0.1/s3distcp.jar--arg--src--arg's3n://my-bucket/src'--arg--dest--arg'hdfs

病历 Initializing hadoop apache java amazon-s3 hdfs emr

azure - Azure Data Lakes (Hadoop) 中的优先级和并行值意味着什么？

换句话说，并行度值为5和优先级值为1000是什么意思？最佳答案它们会影响您的作业运行的方式和时间。优先级确定作业相对于其他排队作业的运行顺序，并行性设置为其启动的并行进程数(更多意味着它运行得更快但成本更高)https://learn.microsoft.com/en-us/azure/data-lake-analytics/data-lake-analytics-manage-use-portal优先级Lowernumberhashigherpriority.Iftwojobsarebothqueued,theonewithl

意味着 Hadoop section strong blockquote azure azure-data-lake u-sql

hadoop - slots、map tasks、data splits、Mapper的区别和关系

我浏览了一些hadoop信息书籍和论文。Slot是节点上的map/reduce计算单元。它可能是map或减少插槽。据我所知，split是HDFS中的一组文件block，它们具有一定的长度和存储它们的节点位置。映射器是类，但是当代码被实例化时，它被称为映射任务。我对吗？maptasks、datasplits和Mapper之间的区别和关系我不清楚。关于调度我的理解是，当节点的映射槽空闲时，如果映射任务要处理的数据是节点，则从未运行的映射任务中选择并启动映射任务。谁能用上面的概念解释清楚:slots,mapper和maptask等。谢谢，阿伦最佳答案

hadoop Mapper section blockquote 射器 mapreduce

hadoop - "dfs.replication"和 "dfs.datanode.data.dir"配置如何在集群中工作？

我已按照Apache“单节点设置”说明在单节点上设置dfs.replication。但是后来我按照“ClusterSetup”进行操作，但它没有提到这个属性，所以我不知道这是要在Namenode上设置的属性，还是也/仅在Datanodes上设置的属性..我还读到在数据节点上的dfs.datanode.data.dir中设置多个(逗号分隔)路径将复制所有路径上的数据。所以我的问题是:dfs.replication将对哪个节点产生影响，如果dfs.datanode.data.dir的多个路径是设置，这些额外的独立复制是否仅针对每个数据节点，或者这些是否也以某种方式与dfs.replicat

中工 amp strong code replication hadoop hdfs

hadoop - 定位 Cloudera Manager HDFS 配置文件

我已经通过ClouderaManager安装了一个集群，现在我需要手动启动集群。我一直在使用以下命令:$sudo-uhdfshadoopnamenode/datanode/jobtracker但是dfs.name.dir被设置为/tmp。我似乎找不到cloudera管理器在哪里有HDFS配置文件。/usr/lib/hadoop-02*/conf中的那些似乎是最小的。他们缺少dfs.name.dir，这是我特别要找的。顺便说一下，我在RHLE6系统上。由于懒惰，我虽然可以只复制cloudera管理器的HDFS配置文件，所以我不必手动创建它们，将它们复制到6个节点:)谢谢

Cloudera Manager section code hadoop cloudera-manager