master-data-management
全部标签 是否有任何简单、易于启动的java工具来可视化来自mapreduce作业目录的键/值数据?具体来说,我想浏览一个20个作业的mapreduceworkflow,点击单个文件并查看数据,甚至可能看到文件大小的直方图。这里有一些注意事项,例如-一些文件有序列化数据(不仅仅是文本)显然,这个系统在“云规模”上使用可能会很愚蠢,而不是一个开发工具。尽管如此,这样的工具对于开发和本地调试大型连接的m/r管道很有用。这是出于开发目的(我不是试图在真实集群中可视化分布式键/值hadoop数据)。 最佳答案 检查KarmaSphereStudioM
我正在使用HttpClientorigin将文件从HTTPurl流式传输到Hadoop目标,但目标中的文件名附加了一些随机uuid。我希望文件名与源中的一样。示例:源文件名为README.txt,目标文件名为README_112e5d4b-4d85-4764-ab81-1d7b6e0237b2.txt我希望目标文件名为README.txt我会向您展示我的配置。HTTPClient:GeneralName:HTTPClient1Description:OnRecordError:SendtoErrorHTTPResourceURL:http://files.data.gouv.fr/si
我正在尝试启动hbasemaster但出现以下错误:CouldnotstartZKatrequestedportof2181.ZKwasstartedatport:2182.Abortingasclients(e.g.shell)willnotbeabletofindthisZKquorum.13/07/1406:33:23ERRORmaster.HMasterCommandLine:Failedtostartmasterjava.io.IOException:CouldnotstartZKatrequestedportof2181.ZKwasstartedatport:2182.Ab
我写了一个简单的程序来测试java中的嵌入式pig在mapreduce模式下运行。我运行的服务器hadoop版本是0.20.2-cdh3u4a,pig版本是0.10.0-cdh3u4a。当我尝试在本地模式下运行时,它运行成功。但是当我尝试以mapreduce模式运行时,它给了我错误。我使用以下命令运行我的程序,如http://pig.apache.org/docs/r0.9.1/cont.html#embed-java中所示javac-cppig.jarEmbedPigTest.javajavac-cppig.jar:.:/etc/hadoop/confEmbedPigTest.jav
我正在设置一个HadoopYARN集群,我正在使用一台机器作为主机和从机。当我使用以下命令启动YARN时,它会在从节点上启动节点管理器,但不会在主节点上启动。sbin/yarn-daemons.shstartnodemanager我有一个主控也是从属,然后我在集群中有另外两个从属,从属中的节点管理器正常启动。我得到的错误:org.apache.hadoop.yarn.exceptions.YarnRuntimeException:java.net.BindException:Problembindingto[0.0.0.0:8040]java.net.BindException:Add
我正在使用AmazonEMR,并且能够使用CLI工具创建和运行工作流。作业运行良好。但是,当我尝试将数据从S3和名称节点的本地文件系统加载到我的EMR集群的HDFS时遇到了问题。我想从S3填充HDFS。我正在尝试使用S3DistCp工具执行此操作。我正在运行这个命令:elastic-mapreduce--jobflow$JOBFLOWID--jars3://us-east-1.elasticmapreduce/libs/s3distcp/1.0.1/s3distcp.jar--arg--src--arg's3n://my-bucket/src'--arg--dest--arg'hdfs
换句话说,并行度值为5和优先级值为1000是什么意思? 最佳答案 它们会影响您的作业运行的方式和时间。优先级确定作业相对于其他排队作业的运行顺序,并行性设置为其启动的并行进程数(更多意味着它运行得更快但成本更高)https://learn.microsoft.com/en-us/azure/data-lake-analytics/data-lake-analytics-manage-use-portal优先级Lowernumberhashigherpriority.Iftwojobsarebothqueued,theonewithl
我浏览了一些hadoop信息书籍和论文。Slot是节点上的map/reduce计算单元。它可能是map或减少插槽。据我所知,split是HDFS中的一组文件block,它们具有一定的长度和存储它们的节点位置。映射器是类,但是当代码被实例化时,它被称为映射任务。我对吗?maptasks、datasplits和Mapper之间的区别和关系我不清楚。关于调度我的理解是,当节点的映射槽空闲时,如果映射任务要处理的数据是节点,则从未运行的映射任务中选择并启动映射任务。谁能用上面的概念解释清楚:slots,mapper和maptask等。谢谢,阿伦 最佳答案
我已按照Apache“单节点设置”说明在单节点上设置dfs.replication。但是后来我按照“ClusterSetup”进行操作,但它没有提到这个属性,所以我不知道这是要在Namenode上设置的属性,还是也/仅在Datanodes上设置的属性..我还读到在数据节点上的dfs.datanode.data.dir中设置多个(逗号分隔)路径将复制所有路径上的数据。所以我的问题是:dfs.replication将对哪个节点产生影响,如果dfs.datanode.data.dir的多个路径是设置,这些额外的独立复制是否仅针对每个数据节点,或者这些是否也以某种方式与dfs.replicat
我已经通过ClouderaManager安装了一个集群,现在我需要手动启动集群。我一直在使用以下命令:$sudo-uhdfshadoopnamenode/datanode/jobtracker但是dfs.name.dir被设置为/tmp。我似乎找不到cloudera管理器在哪里有HDFS配置文件。/usr/lib/hadoop-02*/conf中的那些似乎是最小的。他们缺少dfs.name.dir,这是我特别要找的。顺便说一下,我在RHLE6系统上。由于懒惰,我虽然可以只复制cloudera管理器的HDFS配置文件,所以我不必手动创建它们,将它们复制到6个节点:)谢谢