草庐IT

java - 运行驻留在服务器上的 Java 程序

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。这个问题似乎不是关于aspecificprogrammingproblem,asoftwarealgorithm,orsoftwaretoolsprimarilyusedbyprogrammers的.如果您认为这个问题是关于anotherStackExchangesite的主题,您可以发表评论,说明问题可能在哪里得到解答。关闭9年前。Improvethisquestion我使用的是Ubuntu12.04。我已经使用FileZilla将一个小的java程序(Hadoop字数统计)上传到linux服务器,

hadoop - 名称节点驻留在 RAM 或硬盘中的什么位置?

名称节点驻留在RAM或硬盘中的什么位置-Hadoop1.2.1?Namenodedaemon放置在RAM或Secondarymemory中。任何人都可以帮助了解这一点吗? 最佳答案 Namenode是运行在hadoop集群中的java进程之一。它负责管理与文件系统关联的元数据。所以这也被称为hadoop文件系统的主节点或核心节点,称为Hadoop分布式文件系统(HDFS)。Namenode将元数据存储在内存和磁盘中。对于频繁访问,RAM会更快,但是当机器出现故障或断电时,RAM中的数据将被清除。所以它也在磁盘中保留了一份元数据的副本

hadoop - Spark on Hive 进度条停留在 10%

最近我们已经升级到Spark1.6并尝试使用SparkQL作为Hive的默认查询引擎。在与HiveServer2相同的机器上添加SparkGateway角色,并启用SparkOnYarn服务。但是,当我运行如下查询时:SEThive.execution.engine=spark;INSERTOVERWRITEDIRECTORY'/user/someuser/spark_test_job'SELECTcountry,COUNT(*)FROMcountry_dateGROUPBYcountry;我们看到作业已被Yarn接受,分配了资源,状态显示它正在运行,但是,它显示了10%的恒定进度,并

java - Hadoop map 停留在字数统计教程上 - 无法从 SCDynamicStore 加载领域信息

我正在尝试在单节点设置上运行字数统计教程http://hadoop.apache.org/docs/stable/mapred_tutorial.html这是我的终端输出:>hadoopjarwordcount.jarorg.myorg.WordCountinputoutput13/08/1316:26:59WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicable13/08/1316:26:59WARNmapred

hadoop - 减少步骤似乎停留在 99%

我正在尝试运行一个连接到其他5个表的配置单元查询。其中一个表非常大(150亿条记录的领域),但由于其中一个连接子句,我实际上只从该表中寻找800万条记录。我一直看到这在cloudera的日志控制台中重复...INFO:2015-09-1009:51:43,209Stage-1map=100%,reduce=99%,CumulativeCPU437512.26sec我读过有关表格倾斜的信息,然后一个reducer成为瓶颈,但如果是这种情况,我不知道如何检查表格的倾斜度。这可能是问题所在吗?编辑:这里是查询中的解释计划,表c是大表....STAGEDEPENDENCIES:Stage-8i

hadoop - 在驻留在不同数据中心的多个 Hadoop 集群之间复制数据

我想知道将数据中心DC1的Hadoop集群H1中存在的数据复制到数据中心DC2的另一个Hadoop集群H2的最佳方法是什么(最好是热备份)。我知道Hadoop进行数据复制,创建的数据副本数由hdfs-site.xml中设置的复制因子决定。我有几个与此相关的问题将一个集群的数据节点分布在两个数据中心是否有意义,以便H1的数据节点同时出现在DC1和DC2中。如果这有意义且可行,那么是否意味着我们不需要H2?将名称节点和数据节点分布在两个数据中心而不是仅将数据节点分布在两个数据中心是否有意义?我还听说有人使用distcp,许多工具都建立在distcp之上。但是distcp会进行惰性备份,并且

shell - 如何通过 ssh 进入 shell 并运行脚本并将自己留在提示符下

我正在使用亚马逊的弹性map缩减。我正在进入hadoop主节点并执行类似的脚本。$EMR_BIN/elastic-mapreduce--jobflow$JOBFLOW--ssh.它让我进入主节点并运行配置单元脚本。hivescript包含以下几行hiveaddjarjoda-time-1.6.jar;addjarEmrHiveUtils-1.2.jar;和一些创建配置单元表的命令。该脚本运行良好并创建了配置单元表和其他所有内容,但返回到我运行脚本的提示。我如何在配置单元提示符下将它sshed到hadoop主节点。 最佳答案 考虑使用

hadoop - 为什么 reduce 停留在 16%?

我有一个mapreduce作业,我试图在一个相对较小的数据集上运行。我一直遇到reduce作业一直卡在16%的问题。我的任务跟踪器日志如下:2012-03-2117:09:23,829INFOorg.apache.hadoop.mapred.TaskTracker:attempt_201203211704_0001_r_000000_00.16666667%reduce>copy(1of2at0.16MB/s)2012-03-2117:09:26,865INFOorg.apache.hadoop.mapred.TaskTracker:attempt_201203211704_0001_

java - 将文件复制到HDFS时,如何控制该文件驻留在哪些节点上?

我正在处理一种奇怪的用例,我需要确保文件A是机器A的本地文件,文件B是机器B的本地文件,等等。将文件复制到HDFS时,有没有办法控制该文件将驻留在哪些机器上?我知道任何给定的文件都将在三台机器上复制,但我需要能够说“文件A肯定存在于机器A上”。我不太关心其他两台机器——它们可以是我集群上的任何机器。谢谢。 最佳答案 我不这么认为,因为通常当文件大于64MB(block大小)时,文件block的主要副本将驻留在多个服务器上。 关于java-将文件复制到HDFS时,如何控制该文件驻留在哪些节

hadoop - Oozie map-reduce 作业永远停留在 PREP 状态

我正在尝试运行wordcountmap-reduce示例,引用https://support.pivotal.io/hc/en-us/articles/203355837-How-to-run-a-Map-Reduce-jar-using-Oozie-workflow.我在集群设置中使用hadoop2.2.0问题是我的ooziemap-reduce作业一直在运行。它没有给出任何错误,但没有成功完成。没有错误消息。也没有创建输出目录(这是假设发生的)。下面是workflow.xml${jobTracker}${nameNode}mapred.mapper.new-apitruemapre