草庐IT

virtual-address-space

全部标签

xml - 为什么 YARN 上会有 mapreduce.jobtracker.address 配置?

YARN是Hadoop的二代,不再使用jobtracker守护进程,取而代之的是资源管理器。但是为什么在mapred-site.xmlhadoop2上有一个mapreduce.jobtracker.address属性? 最佳答案 你是对的。在YARN中,jobtracker不再存在。因此,作为客户端配置的一部分,您不必指定属性mapreduce.jobtracker.address。在YARN中,您应该在配置文件中将属性mapreduce.framework.name指定给yarn。您无需设置mapreduce.jotracker.

java - Hadoop 错误 : Java heap space when using big dataset

我正在尝试在大型文本数据集(~3.1Tb)上运行Hadoop程序。我一直收到这个错误,而且我看不到任何日志:15/04/2913:31:30INFOmapreduce.Job:map86%reduce3%15/04/2913:33:33INFOmapreduce.Job:map87%reduce3%15/04/2913:35:34INFOmapreduce.Job:map88%reduce3%15/04/2913:37:34INFOmapreduce.Job:map89%reduce3%15/04/2913:39:33INFOmapreduce.Job:map90%reduce3%15

file - 为什么在hadoop mapper生成的文件中生成tab space

我写了一个这样的映射器:@Overrideprotectedvoidmap(VarLongWritableuserId,RecommendedItemsWritablerecommendations,Contextctx)throwsIOException,InterruptedException{Listitems=recommendations.getRecommendedItems();for(RecommendedItemitem:items){longuserID=Long.valueOf(userId.toString().trim());System.out.printl

java - 当我试图将整个文件夹作为 Mapreduce 程序的输入时,我正面临 "Java heap space error"

当我尝试通过将整个文件夹作为MR作业的输入来运行mapreduce程序时,我遇到了“Java堆空间错误”。当我将单个文件作为MR作业的输入时,我没有遇到任何错误。作业已成功运行。ChangesItriedinhadoop-env.shfile:=====================================Ihadincreasedthememorysizefrom1024to2048MBexportHADOOP_CLIENT_OPTS="-Xmx2048m$HADOOP_CLIENT_OPTS"Changesinmapred-site.xml:===============

java - 关于 EMR 错误 : Java heap space 的 Mahout

我在EMR上运行了集群作业。数据集很大。一切正常,直到:2012-09-2910:50:58,063INFOorg.apache.hadoop.mapred.JobClient(main):map100%reduce23%2012-09-2910:51:31,157INFOorg.apache.hadoop.mapred.JobClient(main):map100%reduce24%2012-09-2910:51:50,197INFOorg.apache.hadoop.mapred.JobClient(main):map100%reduce25%2012-09-2910:52:17,

android - 将 Apache Pig 导入 Android 项目导致 "Unable to execute dex: Java heap space"错误

我试图在我的Android应用程序中序列化一个TreeMap,这样我就可以将它保存到一个SharedPreferences,如thisStackOverflowQ&A中所建议的那样.它用于ArrayList,但我还是捕获了机会。重点是使用ApachePig项目中的ObjectSerializer类将TreeMap序列化为String并将其保存在共享首选项中的该数据类型中。然而,当我在不使用Hadoop的情况下导入.jar后,我就开始遇到很多错误。当我在模拟器中运行我的应用程序时(我使用的是Eclipse),我的IDE底部的状态栏永远不会超过消息“正在启动[应用程序名称]100%...”

windows - 运行 MapReduce 作业时出错 : not a valid Inet address

我想尝试在Windows上使用Hadoop。我已将WindowsAzureHDInsightPreview作为单个节点安装在我的Windows7笔记本电脑上。仪表板和节点已启动并正在运行,并且HDFS正在运行。但是,当我运行MapReduce作业时,它失败并显示错误消息“不是有效的Inet地址”:c:\Hadoop\GettingStarted>powershell-ExecutionPolicyunrestricted/FrunSamples.ps1w3csmalljavatotalhitsMovedtotrash:hdfs://localhost:8020/w3c/out12/12

sql - Hive: java.lang.OutOfMemoryError: Java heap space and Job running in-process (local Hadoop)

我的设置:运行NixOSLinux的GoogleCloudPlatform中的4节点集群(1个主节点,3个工作节点)。我一直在使用TPC-DS工具包来生成数据和查询都是标准的。在较小的数据集/更简单的查询上,它们工作得很好。我从这里获取的查询:https://github.com/hortonworks/hive-testbench/tree/hdp3/sample-queries-tpcds这是第一个,query1.sql:WITHcustomer_total_returnAS(SELECTsr_customer_skASctr_customer_sk,sr_store_skASct

hadoop - 弹性 MapReduce 上的 Mahout : Java Heap Space

我在AmazonElasticMapReduce集群上从命令行运行Mahout0.6,试图canopy-cluster~1500个短文档,但作业一直失败并显示“错误:Java堆空间”消息。根据之前在这里和其他地方的问题,我调高了我能找到的每个内存旋钮:conf/hadoop-env.sh:在小实例上将所有堆空间设置为1.5GB,在大实例上甚至设置为4GB。conf/mapred-site.xml:添加mapred.{map,reduce}.child.java.opts属性,并将它们的值设置为-Xmx4000m$MAHOUT_HOME/bin/mahout:增加JAVA_HEAP_MA

hadoop - YARN vcore中的virtual core是什么意思?

Yarn使用虚拟核心的概念来管理CPU资源。我会问使用虚拟核心有什么好处,YARN使用虚拟核心有什么原因吗? 最佳答案 这是文档中的内容(强调我的)Anode'scapacityshouldbeconfiguredwithvirtualcoresequaltoitsnumberofphysicalcores.Acontainershouldberequestedwiththenumberofcoresitcansaturate,i.e.theaveragenumberofthreadsitexpectstohaverunnablea