草庐IT

space_available_mb

全部标签

hadoop - Apache Hadoop 中的 "generally available"、 "production ready"、 "stable"和 "latest/current"之间有什么区别?

在描述软件产品版本的状态时,“普遍可用”、“生产就绪”、“稳定”和“最新/当前”之间有什么区别?我在ApacheHadoop网站上遇到了这些术语,在尝试选择正确的版本/发布/分发(这三个词也让我感到困惑)进行下载时:https://hadoop.apache.org/docs/r3.2.0/ApacheHadoop3.2.0incorporatesanumberofsignificantenhancementsoverthepreviousstableminorreleaseline(hadoop-3.1).Thisisthefirstreleasein3.2releaselinewh

hadoop - 如何更改每个作业的 io.sort.mb?

我想知道是否可以更改每个作业的io.sort.mb值?我知道您可以在mapred-site.xml中为参数设置一个值,但我想以编程方式在不同的作业中使用不同的值。我尝试了conf.setInt("io.sort.mb",someValue)但它似乎不起作用。JVM设置有足够的内存(如2.25GB)并且没有其他作业在运行。 最佳答案 可以,提交前在Configuration(早期版本为JobConf)中设置即可。它确实有效;我在Mahout中使用它。确保在设置值之后和提交之前将conf设置到您的Job上。确保您也设置了正确的conf!

android - 将 Apache Pig 导入 Android 项目导致 "Unable to execute dex: Java heap space"错误

我试图在我的Android应用程序中序列化一个TreeMap,这样我就可以将它保存到一个SharedPreferences,如thisStackOverflowQ&A中所建议的那样.它用于ArrayList,但我还是捕获了机会。重点是使用ApachePig项目中的ObjectSerializer类将TreeMap序列化为String并将其保存在共享首选项中的该数据类型中。然而,当我在不使用Hadoop的情况下导入.jar后,我就开始遇到很多错误。当我在模拟器中运行我的应用程序时(我使用的是Eclipse),我的IDE底部的状态栏永远不会超过消息“正在启动[应用程序名称]100%...”

hadoop - 无法将大于 100 MB 的文件加载到 HDFS

我的集群遇到了一个非常奇怪的问题。每当我尝试将任何大于100MB(104857600字节)的文件加载到HDFS时,它都会失败并出现以下错误:Alldatanodesarebad...Aborting.这真的很奇怪,因为100MB已成为文件大小的阈值。即使我尝试将文件大小增加1个字节(104857601字节),并尝试将其加载到HDFS中,它也会失败并显示一个长堆栈跟踪。主要是说“所有数据节点都坏了......正在中止”有没有人之前遇到过类似的情况?是否有可能是错误的配置更改导致了这种行为?如果是,是否有任何限制我可以更改的可摄取数据大小的配置?谢谢 最佳答案

hadoop - 用户组信息 : No groups available for user

我正尝试在mapreduce中提交远程作业,但出现错误[1]。我什至在远程hadoop的hdfs-site.xml中设置了内容[2],并更改了权限[3],但问题仍然存在。客户端是xeon,super用户是xubuntu。如何在mapreduce中添加远程用户提交权限?如何为xeon设置组?[1]2015-04-2305:57:35,648WARNorg.apache.hadoop.security.UserGroupInformation:Nogroupsavailableforuserxeon[2]dfs.web.ugixeon,webuser,webgroup[3]2041hdfs

sql - Hive: java.lang.OutOfMemoryError: Java heap space and Job running in-process (local Hadoop)

我的设置:运行NixOSLinux的GoogleCloudPlatform中的4节点集群(1个主节点,3个工作节点)。我一直在使用TPC-DS工具包来生成数据和查询都是标准的。在较小的数据集/更简单的查询上,它们工作得很好。我从这里获取的查询:https://github.com/hortonworks/hive-testbench/tree/hdp3/sample-queries-tpcds这是第一个,query1.sql:WITHcustomer_total_returnAS(SELECTsr_customer_skASctr_customer_sk,sr_store_skASct

hadoop - 如何通过命令行在 hdfs 中查找大小大于 100MB 的所有文件?

如何通过命令行在hdfs中找到所有大小大于100MB的文件? 最佳答案 你可以试试这个:hadoopfsfind/-typef-size100-print\ 关于hadoop-如何通过命令行在hdfs中查找大小大于100MB的所有文件?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/34129962/

hadoop - 弹性 MapReduce 上的 Mahout : Java Heap Space

我在AmazonElasticMapReduce集群上从命令行运行Mahout0.6,试图canopy-cluster~1500个短文档,但作业一直失败并显示“错误:Java堆空间”消息。根据之前在这里和其他地方的问题,我调高了我能找到的每个内存旋钮:conf/hadoop-env.sh:在小实例上将所有堆空间设置为1.5GB,在大实例上甚至设置为4GB。conf/mapred-site.xml:添加mapred.{map,reduce}.child.java.opts属性,并将它们的值设置为-Xmx4000m$MAHOUT_HOME/bin/mahout:增加JAVA_HEAP_MA

hadoop - 大量小文件和 128 Mb block 大小的 HDFS 行为

我有很多(多达数十万个)小文件,每个10-100Kb。我的HDFSblock大小等于128MB。我的复制因子等于1。为每个小文件分配HDFSblock有什么缺点吗?我见过非常矛盾的答案:AnswerwhichsaidthesmallestfiletakesthewholeblockAnswerwhichsaidthatHDFSiscleverenough,andsmallfilewilltakesmall_file_size+300bytesofmetadata我在thisanswer中做了一个测试,它证明第二个选项是正确的——HDFS不会为小文件分配整个block。但是,从HDFS批

java - Hadoop-LZO strange native-lzo library not available 错误

我已经安装了ClouderaHadoop-LZO软件包并将以下设置添加到我的客户端环境安全阀中:HADOOP_CLASSPATH=$HADOOP_CLASSPATH:/opt/cloudera/parcels/HADOOP_LZO/lib/hadoop/lib/*JAVA_LIBRARY_PATH=$JAVA_LIBRARY_PATH:/opt/cloudera/parcels/HADOOP_LZO/lib/hadoop/lib/native但是,我得到了最奇怪的native-lzolibrarynotavailable错误:13/08/0523:59:06INFOlzo.GPLNat