草庐IT

LOCAL_VARIABLE

全部标签

java - Hadoop : set a variable like hashSet only once so that it can be utilized multiple times in each map task

您好,我有一个HashSet,它需要在hadoop中的每个映射任务中使用。我不想多次初始化它。我听说可以通过在配置函数中设置变量来实现。欢迎提出任何建议。 最佳答案 看来你还没有真正了解Hadoop的执行策略。如果你是分布式模式,你不能在多个map任务中共享一个集合(HashSet)。这是因为任务是在它们自己的JVM中执行的,并且它不是确定性的,即使不使用jvm重用,你的集合在jvm被重置后仍然存在。您可以做的是在计算开始时为每个任务设置一个HashSet。因此您可以覆盖setup(Contextctx)方法。这将在调用映射方法之前

Java 泛型和 Hadoop : how to get a class variable

我是一名.NET程序员,在Java中从事一些Hadoop工作,我有点不知所措。在Hadoop中,我正在尝试设置一个Map-Reduce作业,其中Map作业的输出键的类型为Tuple.当我使用setOutputKeyclass如下设置输出键时JobConfconf2=newJobConf(OutputCounter.class);conf2.setOutputKeyClass(Tuple.class);我遇到了一大堆错误,因为泛型和“.class”符号似乎不适用。尽管以下工作正常JobConfconf2=newJobConf(OutputCounter.class);conf2.setO

java.sql.SQLException : Unknown system variable 'OPTION' 异常

我正在使用Ambari服务器安装MYSQL,以便在ubuntu上安装hadoop。我从Xampp安装了MySql,并且工作正常。MySQL5.6版本去掉了set`Option关键字,mariaDB(xampp自带)与之一致。网站显示兼容MySQL5.6版本,应该没问题。回应theonlyrelevantlinkIfound,当我检查我的sql版本时:mysql-vTheprogram'mysql'canbefoundinthefollowingpackages:*mysql-client-core-5.6*mariadb-client-core-10.0这就是我得到的。我相信链接中提到

Hadoop on CentOS streaming example with python - permission denied on/mapred/local/taskTracker

我已经能够使用python映射器和缩减器设置流式示例。mapred文件夹位置是/mapred/local/taskTrackerroot和mapred用户都拥有此文件夹和子文件夹的所有权然而,当我运行我的流式传输时,它会创建map但不会减少并给出以下错误无法运行程序/mapred/local/taskTracker/root/jobcache/job_201303071607_0035/attempt_201303071607_0035_m_000001_3/work/./mapper1.py权限被拒绝我注意到,虽然它为mapred/local/taskTracker及其所有子目录提供

hadoop - 如何覆盖 mapred-site.xml 中的 mapred.local.dir?

我没有对mapred-site.xml中mapred.local.dir指定的目录的写入权限(也没有对mapred-site.xml的写入权限)有没有一种方法可以在每个session基础上覆盖此属性用于我的Hive作业? 最佳答案 您可以尝试通过执行以下查询在Hivesession中设置它:setmapred.local.dir='somedir';这应该有效。另一种选择是更改Hive引用的mapred-site.xml。确保配置未标记为最终配置。在这种情况下,它不能被覆盖。 关于had

hadoop - 与 HDFS 通信 : Exception in thread "main" java. io.IOException : Failed on local exception: java. io.EOFException

publicstaticvoidmain(String[]args)throwsIOException{Configurationconf=newConfiguration();conf.addResource(newPath("/home/myname/hadoop-1.2.1/conf/core-site.xml"));conf.addResource(newPath("/home/myname/hadoop-1.2.1/conf/hdfs-site.xml"));System.out.println("AttemptinginitializationofFileSystem");

python - 从 s3 ://to local(hadoop) file system 复制文件时出错

我正在尝试使用python将文件从s3复制到hadoop文件系统。我收到以下错误:cp:`foo/ds=2015-02-13/ip-d1b-request-2015-02-13_10-00_10-09.txt.gz':Nosuchfileordirectory我最近正在迁移最新的hadoop版本(2.4.0)。在版本(0.20)中工作正常。为什么我在2.4.0版本中会出现此错误?在Hadoop版本0.20中hadoop@ip-10-76-38-167:~$/home/hadoop/bin/hadoopfs-cps3://test.com/foo/ds=2015-02-13/ip-d1b

hadoop - Hive INSERT OVERWRITE LOCAL DIRECTORY 不起作用

我正在使用Cloudera5.3.3Hive。我正在尝试执行以下查询,shell>pwd/homeshell>mkdirtest;chmod777test;shell>ls-aldrwxrwxrwx3jaijai4096Oct506:45testhivequery>INSERTOVERWRITELOCALDIRECTORY'/home/test/test1'SELECT*FROMsome_table;当我从hive客户端执行时,它工作正常,并在/home/test文件夹中创建输出文件,但如果我从执行相同的操作,它不会创建文件直线。从运行Hive服务器2的计算机通过beeline连接到H

hadoop - 使用 HDFS 而不是 spark.local.dir

试图理解为什么Spark需要本地机器上的空间!有办法解决吗?我一直遇到“设备上没有剩余空间”。我知道我可以将“spark.local.dir”设置为以逗号分隔的列表,但有没有办法改用HDFS?我正在尝试合并两个巨大的数据集。在较小的数据集上,Spark是MapReduce的对手,但在我用这些巨大的数据集证明之前,我不能宣布胜利。我没有使用yarn。此外,我们的网关节点(又名边缘节点)不会有很多可用空间。有解决办法吗? 最佳答案 当groupByKey操作时,Spark只是写入tmpDir序列化分区。它是普通文件(请参阅Shuffle

java - Cassandra 错误 :Invalid method name "describe local ring"

我正在使用java在hadoop中开发一个项目。当我在本地集群上运行我的代码(jar)时它工作正常但是当我在亚马逊多集群上运行它时它会给出异常...我的mapreduce作业代码....job.setJarByClass(ReadActivityDriver.class);job.setMapperClass(ReadActivityLogMapper.class);job.setReducerClass(ReadActivityLogReducer.class);job.setMapOutputKeyClass(Text.class);job.setMapOutputValueCla