草庐IT

local_rank

全部标签

hadoop - 如何覆盖 mapred-site.xml 中的 mapred.local.dir?

我没有对mapred-site.xml中mapred.local.dir指定的目录的写入权限(也没有对mapred-site.xml的写入权限)有没有一种方法可以在每个session基础上覆盖此属性用于我的Hive作业? 最佳答案 您可以尝试通过执行以下查询在Hivesession中设置它:setmapred.local.dir='somedir';这应该有效。另一种选择是更改Hive引用的mapred-site.xml。确保配置未标记为最终配置。在这种情况下,它不能被覆盖。 关于had

hadoop - 与 HDFS 通信 : Exception in thread "main" java. io.IOException : Failed on local exception: java. io.EOFException

publicstaticvoidmain(String[]args)throwsIOException{Configurationconf=newConfiguration();conf.addResource(newPath("/home/myname/hadoop-1.2.1/conf/core-site.xml"));conf.addResource(newPath("/home/myname/hadoop-1.2.1/conf/hdfs-site.xml"));System.out.println("AttemptinginitializationofFileSystem");

python - 从 s3 ://to local(hadoop) file system 复制文件时出错

我正在尝试使用python将文件从s3复制到hadoop文件系统。我收到以下错误:cp:`foo/ds=2015-02-13/ip-d1b-request-2015-02-13_10-00_10-09.txt.gz':Nosuchfileordirectory我最近正在迁移最新的hadoop版本(2.4.0)。在版本(0.20)中工作正常。为什么我在2.4.0版本中会出现此错误?在Hadoop版本0.20中hadoop@ip-10-76-38-167:~$/home/hadoop/bin/hadoopfs-cps3://test.com/foo/ds=2015-02-13/ip-d1b

hadoop - Hive INSERT OVERWRITE LOCAL DIRECTORY 不起作用

我正在使用Cloudera5.3.3Hive。我正在尝试执行以下查询,shell>pwd/homeshell>mkdirtest;chmod777test;shell>ls-aldrwxrwxrwx3jaijai4096Oct506:45testhivequery>INSERTOVERWRITELOCALDIRECTORY'/home/test/test1'SELECT*FROMsome_table;当我从hive客户端执行时,它工作正常,并在/home/test文件夹中创建输出文件,但如果我从执行相同的操作,它不会创建文件直线。从运行Hive服务器2的计算机通过beeline连接到H

hadoop - 使用 HDFS 而不是 spark.local.dir

试图理解为什么Spark需要本地机器上的空间!有办法解决吗?我一直遇到“设备上没有剩余空间”。我知道我可以将“spark.local.dir”设置为以逗号分隔的列表,但有没有办法改用HDFS?我正在尝试合并两个巨大的数据集。在较小的数据集上,Spark是MapReduce的对手,但在我用这些巨大的数据集证明之前,我不能宣布胜利。我没有使用yarn。此外,我们的网关节点(又名边缘节点)不会有很多可用空间。有解决办法吗? 最佳答案 当groupByKey操作时,Spark只是写入tmpDir序列化分区。它是普通文件(请参阅Shuffle

java - Cassandra 错误 :Invalid method name "describe local ring"

我正在使用java在hadoop中开发一个项目。当我在本地集群上运行我的代码(jar)时它工作正常但是当我在亚马逊多集群上运行它时它会给出异常...我的mapreduce作业代码....job.setJarByClass(ReadActivityDriver.class);job.setMapperClass(ReadActivityLogMapper.class);job.setReducerClass(ReadActivityLogReducer.class);job.setMapOutputKeyClass(Text.class);job.setMapOutputValueCla

linux -/usr/local 是不是必须要安装hadoop?

我正在尝试构建一个具有四个节点的hadoop集群。这四台机器来self学校的实验室,我发现它们的/usr/local是从同一个公共(public)磁盘挂载的,这意味着它们的/usr/local是相同的。问题是,我无法在从服务器上启动数据节点,因为hadoop文件总是相同的(比如tmp/dfs/data)。我计划在/opt等其他目录中配置和安装hadoop。问题是我发现几乎所有的安装教程都要求我们将它安装在/usr/local,所以我想知道如果我在其他地方安装hadoop会不会有什么不好的后果/选择?顺便说一句,我正在使用Ubuntu16.04 最佳答案

sql - 如何使用rank函数获取hive中的最新记录

我在配置单元中有下表,其中包含列id、名称和时间戳:根据下面的时间戳应该是最新记录的输出: 最佳答案 你不需要为此排名。您的输出描述为:selectt.*fromtorderbyt.transaction_timedesclimit3;编辑:哦,你想要rank()或dense_rank():selectt.*from(selectt.*,dense_rank()over(orderbyt.transaction_timedesc)asseqnumfromt)twhereseqnum=1;

sql-server - hive 中的 rank()

我正在将SQLServer存储过程转换为HiveQL。我怎样才能转换这样的东西:SELECTp.FirstName,p.LastName,RANK()OVER(ORDERBYa.PostalCode)ASRank 最佳答案 我已经看过几次这个用例,有一种方法可以使用UDF在Hive中执行类似于RANK()的操作。基本上有几个步骤:使用DISTRIBUTEBY将数据分组使用SORTBY对每组数据进行排序实际上有anicearticleonthetopic,您还可以从EdwardCapriolohere中找到一些代码.这是一个在Hive

windows - 映射减少错误 : Failed to setup local dir

我在Windows8上安装的hadoop上运行mapreducewordcount示例。我收到如下错误。这听起来像是一个安全许可问题。但我不太确定。我在yarn-site.xml文件中添加了一个属性yarn.nodemanager.local-dirsc:\hadoop\tmp-nm任何想法都会很有帮助!15/07/1511:01:54INFOclient.RMProxy:ConnectingtoResourceManagerat/0.0.0.0:803215/07/1511:01:55WARNmapreduce.JobResourceUploader:Hadoopcommand-li