草庐IT

TOOLS_DIR

全部标签

hadoop - 使用 Parquet-tools.jar 从 Parquet 文件转储特定列

我想使用parquet-tools-1.8.1.jar仅转储某些文本文件中的特定列。但无法这样做。我正在尝试以下命令。请注意我的列名有正斜杠。parquet-tools-1.8.1.jardump--column'dir1/log1/job12121''/hdfs-path/to/parquetfilewithspace.parquet'>/home/local/parquet/output.text 最佳答案 运行hadoopjarparquet-tools-1.8.1.jarparquet.tools.Maindump--col

java - 无法找到或加载主类 com.sun.tools.javac.Main hadoop mapreduce

我正在尝试学习MapReduce,但我现在有点迷茫。http://hadoop.apache.org/docs/r2.6.0/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html#Usage特别是这组指令:CompileWordCount.javaandcreateajar:$bin/hadoopcom.sun.tools.javac.MainWordCount.java当我在终端中输入hadoop时,我能够看到提供参数的“帮助”,所以我相信我已经安装了hadoop。当我输入命令时:编译W

apache-spark - 亚马逊电子病历 : Spark - SparkException java IOException: Failed to create local dir in/tmp/blockmgr*

我有一个带有Spark的AWSEMR集群。我可以连接到它(spark):通过SSH连接到主节点后从主节点来自另一个AWSEMR集群但无法连接到它:从我的本地机器(macOSMojave)来自非emr机器,如Metabase和Redash我已阅读thisquestion的答案.我已经检查过所有节点上的文件夹权限和磁盘空间都没有问题。我的假设是我面临着类似的问题JamesWierzba在评论中提问。但是,我没有足够的声誉在那里添加评论。此外,考虑到它特定于AWSEMR,这可能是一个不同的问题。SSH连接到主节点后连接工作正常。#SSHedtomasternode$ssh-i~/identi

hadoop - 如何选择${mapred.local.dir}?

如果我配置了几个${mapred.local.dir}目录来存储MapTask的即时结果,这些目录挂载在不同的磁盘上。我的问题是:1.LocalDirAllocator.java是否用于管理${mapred.local.dir}目录?2.LocalDirAllocator.java的方法getLocalPathForWrite()是用来选择一个${mapred.local.dir}目录的? 最佳答案 1.WhetherLocalDirAllocator.javaisusedtomanage${mapred.local.dir}dir

hadoop - default.fs.name 和 hive.metastore.warehouse.dir 不冲突

嗨,当我尝试运行以下命令时LoaddataInpath'/data'intoTableTablename;在hiveshell中抛出以下错误Movefrom:hdfs://hadoopcluster/datato:file:/user/hive/warehouse/Tablenameisnotvalid.Pleasecheckthatvaluesforparams"default.fs.name"and"hive.metastore.warehouse.dir"donotconflict.我的default.fs.name属性在哪里fs.defaultFShdfs://hadoopcl

hadoop - 使用命令行 parquet-tools 查看 parquet 中的模式

我正在尝试运行parquet-tools命令仅查看我的Parquet文件的文件模式。我目前正在运行:$parquet-toolsmeta/tmp/my-file.parquet但这会显示文件架构加上数百个行组。我不想看到行组,只想看到文件架构。 最佳答案 尝试parquet-toolsschema/tmp/my-file.parquet 关于hadoop-使用命令行parquet-tools查看parquet中的模式,我们在StackOverflow上找到一个类似的问题:

java - Hadoop 上的错误 : Could not find or load main class org. apache.hadoop.hdfs.tools.GetConf

Error:Couldnotfindorloadmainclassorg.apache.hadoop.hdfs.tools.GetConf在[]上启动名称节点localhost:启动namenode,记录到/usr/local/hadoop/hadoop-2.6.0/logs/hadoop-ingreens-namenode-ingreens-desktop.outlocalhost:启动datanode,记录到/usr/local/hadoop/hadoop-2.6.0/logs/hadoop-ingreens-datanode-ingreens-desktop.out错误:无法找到

hadoop - 在/tmp 中设置 hadoop.tmp.dir

我在Hadoop文档中看到1hadoop.tmp.dir的默认值是/tmp/hadoop-${user.name}但如果我这样设置,当机器重新启动时,我是否丢失数据?我的意思是,也许我不必在真正的/tmp中设置它,但我需要在/home/myuser/tmp/hadoop-${user.姓名?提前致谢!添加信息:我在/tmp/hadoop-hduser中设置了它,但是由于电源问题导致计算机中断,今天我收到此消息:CallFromjava.net.UnknownHostException:hduser-machine:hduser-machineto本地主机:54310连接异常失败:jav

hadoop - hadoop.tmp.dir 的 VERSION 文件有什么用

最近我格式化了namenode并且在启动hadoop守护进程时datanode失败并给出如下错误2019-01-1110:39:15,449WARNorg.apache.hadoop.hdfs.server.common.Storage:Failedtoaddstoragedirectory[DISK]file:/app/hadoop/tmp/dfs/data/java.io.IOException:IncompatibleclusterIDsin/app/hadoop/tmp/dfs/data:namenodeclusterID=CID-76c39119-061a-4ecf-9de1

hadoop - 在cloudera中安装apache hadoop-tools

我有cloudera5.14开发环境。我想在cloudera发行版中安装apachehadoop-tools(link)。具体来说,我需要hadoop-resourceestimator(link)。没有可用的文档说明如何安装相同的.我们将不胜感激任何潜在客户。 最佳答案 AFAIKcdh5.14.x基于旧的hadoop版本2.6.0,它没有resourceestimator工具。它可用但在CDH6中不受支持(“不支持”与“不可用”不同)。你可以在CDH6.x发行版中找到resourceestimator,-rw-r--r--1ro