草庐IT

HADOOP_PREFIX

全部标签

hadoop - 将可选属性从主 oozie 工作流传递到子工作流

我有一个HDFS_file_path或属性需要从workflow-1传递到common_subworkflow。我还有没有该属性或HDFS_file_path的workflow-2。但是workflow-2调用common_subworkflow。在common_subworkflow中,我使用${HDFS_file_path}获取属性值。当workflow-1调用common_subworkflow时工作正常,但当workflow-2调用common_subworkflow时失败,因为HDFS_file_path在workflow-2中不存在。有什么办法可以读取动态属性(如果存在),

hadoop - Apache pig 错误 org.apache.pig.backend.hadoop.executionengine.Launcher - 错误 : org. apache.avro.file.DataFileWriter$AppendWriteException:

我正在尝试加载一些数据,按特定字段过滤并将输出存储到HDFS。我的代码如下所示:data=LOAD'$inputPath'usingAvroStorage();data=FILTERdatabycondition;STOREdataINTO'$outputPath'usingAvroStorage('schema','$SCHEMA');但我收到一条错误消息:ERRORorg.apache.pig.backend.hadoop.executionengine.Launcher-Error:org.apache.avro.file.DataFileWriter$AppendWriteEx

hadoop - 为什么伪分布式需要hadoop命令?

这可能是个愚蠢的问题,但我需要知道。例如:为什么我们需要hadoopfs-ls命令来列出文件?相反,为什么不能只使用ls?如果在伪分布式模式下,是不是文件系统的一部分被提供给hadoop文件系统,只能由hadoopnamenode守护进程访问...这是我的猜测。请解释。 最佳答案 ls将列出您的计算机可用的所有文件空间你可以将fs.defaultFS属性设置为默认的file:///,那么两者的行为是一样的,但这不被认为是伪分布式模式.伪分布式节点要求您在集群中的每个相应系统上指定数据节点和名称节点卷的列表,hdfsdfs命令将仅列出

hadoop - 如何增加 AM 可以在 Hadoop 中使用的最大 vCores?

我正在努力处理一些hadoop配置。我正在寻求增加ApplicationsMaster可以使用的最大vCore数量。我的问题是目前只能使用1个vCore(见下图),因此我一次只能运行一项作业。其他作业将保持在ACCEPT阶段。我已经找到如何增加文件capacity-scheduler.xml中允许的内存。就我而言:yarn.scheduler.capacity.maximum-am-resource-percent0.8yarn.scheduler.capacity.maximum-applications10000yarn.scheduler.capacity.node-locali

hadoop - 如何创建 hive 仓库目录?

我已经安装了hadoop和hive。我正在尝试按如下方式配置配置单元:hadoopfs-mkdir/data/hive/warehouse我一直收到这个错误:mkdir:'/data/hive/warehouse':Nosuchfileordirectory在发出hadoopfs命令之前,我是否需要使用os命令创建目录?有什么想法吗? 最佳答案 您缺少类似于UNIX/Linux的-p选项。$hadoopfs-mkdir-p/data/hive/warehouse此外,如果您为多个用户设置此目录,您还应该chmod1777这个目录,如

hadoop - 尝试执行 Pig Latin 脚本时出现异常

我正在自学Pig,在尝试探索数据集时遇到异常。脚本中有什么问题以及原因:movies_data=LOAD'/movies_data'usingPigStorage(',')as(id:chararray,title:chararray,year:int,rating:double,duration:double);high=FILTERmovies_databyrating>4.0;high_rated=FOREACHhighGENERATEmovies_data.title,movies_data.year,movies_data.rating,movies_data.duratio

hadoop - phoenix jdbc 不工作,没有异常并卡住

我是phoenix的新手,hbase.hbase表和phoenixView运行良好,我可以通过phoenix获取数据。当我访问jdbc到phoenix时,它卡住了。importjava.sql.Connection;importjava.sql.DriverManager;importjava.sql.ResultSet;importjava.sql.SQLException;importjava.sql.Statement;publicclassPhoenix{privatestaticStringdriver="org.apache.phoenix.jdbc.PhoenixDriv

hadoop - nifi FlowFile 尚未关闭(Groovy 脚本)警告

nifi术语和流文件处理的新手。找到了一种方便的方法来处理传入的xml并使用XmlSlurper对其进行解析,但是对于传入流文件的以下GroovyScript收到警告-流程:处理器细节:脚本正文:defflowFile=session.get()if(!flowFile)returnInputStreami=flowFile.read()newXmlSlurper().parse(i)i.close()REL_SUCCESS似乎是处理流文件的问题。有人可以解释这里到底发生了什么以及如何最好地处理它吗?似乎这导致集群有时挂起 最佳答案

hadoop - 从给定查询的配置单元日志中获取应用程序 ID

在我们的环境中,我们有许多用户从不同的工具发出Hive查询。很多时候用户会给我们查询,说在某个时候失败了,我们需要深入挖掘,找到原因。所以我们需要解析Hive日志并找到查询。找到查询是比较容易的部分,有没有办法很容易地找出一旦在配置单元日志中找到查询(通常在执行命令之后),我如何轻松地获得与之关联的yarn应用程序ID?我正在尝试自动执行此过程,以便减少我们的分析时间。谢谢 最佳答案 您可以做的一件事是,您可以使用yarnapplication-list-appStatesALL命令。它的作用是,它将为您提供所有应用程序的列表及其各

hadoop - 既然 HDFS 已经提供了数据存储,为什么还要 Hive?

我已经开始学习Hadoop。我知道HDFS提供分布式存储系统,而Mapreduce用于数据处理。现在我正在阅读Hadoop生态系统。从Hive的定义来看,它是一个建立在hadoop之上,提供类SQL接口(interface)的数据仓库。我的问题是当hadoop提供容错的分布式HDFS时,为什么要配置单元?Hive会取代HDFS吗?hive是只提供sql接口(interface)还是也提供存储? 最佳答案 Hive不会取代HDFS。Hive为存储在HDFS中的数据提供了sql类型的接口(interface)。它主要用于查询和分析存储的