草庐IT

sql - 在 Hive 的 LOCATION 字段中明确指定之前,不会创建数据库目录

我使用以下查询在我的首选位置(/user/hive/)创建了一个数据库。createdatabasetestlocation"/user/hive/";创建数据库后,我使用命令hadoopdfs-ls/user/在位置/user/hive/中检查了test.db目录hive。它不可用。后来我使用下面的查询创建了一个默认位置的数据库。createdatabasetest2;对于数据库test2,可以在默认仓库目录/user/hive/warehouse/下看到test2.db目录/user/hive/test.db目录是在我在LOCATION文件中明确指定它时创建的,如下所示。creat

hadoop - 为什么伪分布式需要hadoop命令?

这可能是个愚蠢的问题,但我需要知道。例如:为什么我们需要hadoopfs-ls命令来列出文件?相反,为什么不能只使用ls?如果在伪分布式模式下,是不是文件系统的一部分被提供给hadoop文件系统,只能由hadoopnamenode守护进程访问...这是我的猜测。请解释。 最佳答案 ls将列出您的计算机可用的所有文件空间你可以将fs.defaultFS属性设置为默认的file:///,那么两者的行为是一样的,但这不被认为是伪分布式模式.伪分布式节点要求您在集群中的每个相应系统上指定数据节点和名称节点卷的列表,hdfsdfs命令将仅列出

hadoop - 如何增加 AM 可以在 Hadoop 中使用的最大 vCores?

我正在努力处理一些hadoop配置。我正在寻求增加ApplicationsMaster可以使用的最大vCore数量。我的问题是目前只能使用1个vCore(见下图),因此我一次只能运行一项作业。其他作业将保持在ACCEPT阶段。我已经找到如何增加文件capacity-scheduler.xml中允许的内存。就我而言:yarn.scheduler.capacity.maximum-am-resource-percent0.8yarn.scheduler.capacity.maximum-applications10000yarn.scheduler.capacity.node-locali

hadoop - 如何创建 hive 仓库目录?

我已经安装了hadoop和hive。我正在尝试按如下方式配置配置单元:hadoopfs-mkdir/data/hive/warehouse我一直收到这个错误:mkdir:'/data/hive/warehouse':Nosuchfileordirectory在发出hadoopfs命令之前,我是否需要使用os命令创建目录?有什么想法吗? 最佳答案 您缺少类似于UNIX/Linux的-p选项。$hadoopfs-mkdir-p/data/hive/warehouse此外,如果您为多个用户设置此目录,您还应该chmod1777这个目录,如

sql - 根据日期计算某行最大值与其他行的差值

我有一个表格如下:datetable_namecount_table2018-07-19A502018-07-19B402018-07-18A252018-07-18B302018-07-17A102018-07-17B5我想计算每个日期之间的计数差异。结果表如下:date1date2table_namediff2018-07-172018-07-18A152018-07-182018-07-19A252018-07-172018-07-18B252018-07-182018-07-19B10`谢谢你的帮助 最佳答案 如果存在多个日

git - 安全地在 Git 存储库中存储 SSH key 的 Ansible 设计模式?

我一周前开始使用Ansible,很抱歉,如果这是一个简单的问题,我没有这方面的经验...我的问题是我需要使用Ansible开发软件部署解决方案,其他开发人员将来可以轻松使用。在这个解决方案中,需要下载一个Git存储库,其中包含一个VagrantFile,然后创建一个安装Ansible的Vagrantbox,其中Ansible配置为使用jumpserver和网关连接到Hadoop集群。为了连接到公司的环境,可以使用SSHkey或用户/密码(开发人员有自己的开发人员帐户),所以我决定生成用于开发的SSHkey,我在Ansible中使用以下方式:库存文件:[company_jumpserve

hadoop - 尝试执行 Pig Latin 脚本时出现异常

我正在自学Pig,在尝试探索数据集时遇到异常。脚本中有什么问题以及原因:movies_data=LOAD'/movies_data'usingPigStorage(',')as(id:chararray,title:chararray,year:int,rating:double,duration:double);high=FILTERmovies_databyrating>4.0;high_rated=FOREACHhighGENERATEmovies_data.title,movies_data.year,movies_data.rating,movies_data.duratio

hadoop - phoenix jdbc 不工作,没有异常并卡住

我是phoenix的新手,hbase.hbase表和phoenixView运行良好,我可以通过phoenix获取数据。当我访问jdbc到phoenix时,它卡住了。importjava.sql.Connection;importjava.sql.DriverManager;importjava.sql.ResultSet;importjava.sql.SQLException;importjava.sql.Statement;publicclassPhoenix{privatestaticStringdriver="org.apache.phoenix.jdbc.PhoenixDriv

hadoop - nifi FlowFile 尚未关闭(Groovy 脚本)警告

nifi术语和流文件处理的新手。找到了一种方便的方法来处理传入的xml并使用XmlSlurper对其进行解析,但是对于传入流文件的以下GroovyScript收到警告-流程:处理器细节:脚本正文:defflowFile=session.get()if(!flowFile)returnInputStreami=flowFile.read()newXmlSlurper().parse(i)i.close()REL_SUCCESS似乎是处理流文件的问题。有人可以解释这里到底发生了什么以及如何最好地处理它吗?似乎这导致集群有时挂起 最佳答案

hadoop - 从给定查询的配置单元日志中获取应用程序 ID

在我们的环境中,我们有许多用户从不同的工具发出Hive查询。很多时候用户会给我们查询,说在某个时候失败了,我们需要深入挖掘,找到原因。所以我们需要解析Hive日志并找到查询。找到查询是比较容易的部分,有没有办法很容易地找出一旦在配置单元日志中找到查询(通常在执行命令之后),我如何轻松地获得与之关联的yarn应用程序ID?我正在尝试自动执行此过程,以便减少我们的分析时间。谢谢 最佳答案 您可以做的一件事是,您可以使用yarnapplication-list-appStatesALL命令。它的作用是,它将为您提供所有应用程序的列表及其各