tmp_table_草庐IT

hadoop - 运行 yarn jar 命令时更改 tmp 目录

我正在使用yarnjar命令运行MR作业，它会在/tmp文件夹中创建一个临时jar，它会填满整个磁盘空间。我想将这个jar的路径重定向到我有更多磁盘空间的其他文件夹。关于这个link，我开始知道我们可以通过为hadoop版本1.x设置属性mapred.local.dir来更改路径。我正在使用以下命令来运行jaryarnjarmyjar.jarMyClassmyyml.ymlarg1-Dmapred.local.dir="/grid/1/uie/facts"上面的参数mapred.local.dir没有改变路径，它仍然在tmp文件夹中创建jar。最佳答案

hadoop - HIVE 中 ALTER TABLE 命令中的 CONCATENATE 如何工作

我想了解HIVE中的ALTERTABLECONCATENATE究竟是如何工作的。我看到了这个链接HowdoesHive'altertableconcatenate'work?但我从这个链接得到的只是对于ORC文件，合并发生在strip级别。我正在寻找有关CONCATENATE工作原理的详细说明。例如，我最初在HDFS中有500个小的ORC文件。我运行了HiveALTERTABLECONCATENATE并将文件合并为27个更大的文件。随后运行的CONCATENATE将文件数量减少到16个，最后我得到了两个大文件。(使用版本Hive0.12)所以我想了解CONCATENATE的具体工作原理

CONCATENATE hadoop section stackoverflow hive concatenation alter

sql - Hive-我如何使用原始表中的分区 "create table as select.."？

我需要从我们的配置单元dlk创建一个“工作表”。虽然我可以使用:createtablemy_tableasselect*fromdlk.big_table很好，我在从原始“big_table”继承分区(属性day、month和year)或只是创建来自这些属性的新属性。搜索网络并没有真正帮助我回答这个问题-所有“教程”或解决方案都涉及createasselect或创建分区，而不是两者。这里有人可以帮忙吗？最佳答案不支持创建分区表作为选择。您可以分两步完成:像dlk.big_table一样创建表my_table；这将创建具有相同架构

amp create code table section sql hadoop hive hiveql create-table

apache-spark - 亚马逊电子病历 : Spark - SparkException java IOException: Failed to create local dir in/tmp/blockmgr*

我有一个带有Spark的AWSEMR集群。我可以连接到它(spark):通过SSH连接到主节点后从主节点来自另一个AWSEMR集群但无法连接到它:从我的本地机器(macOSMojave)来自非emr机器，如Metabase和Redash我已阅读thisquestion的答案.我已经检查过所有节点上的文件夹权限和磁盘空间都没有问题。我的假设是我面临着类似的问题JamesWierzba在评论中提问。但是，我没有足够的声誉在那里添加评论。此外，考虑到它特定于AWSEMR，这可能是一个不同的问题。SSH连接到主节点后连接工作正常。#SSHedtomasternode$ssh-i~/identi

病历 SparkException noreferrer noopener nofollow apache-spark hadoop hive amazon-emr beeline

hadoop - 在 amazon EMR 上运行 HBase 时，为什么/tmp 文件夹与实际数据相比很大？

我们在amazonEMR上有一个默认配置的hadoop+hbase集群，所以mapred.child.tmp和hbase.tmp.dir都指向/tmp。我们的集群已经运行了一段时间，现在/tmp为500Gb，而实际/hbase数据为70Gb。这种差异似乎太大了，我们是否应该定期删除一些/tmp数据？最佳答案经过一些调查，我发现我们的/tmp数据的最大部分是由Amazon将Hbase自动备份到S3期间失败的mapreduce任务创建的。我们成功的mapreduce任务不会在/tmp中留下太多数据。我们决定禁用Amazon的自动备份

hadoop amazon code section tmp hbase amazon-emr

Hadoop 配置单元 SQL : Create External Table from an oddly formatted file

目前我有一个初始系统在工作，它读取一个文件，每行格式如下所示:REVISION1230364918Anarchism2005-12-06T17:44:47ZRJII141644使用此代码:CREATEEXTERNALTABLEmytable(typeSTRING,aidBIGINT,ridBIGINT,titleSTRING,tsSTRING,unameSTRING,uidSTRING)ROWFORMATDELIMITEDFIELDSTERMINATEDBY''STOREDASTEXTFILELOCATION'/my/local/path/to/file';但是现在我有一个文件，每一行

配置单 formatted section STRING code hadoop hbase hive bigdata

hadoop - 在 Cassandra 中将一张大 table 分成多个小 table ？

来自MongoDB的背景，我们倾向于基于周将数据的摄取分成多个集合(其中包含相同类型的数据)。这完全取决于我们索引的性能。考虑在Cassandra中对同一概念建模，是否值得做同样的事情并根据时间段创建多个表？所以也许每周一次。是否有任何性能提升？由于我对Hadoop集成的研究，我也问这个问题，我可能只想映射/减少特定几周内有值(value)的数据，而不是所有数据，据我所知，这是最好的方法隔离我们要映射的数据。在此先感谢您对此的任何意见。最佳答案这不是必须的。但是，请务必注意，您不应在Cassandra中使用二级索引，您应该对数据

table Cassandra section https hadoop

apache - Hbase 元数据错误 "tables no found"

我在hbase(hdfs)表中有一些数据，我将其复制到我的本地文件系统。然后在我的第二台机器上，我使用copyFromLocalhadoop命令将数据从本地复制到hdfs。现在，当我在hbase中(在第二台机器上)运行命令“list”时。显示没有表。我将表复制到hdfs中的一个目录中，该目录是hbase的数据目录，因此该表应该出现在hbase中。问题出在哪里？在两台机器上，hbase和hadoop的版本相同。如何将hbase表从一个集群复制到第二个集群？最佳答案已经有一些工具可用于管理此类任务(全部记录在此处:http://hb

amp apache hbase org hadoop hdfs

hadoop - HiveServer2在hdfs/tmp/hive/hive中生成了很多目录

我们使用Hiveserver2(在HortonworksHDP2.2发行版上)创建新集群。一段时间后，我们在hdfs上的/tmp/hive/hive中有超过1048576个目录，因为hive服务器在这个位置生成它。有人遇到过类似的问题吗？来自hive服务器的日志:2015-08-3106:48:15,828WARN[HiveServer2-Handler-Pool:Thread-1104]:conf.HiveConf(HiveConf.java:initialize(2499))-HiveConfofnamehive.heapsizedoesnotexist2015-08-3106:4

中生 hive HiveConf session HiveServer2-Handler-Pool hadoop hdfs bigdata hortonworks-data-platform

mysql - 插入导致异常 ParseException 行 1 :12 missing TABLE at 'table_name' near '<EOF>' 的 Select 命令

我刚接触hadoop和hive2天。所以，我的理解是非常基础的。我有一个可能很愚蠢的问题。问题:我有一个配置单元外部表ABC，并创建了一个类似于ABC_TEST表的示例测试表。我的目标是根据select子句将ABC的某些内容复制到ABC_TEST。所以我使用以下命令创建了ABC_TEST:CREATETABLEABC_TESTLIKEABC;问题是:1)此ABC_TEST不是外部表。2)使用Desc命令，ABC_TEST的LOCATION内容类似于hdfs://somepath/somdbname.db/ABC_TEST-->Oncommand"hadoopfs-lshdfs://so

amp 39 ABC_TEST ABC TEST mysql hadoop hive hdfs