Table_One_草庐IT

sql - 如何在 Hive 中删除 External_Table 以及元数据和数据

我的数据库中有很多表，其中一些是External_Tables，每次我删除External_Table时，我需要找到External_Table的位置，我需要-rm-r数据。所以，有没有hive中的任何方式，同时删除包含元数据和数据的External_Table，如果我们删除managed_table，数据和元数据都将被删除。最佳答案在删除之前将外部表转换为托管表altertablemytablesettblproperties('EXTERNAL'='FALSE'); 关于sql-

和数 External_Table section External sql hadoop hive hiveql

mysql - 使用 --create-hive-table 直接在 hive 中导入 mysql 表(sqoop)

我正在为HDPCD考试进行self培训，因此我正在测试使用MySQL到Hive的所有可能的导入和导出。在这个例子中，我想从MySQL导入一个表，并使用参数--create-hive-table在hive中从头开始创建同一个表。尽管在[documentation][1]中包含它，但我找到了一个正确的示例来执行此操作。我已经试过了，但它不起作用sqoopimport--connectjdbc:mysql://master/poc--usernameroot--tabledept--where'id_dept>2'--hive-import--hive-databasepoc--hive-t

中导 mysql hive section table hadoop hadoop2 bigdata

hadoop - MSCK REPAIR TABLE 表名耗时较长

我在包含超过28K分区的配置单元表上运行MSCKREPAIRTABLE表名，我们将每10分钟接收一个分区。当我们每10分钟在此表上运行一次MSCKREPAIRTABLE时，它会花费很多时间有人可以建议为什么需要更多时间吗？(即超过5-10分钟)提前致谢。hive版本:1.1.0 最佳答案这是一个非常糟糕的做法。无论目录是否已经映射到分区，MSCKREPAIR仍然需要获取所有目录的列表以及所有分区的列表并进行比较。相反，您应该在每次添加目录时使用altertable...addpartition...添加一个分区。

hadoop REPAIR section code hive hiveql

hadoop - hive insert overwrite table with inner sub query of count of columns 作为结果

你好，我在源表“状态表”下面有datestatusname2017-06-22true1.tar2017-06-22true2.tar2017-06-22false3.tar2017-06-22true4.tar2017-06-22false5.tar2017-06-21false6.tar2017-06-21false6.tar2017-06-21false6.tar2017-06-21true6.tar我在目标表列下面有预期的数据TrueFalseTotalDate3252017-06-221342017-06-21我在下面写了查询将数据从源表加载到目标表，但它说表达式不在GROU

overwrite columns code section 2017 hadoop hive hql hadoop-yarn

hadoop - 执行以下 Hive 查询 : SELECT COUNT(*) FROM TABLE; for a table with 8bn rows/40 columns/400Gb? 的大概数字是多少

执行以下Hive查询的大概数字是多少:SELECTCOUNT(*)FROMTABLE；对于下表:行数:~80亿列数:40，各种大小的int、double和stringHDFS上的大小:~400Gb我想将任何大概数字与真实数字进行比较，以查看系统配置是否正确。如果我错过了一些重要的事情，我深表歉意，我是Hive和Hadoop的新手。此外，如果机器数量也按比例增加，执行时间是否会与行数成线性比例？最佳答案提供大概数字是不可能的。但是我们可以列出影响因素:集群中配置的MapTask数量block大小(决定将使用的映射器的数量)执行时间

columns hadoop 射器 section li hive hdfs

hadoop - 配置单元 : getting parseexception in simple create external table query

我已经在mac上设置了hive。在执行简单的创建外部表查询时。我正在跟踪堆栈跟踪:hive>CREATEEXTERNALTABLEweatherext(wbanINT,dateSTRING)>ROWFORMATDELIMITED>FIELDSTERMINATEDBY‘,’>LOCATION‘/hive/data/weatherext’;NoViableAltException(80@[])atorg.apache.hadoop.hive.ql.parse.HiveParser.columnNameTypeOrPKOrFK(HiveParser.java:33341)atorg.apac

配置单 parseexception hadoop apache hive hadoop2

hadoop - HDFS 行为 : Datanodes up but all data goes to one node (using -copyFromLocal)

我有一个集群配置。主人(也是奴隶)两个奴隶复制因子=1我将一个~9GB的文件movies.txt复制到hdfs中:hadoopdfs-copyFromLocalmovies.txt/input/我观察到一半的block被保存到Master，另一半分布在两个slave上。然后我想到使用以下方法格式化hadoop_stores:stop-all.shrm-rf{hadoop_store}/*hdfsnamenode-formatsshslave1rm-rf{hadoop_store}/*hdfsnamenode-formatexitsshslave2rm-rf{hadoop_store}/

copyFromLocal Datanodes hadoop code section formatting hdfs

java - .pig 脚本与 java 嵌入式 pig : Which one is the fastest?

我的项目有一个ASCII输入文件，我使用pig脚本进行映射缩减。在此脚本中，我使用子字符串获取指定的字符间隔。我想问一下如果我用java取char间隔然后将jar文件嵌入到另一个pig脚本中减少我的数据，我的程序运行得更快还是不快？最佳答案这完全取决于您如何在map方法中实现char间隔拆分。如果您知道您的数据，则可以优化子字符串。检查这个线程:charAt()orsubstring?Whichisfaster?此外，一般来说，将jar添加到hadoop集群会增加一些文件传输和设置内部内容(类加载器、解包等)的开销，但在这种情况

java pig section 射器 stackoverflow hadoop mapreduce apache-pig

【flink番外篇】9、Flink Table API 支持的操作示例（1）-完整版

Flink系列文章一、Flink专栏Flink专栏系统介绍某一知识点，并辅以具体的示例进行说明。1、Flink部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink的基础部分，比如术语、架构、编程模型、编程指南、基本的datastreamapi用法、四大基石等内容。3、FlikTableAPI和SQL基础系列本部分介绍FlinkTableApi和SQL的基本用法，比如TableAPI和SQL创建库、表用法、查询、窗口函数、catalog等等内容。4、FlikTableAPI和SQL提高与应用系列本部分是tableapi和sql的应用部分，和实际的生产应

整版示例 span class token

hadoop - Spark + yarn 簇: how can i configure physical node to run only one executor\task each time?

我的环境包含4个物理节点和少量RAM，每个节点有8个CPU内核。我注意到spark会自动决定为每个CPU分配RAM。结果是发生了内存错误。我正在处理大数据结构，我希望每个执行程序都将在物理节点上拥有整个RAM内存(否则我会遇到内存错误)。我尝试在“yarn-site.xml”文件上配置“yarn.nodemanager.resource.cpu-vcores1”或在spark-defaults.conf上配置“spark.driver.cores1”但没有成功。最佳答案尝试设置spark.executor.cores1

configure executor section spark stackoverflow hadoop apache-spark hadoop-yarn bigdata