草庐IT

table_factory_search

全部标签

hadoop - 用户 ALTER TABLE ... CONCATENATE 与 Hive 中的部分匹配分区

我想在Hive中使用ALTERTABLE...CONCATENATE功能,但似乎我必须提供准确的分区名称。例如,我有一个包含两个分区列、日期和组的表。我希望能够做这样的事情:altertablemytablepartition(insert_date='2017-04-11',group='%')CONCATENATE;但是我找不到这样做的方法。 最佳答案 Concatenate不支持这个。 关于hadoop-用户ALTERTABLE...CONCATENATE与Hive中的部分匹配分区

sql - 如何在 Hive 中删除 External_Table 以及元数据和数据

我的数据库中有很多表,其中一些是External_Tables,每次我删除External_Table时,我需要找到External_Table的位置,我需要-rm-r数据。所以,有没有hive中的任何方式,同时删除包含元数据和数据的External_Table,如果我们删除managed_table,数据和元数据都将被删除。 最佳答案 在删除之前将外部表转换为托管表altertablemytablesettblproperties('EXTERNAL'='FALSE'); 关于sql-

mysql - 使用 --create-hive-table 直接在 hive 中导入 mysql 表(sqoop)

我正在为HDPCD考试进行self培训,因此我正在测试使用MySQL到Hive的所有可能的导入和导出。在这个例子中,我想从MySQL导入一个表,并使用参数--create-hive-table在hive中从头开始创建同一个表。尽管在[documentation][1]中包含它,但我找到了一个正确的示例来执行此操作。我已经试过了,但它不起作用sqoopimport--connectjdbc:mysql://master/poc--usernameroot--tabledept--where'id_dept>2'--hive-import--hive-databasepoc--hive-t

hadoop - MSCK REPAIR TABLE 表名耗时较长

我在包含超过28K分区的配置单元表上运行MSCKREPAIRTABLE表名,我们将每10分钟接收一个分区。当我们每10分钟在此表上运行一次MSCKREPAIRTABLE时,它会花费很多时间有人可以建议为什么需要更多时间吗?(即超过5-10分钟)提前致谢。hive版本:1.1.0 最佳答案 这是一个非常糟糕的做法。无论目录是否已经映射到分区,MSCKREPAIR仍然需要获取所有目录的列表以及所有分区的列表并进行比较。相反,您应该在每次添加目录时使用altertable...addpartition...添加一个分区。

hadoop - hive insert overwrite table with inner sub query of count of columns 作为结果

你好,我在源表“状态表”下面有datestatusname2017-06-22true1.tar2017-06-22true2.tar2017-06-22false3.tar2017-06-22true4.tar2017-06-22false5.tar2017-06-21false6.tar2017-06-21false6.tar2017-06-21false6.tar2017-06-21true6.tar我在目标表列下面有预期的数据TrueFalseTotalDate3252017-06-221342017-06-21我在下面写了查询将数据从源表加载到目标表,但它说表达式不在GROU

apache-spark - 齐柏林飞艇 : Not Showing Hive Database/tables in HDP3. 0

我已经安装了Hortonworkshdp3.0并配置了Zeppelin。当我运行spark或sql时,Zeppelin只显示默认数据库(这是Spark的默认数据库,位置为“/apps/spark/warehouse”,而不是Hive的默认数据库)。这可能是因为hive.metastore.warehouse.dir属性不是从hive-site.xml设置的,而zeppelin是从Spark配置(spark.sql.warehouse.dir)中选择的。我对spark也有类似的问题,这是由于spark-conf目录中的hive-site.xml文件,我能够通过将hive-site.xml

hadoop - 执行以下 Hive 查询 : SELECT COUNT(*) FROM TABLE; for a table with 8bn rows/40 columns/400Gb? 的大概数字是多少

执行以下Hive查询的大概数字是多少:SELECTCOUNT(*)FROMTABLE;对于下表:行数:~80亿列数:40,各种大小的int、double和stringHDFS上的大小:~400Gb我想将任何大概数字与真实数字进行比较,以查看系统配置是否正确。如果我错过了一些重要的事情,我深表歉意,我是Hive和Hadoop的新手。此外,如果机器数量也按比例增加,执行时间是否会与行数成线性比例? 最佳答案 提供大概数字是不可能的。但是我们可以列出影响因素:集群中配置的MapTask数量block大小(决定将使用的映射器的数量)执行时间

hadoop - 配置单元 : getting parseexception in simple create external table query

我已经在mac上设置了hive。在执行简单的创建外部表查询时。我正在跟踪堆栈跟踪:hive>CREATEEXTERNALTABLEweatherext(wbanINT,dateSTRING)>ROWFORMATDELIMITED>FIELDSTERMINATEDBY‘,’>LOCATION‘/hive/data/weatherext’;NoViableAltException(80@[])atorg.apache.hadoop.hive.ql.parse.HiveParser.columnNameTypeOrPKOrFK(HiveParser.java:33341)atorg.apac

【flink番外篇】9、Flink Table API 支持的操作示例(1)-完整版

Flink系列文章一、Flink专栏Flink专栏系统介绍某一知识点,并辅以具体的示例进行说明。1、Flink部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink的基础部分,比如术语、架构、编程模型、编程指南、基本的datastreamapi用法、四大基石等内容。3、FlikTableAPI和SQL基础系列本部分介绍FlinkTableApi和SQL的基本用法,比如TableAPI和SQL创建库、表用法、查询、窗口函数、catalog等等内容。4、FlikTableAPI和SQL提高与应用系列本部分是tableapi和sql的应用部分,和实际的生产应

用通俗易懂的方式讲解大模型:一个强大的 LLM 微调工具 LLaMA Factory

LLM(大语言模型)微调一直都是老大难问题,不仅因为微调需要大量的计算资源,而且微调的方法也很多,要去尝试每种方法的效果,需要安装大量的第三方库和依赖,甚至要接入一些框架,可能在还没开始微调就已经因为环境配置而放弃了。今天我们来介绍一个可以帮助大家快速进行LLM微调的工具——LLaMAFactory,它可以帮助大家快速进行LLM微调,而且还可以在微调过程中进行可视化,非常方便。什么是LLM微调LLM微调,也叫做Fine-tuning,是深度学习领域中常见的一种技术,用于将预先训练好的模型适配到特定的任务或数据集上。这个过程包括几个主要步骤:基础模型选择:选择一个通用文本数据的基础语言模型,使其