草庐IT

quoted_table_name

全部标签

hadoop - 用户 ALTER TABLE ... CONCATENATE 与 Hive 中的部分匹配分区

我想在Hive中使用ALTERTABLE...CONCATENATE功能,但似乎我必须提供准确的分区名称。例如,我有一个包含两个分区列、日期和组的表。我希望能够做这样的事情:altertablemytablepartition(insert_date='2017-04-11',group='%')CONCATENATE;但是我找不到这样做的方法。 最佳答案 Concatenate不支持这个。 关于hadoop-用户ALTERTABLE...CONCATENATE与Hive中的部分匹配分区

sql - 如何在 Hive 中删除 External_Table 以及元数据和数据

我的数据库中有很多表,其中一些是External_Tables,每次我删除External_Table时,我需要找到External_Table的位置,我需要-rm-r数据。所以,有没有hive中的任何方式,同时删除包含元数据和数据的External_Table,如果我们删除managed_table,数据和元数据都将被删除。 最佳答案 在删除之前将外部表转换为托管表altertablemytablesettblproperties('EXTERNAL'='FALSE'); 关于sql-

mysql - 使用 --create-hive-table 直接在 hive 中导入 mysql 表(sqoop)

我正在为HDPCD考试进行self培训,因此我正在测试使用MySQL到Hive的所有可能的导入和导出。在这个例子中,我想从MySQL导入一个表,并使用参数--create-hive-table在hive中从头开始创建同一个表。尽管在[documentation][1]中包含它,但我找到了一个正确的示例来执行此操作。我已经试过了,但它不起作用sqoopimport--connectjdbc:mysql://master/poc--usernameroot--tabledept--where'id_dept>2'--hive-import--hive-databasepoc--hive-t

hadoop - MSCK REPAIR TABLE 表名耗时较长

我在包含超过28K分区的配置单元表上运行MSCKREPAIRTABLE表名,我们将每10分钟接收一个分区。当我们每10分钟在此表上运行一次MSCKREPAIRTABLE时,它会花费很多时间有人可以建议为什么需要更多时间吗?(即超过5-10分钟)提前致谢。hive版本:1.1.0 最佳答案 这是一个非常糟糕的做法。无论目录是否已经映射到分区,MSCKREPAIR仍然需要获取所有目录的列表以及所有分区的列表并进行比较。相反,您应该在每次添加目录时使用altertable...addpartition...添加一个分区。

hadoop - hive insert overwrite table with inner sub query of count of columns 作为结果

你好,我在源表“状态表”下面有datestatusname2017-06-22true1.tar2017-06-22true2.tar2017-06-22false3.tar2017-06-22true4.tar2017-06-22false5.tar2017-06-21false6.tar2017-06-21false6.tar2017-06-21false6.tar2017-06-21true6.tar我在目标表列下面有预期的数据TrueFalseTotalDate3252017-06-221342017-06-21我在下面写了查询将数据从源表加载到目标表,但它说表达式不在GROU

hadoop - 我不明白这个示例代码中的 jar 和 class-name 是什么

我正在尝试使用sqoop合并hdfs上的增量数据,这是我在googlehttps://developer.ibm.com/hadoop/2017/02/28/typical-scenario-sqoop-incremental-import-merge/上找到的示例代码我不明白那里的jar文件和类名是什么,我应该提供哪个jar文件的路径以及什么类名?有人可以帮我理解吗?谢谢。sqoopmerge--new-data/apps/hive/warehouse/student/part-m-00000--onto/apps/hive/warehouse/student/part-m-0000

apache-spark - 齐柏林飞艇 : Not Showing Hive Database/tables in HDP3. 0

我已经安装了Hortonworkshdp3.0并配置了Zeppelin。当我运行spark或sql时,Zeppelin只显示默认数据库(这是Spark的默认数据库,位置为“/apps/spark/warehouse”,而不是Hive的默认数据库)。这可能是因为hive.metastore.warehouse.dir属性不是从hive-site.xml设置的,而zeppelin是从Spark配置(spark.sql.warehouse.dir)中选择的。我对spark也有类似的问题,这是由于spark-conf目录中的hive-site.xml文件,我能够通过将hive-site.xml

c++ - : No module named _hdfs_*

我能够毫无错误地构建和安装Pydoop,因此,例如,我可以执行以下操作:>>>importpydoop>>>pydoop.__version__'0.10.0'但是,当我尝试导入主要的Pydoop模块(例如pipes或hdfs)时,我遇到了ImportError:>>>importpydoop.hdfsTraceback(mostrecentcalllast):File"",line1,inFile"pydoop/hdfs/__init__.py",line79,infromfsimporthdfs,default_is_localFile"pydoop/hdfs/fs.py",lin

hadoop - 执行以下 Hive 查询 : SELECT COUNT(*) FROM TABLE; for a table with 8bn rows/40 columns/400Gb? 的大概数字是多少

执行以下Hive查询的大概数字是多少:SELECTCOUNT(*)FROMTABLE;对于下表:行数:~80亿列数:40,各种大小的int、double和stringHDFS上的大小:~400Gb我想将任何大概数字与真实数字进行比较,以查看系统配置是否正确。如果我错过了一些重要的事情,我深表歉意,我是Hive和Hadoop的新手。此外,如果机器数量也按比例增加,执行时间是否会与行数成线性比例? 最佳答案 提供大概数字是不可能的。但是我们可以列出影响因素:集群中配置的MapTask数量block大小(决定将使用的映射器的数量)执行时间

git clone:SSL: no alternative certificate subject name matches target host name

gitclone时的常见错误:fatal:unabletoaccess‘https://ip_or_domain/xx/xx.git/’:SSL:noalternativecertificatesubjectnamematchestargethostname‘ip_or_domain’解决办法:disablesslverifygitconfig--globalhttp.sslVerifyfalseremote:HTTPBasic:Accessdeniedremote:Youmustuseapersonalaccesstokenwith‘read_repository’or‘write_repo