草庐IT

spark-hive

全部标签

hadoop - Apache HIVE 中的表定义问题

以下是我推送到名为temp_stat的Hive表中的数据集:COUNTRYCITYTEMP-----------------------------------USArizona51.7USCalifornia56.7USBullheadCity51.1IndiaJaisalmer42.4LibyaAziziya57.8IranLutDesert70.7IndiaBanda42.4当我尝试通过select命令查看数据时,我得到以下数据集:US,Arizona,51.7NULLNULLUS,California,56.7NULLNULLUS,BullheadCity,51.1NULLNU

hadoop - hive insert overwrite table with inner sub query of count of columns 作为结果

你好,我在源表“状态表”下面有datestatusname2017-06-22true1.tar2017-06-22true2.tar2017-06-22false3.tar2017-06-22true4.tar2017-06-22false5.tar2017-06-21false6.tar2017-06-21false6.tar2017-06-21false6.tar2017-06-21true6.tar我在目标表列下面有预期的数据TrueFalseTotalDate3252017-06-221342017-06-21我在下面写了查询将数据从源表加载到目标表,但它说表达式不在GROU

hadoop - 在S3上创建Hive外部表将引发 “org.apache.hadoop.fs.s3a.S3AFileSystem not found”异常

我在本地计算机上使用beeline在DDL下运行,并引发异常。DDL是CREATETABLE`report_landing_pages`(`google_account_id`stringCOMMENT'fromdeserializer',`ga_view_id`stringCOMMENT'fromdeserializer',`path`stringCOMMENT'fromdeserializer',`users`stringCOMMENT'fromdeserializer',`page_views`stringCOMMENT'fromdeserializer',`event_valu

hadoop - Hive 中的时间戳分区

我正在尝试在配置单元中创建基于时间戳的分区。但是配置单元正在创建基于数据的分区。下面是我的代码。有人可以帮忙吗?cattest1.shdat=`date+'%Y%m%d%H:%m:%S'`hive-fload.hql-hiveconffile_load_timestamp=$dat;catload.hqlINSERTOVERWRITEtableperm.testpartition(file_load_timestamp='${hiveconf:dat}')SELECTa,bFROMwork.temp;dt=20180102/=HDFS路径是这样创建的。dt=20180102103455

csv - 指向带有嵌入双引号的 CSV 文件的 Hive 外部表

我正在尝试创建一个指向CSV文件的外部Hive表。我的CSV文件有一个列(col2),可以将双引号和逗号作为列值的一部分。每列数据:Col1:150Col2:BATWING,ABC"D"TESTDATACol3:300CSV中的行:150,"BATWING,ABC""D""TESTDATA",300创建表DDL:CREATEEXTERNALTABLEtest(col1INT,col2STRING,col3INT)ROWFORMATDELIMITEDFIELDSTERMINATEDBY','ESCAPEDBY'"'LOCATION's3://test-folder/test-file.c

hadoop - Spark YARN 应用程序中 Kerberos 中的 HDFS 写入问题

我有一个spark应用程序,它从Kafka读取数据并将数据写入HDFS。我的应用程序在几分钟内工作正常,但一段时间后它开始出现以下错误并失败。2018-01-0217:59:20LeaseRenewer:username@nameservicename[WARN]UserGroupInformation-PriviledgedActionExceptionas:username@REALM_NAME(auth:KERBEROS)cause:javax.security.sasl.SaslException:GSSinitiatefailed[CausedbyGSSException:N

hadoop - Hive 上的 Avro 动态模式更改

我有一些数据采用avro格式v1并存储在分区dt=yyyymmdd下的HDFS中。现在数据在同一个分区下维护了两个版本,v1和v2。为两个不同的版本维护一个hive表是否可行? 最佳答案 Avrodefinesaschemaevolutionprotocol例如,如果v2只是添加了一个具有默认值的字段,然后使用该架构更新表,它可以读取全部旧数据,因为它会简单地返回默认值缺失的地方。如果你破坏了兼容性,你必须创建一个单独的表,然后将两者合并以获得一致的结果集 关于hadoop-Hive上的

hadoop - Hive进程内存大小

请您帮我理解Hive上下文中的512mb(以粗体突出显示)是什么?它的内存大小是多少?我在我的hive-site.xml文件中设置了exportHADOOP_HEAPSIZE=4192hadoop@master:~/hive/conf$ps-ef|grep'hive'hadoop558710Feb14?00:05:27/usr/lib/jvm/default-jdk/bin/java-Xmx4192m-Djava.net.preferIPv4Stack=true-Dhadoop.log.dir=/home/hadoop/hadoop-2.7.3/logs-Dhadoop.log.fil

hadoop - hive - 为什么 SLF4J : Class path contains multiple SLF4J bindings appears when I change output path

我需要将查询结果存储在工作流的工作区中。为此,我使用了:INSERTOVERWRITELOCALDIRECTORY'/apps/myProject/conf/oozie/workspaces/myWorkflow'ROWFORMATDELIMITEDFIELDSTERMINATEDBY','LINESTERMINATEDBY"\n"SELECT*FROMmyTableLIMIT10;但是我得到了错误:SLF4J:ClasspathcontainsmultipleSLF4Jbindings.SLF4J:Foundbindingin[jar:file:/opt/cloudera/parce

hadoop - 如何在 impala 或 hive 上读取复杂类型数组 <string>?

我尝试读取hive上的复杂类型dog.owners(array)使用以下查询selectdog_id,concat_ws(',',collect_set(owners))asownersfromdoggroupbydog_id但我收到以下错误Argument2offunctionCONCAT_WSmustbe"stringorarray",but"array>"wasfound.看起来数据类型不匹配。我试图将列所有者创建为array>但我仍然遇到同样的错误。有没有办法阅读关于hive或黑斑羚的专栏? 最佳答案 selectdog_i