HIVE

hadoop - 使用 Impala 访问 Hbase 表时，所有 SQL 操作是否都有效？

HBase不允许对其表进行连接操作。为了克服这个问题，我计划创建HBase表并通过Impala访问它。Impala允许所有连接以及分组依据和其他SQL操作。我对此几乎没有疑问-有人测试过这种方法吗？所有可用的SQL操作是否同样有效impala与Hive一起工作？我试图在cloudera的文档中找到答案，但没有明确的答案。最佳答案 “明确答案”一词取决于您要查找的参数...Q1:Hasanyonetestedthisapproach?是的，Impala的这种方法-hbase外部表是可行的，因为我们已经为即席查询做了同样的事情。然而，

hadoop - "LOAD DATA LOCAL INPATH"如何到远程hiveserver

我想使用“LOADDATALOCALINPATH..”在本地机器上导入文件但是，我不能导入$beeline-ujdbc:hive2://example:10000-e"LOADDATALOCALINPATH'tmp/file_20161024.dat'OVERWRITEINTOTABLEsome_tablePARTITION(dt=20161024);"Connectingtojdbc:hive2://example:10000Connectedto:ApacheHive(version2.1.0)Driver:HiveJDBC(version1.2.1)Transactionisol

hiveserver amp 20161024 code section hadoop hive beeline

hadoop - 如何强制 CTAS 生成单个文件？

我正在使用HDP2.5和Hive服务。当我使用以下查询创建配置单元表时；createtableSample_tablerowformatdelimitedfieldsterminatedby'|'storedastextfileASselect*fromsample_table_uniquewherestate='AL';要么我可以创建具有特定位置的外部表。我的问题是，当我创建表/外部表时，存储的文件已被拆分，即。如下图所示，明智的文件已被拆分。/apps/hive/warehouse/sampledb/sample_table:00000_0,00001_0,00002_0,0000

hadoop CTAS code hive section hdfs

hadoop - 来自 CSV 的 Hive 表。引号中的行终止

我尝试从保存到HDFS中的CSV文件创建表格。问题是csv包含引号内的换行符。CSV格式的记录示例:ID,PR_ID,SUMMARY2063,1184,"ThisisproblemfieldbecauseconsistslinebreakThisisnotnewrecordbutitispartoftextofthirdcolumn"我创建了配置单元表:CREATETEMPORARYEXTERNALTABLEhive_database.hive_table(IDSTRING,PR_IDSTRING,SUMMARYSTRING)rowformatserde'com.bizo.hive.s

引号 hadoop 34 code section hive opencsv

scala - 每个列值的 Spark 计数和百分比异常处理和加载到 Hive DB

在下面的ScalaSpark代码中，我需要找到不同列的计数及其值的百分比。为此，我需要对每一列使用withColumn方法，例如date、usage、payment、dateFinal，usageFinal，paymentFinal。对于每个计算，我都需要使用withColumn来获取总和和聚合。有什么方法可以让我不用写，.withColumn("SUM",sum("count").over()).withColumn("fraction",col("count")/sum("count").over()).withColumn("Percent",col("fraction")*10

scala Spark 34 coll withColumn apache-spark hadoop hive apache-spark-sql

hadoop - Hive Tez reducer 运行速度超慢

我加入了多个表，总行数约为250亿行。最重要的是，我正在做聚合。下面是我的配置单元设置，我用它来生成最终输出。我不太确定如何调整查询并使其运行得更快。目前，我正在反复试验，看看是否能产生一些结果，但似乎没有用。Mappers运行得更快，但reducers需要很长时间才能完成。谁能分享您对此的看法？谢谢。SEThive.execution.engine=tez;SEThive.exec.dynamic.partition.mode=nonstrict;SEThive.qubole.cleanup.partial.data.on.failure=true;SEThive.tez.conta

reducer hadoop hive SET true query-optimization hiveql apache-tez

date - hive 中是否有将纪元时间转换为标准日期的函数？

to_date函数将此“1970-11-0100:00:00”作为输入并返回“1970-11-01”。但我有纪元时间作为输入。如何将其转换为标准日期格式？有一个函数可以将标准日期转换为unix纪元时间，但反之则不行。感谢任何帮助。谢谢普里扬克最佳答案发件人:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-DateFunctionsfrom_unixtime(bigintunixtime[,stringfor

date hive section LanguageManualUDF-DateFunctions https hadoop epoch

amazon-s3 - 为什么一个hive查询的结果会拆分成多个文件

我设置了一个AmazonElasticMapreduce作业来运行配置单元查询CREATEEXTERNALTABLEoutput_dailies(daystring,typestring,subTypestring,productstring,productDetailsstring,uniqueUsersint,totalUsersint)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t'LINESTERMINATEDBY'\n'STOREDASTEXTFILELOCATION'${OUTPUT}';INSERTOVERWRITETABLEoutput_

成多 amazon-s section string productDetails amazon-s3 hadoop hive amazon-emr

database - Hadoop/Hive 查询将一列拆分为几列

我正在使用HIVE和两个看起来像(或多或少)的表:-TABLE1定义为[(Variables:string),(Value1:int),(Value2:int)]字段“变量”看起来像“x0,x1,x2,x3,...,xn”-TABLE2定义为[(Value1Sum:int),(Value2Sum:int),(X1:string),(X4:string),(X17:string)]我使用以下查询将table1“转换”为table2:INSERTOVERWRITETABLEtable2SELECTsum(v1),sum(v2),x1,x4,x17FROM(SELECTValue1asv1,

database Hadoop section Value table hive

hadoop - 从 MapReduce 作业向 Hive 添加分区

我是Hive和MapReduce的新手，非常感谢您的回答并提供正确的方法。我在hive中定义了一个外部表logs，在日期和源服务器上分区，外部位置在hdfs/data/logs/上。我有一个MapReduce作业，它获取这些日志文件并将它们拆分并存储在上述文件夹下。喜欢"/data/logs/dt=2012-10-01/server01/""/data/logs/dt=2012-10-01/server02/"......在MapReduce作业中，我想将分区添加到Hive中的表日志中。我知道这两种方法altertable命令--太多的altertable命令添加动态分区对于方法二，我

MapReduce hadoop code section partitionValues hive partitioning

116 117 118119120 121 122