草庐IT

test_hive

全部标签

r - 无法在 dplyr.spark.hive 包中创建由 SparkSQL 支持的 dplyr src

最近我发现了很棒的dplyr.spark.hive启用dplyr的软件包前端操作spark或hive后端。在包的README中有关于如何安装此包的信息:options(repos=c("http://r.piccolboni.info",unlist(options("repos"))))install.packages("dplyr.spark.hive")还有很多关于如何使用dplyr.spark.hive的例子当一个已经连接到hiveServer-checkthis.但我无法连接到hiveServer,所以我无法从这个包的强大功能中受益...我试过这样的命令,但没有成功。有没有人

csv - HIVE 因不工作而逃脱 '\\'

我在S3中有一个数据集123,"一些随机的文本","","",236我在此数据集上构建了一个外部表:CREATEEXTERNALTABLEdb1.myData(field1bigint,field2string,field3string,field4string,field5bigint,ROWFORMATDELIMITEDFIELDSTERMINATEDBY','ESCAPEDBY'\\'LOCATION's3n://thisMyData/';问题/议题:当我做从db1.myData中选择*field2显示为somerandom我需要的字段是somerandom,text陷阱:1.我

hadoop - 来自 CSV 的 Hive 表。引号中的行终止

我尝试从保存到HDFS中的CSV文件创建表格。问题是csv包含引号内的换行符。CSV格式的记录示例:ID,PR_ID,SUMMARY2063,1184,"ThisisproblemfieldbecauseconsistslinebreakThisisnotnewrecordbutitispartoftextofthirdcolumn"我创建了配置单元表:CREATETEMPORARYEXTERNALTABLEhive_database.hive_table(IDSTRING,PR_IDSTRING,SUMMARYSTRING)rowformatserde'com.bizo.hive.s

scala - 每个列值的 Spark 计数和百分比异常处理和加载到 Hive DB

在下面的ScalaSpark代码中,我需要找到不同列的计数及其值的百分比。为此,我需要对每一列使用withColumn方法,例如date、usage、payment、dateFinal,usageFinal,paymentFinal。对于每个计算,我都需要使用withColumn来获取总和和聚合。有什么方法可以让我不用写,.withColumn("SUM",sum("count").over()).withColumn("fraction",col("count")/sum("count").over()).withColumn("Percent",col("fraction")*10

hadoop - Hive Tez reducer 运行速度超慢

我加入了多个表,总行数约为250亿行。最重要的是,我正在做聚合。下面是我的配置单元设置,我用它来生成最终输出。我不太确定如何调整查询并使其运行得更快。目前,我正在反复试验,看看是否能产生一些结果,但似乎没有用。Mappers运行得更快,但reducers需要很长时间才能完成。谁能分享您对此的看法?谢谢。SEThive.execution.engine=tez;SEThive.exec.dynamic.partition.mode=nonstrict;SEThive.qubole.cleanup.partial.data.on.failure=true;SEThive.tez.conta

date - hive 中是否有将纪元时间转换为标准日期的函数?

to_date函数将此“1970-11-0100:00:00”作为输入并返回“1970-11-01”。但我有纪元时间作为输入。如何将其转换为标准日期格式?有一个函数可以将标准日期转换为unix纪元时间,但反之则不行。感谢任何帮助。谢谢普里扬克 最佳答案 发件人:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-DateFunctionsfrom_unixtime(bigintunixtime[,stringfor

amazon-s3 - 为什么一个hive查询的结果会拆分成多个文件

我设置了一个AmazonElasticMapreduce作业来运行配置单元查询CREATEEXTERNALTABLEoutput_dailies(daystring,typestring,subTypestring,productstring,productDetailsstring,uniqueUsersint,totalUsersint)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t'LINESTERMINATEDBY'\n'STOREDASTEXTFILELOCATION'${OUTPUT}';INSERTOVERWRITETABLEoutput_

database - Hadoop/Hive 查询将一列拆分为几列

我正在使用HIVE和两个看起来像(或多或少)的表:-TABLE1定义为[(Variables:string),(Value1:int),(Value2:int)]字段“变量”看起来像“x0,x1,x2,x3,...,xn”-TABLE2定义为[(Value1Sum:int),(Value2Sum:int),(X1:string),(X4:string),(X17:string)]我使用以下查询将table1“转换”为table2:INSERTOVERWRITETABLEtable2SELECTsum(v1),sum(v2),x1,x4,x17FROM(SELECTValue1asv1,

hadoop - 从 MapReduce 作业向 Hive 添加分区

我是Hive和MapReduce的新手,非常感谢您的回答并提供正确的方法。我在hive中定义了一个外部表logs,在日期和源服务器上分区,外部位置在hdfs/data/logs/上。我有一个MapReduce作业,它获取这些日志文件并将它们拆分并存储在上述文件夹下。喜欢"/data/logs/dt=2012-10-01/server01/""/data/logs/dt=2012-10-01/server02/"......在MapReduce作业中,我想将分区添加到Hive中的表日志中。我知道这两种方法altertable命令--太多的altertable命令添加动态分区对于方法二,我

xml - 如何将xml文件加载到Hive中

我在处理Hive表时遇到以下问题。我的HDFS中有超过10亿个xml文件。我想要做的是,每个xml文件都有4个不同的部分。现在我想为每个xml文件拆分并加载每个表中的每个部分示例:1233222//havinglotofxmltages//havinglotofxmltages//havinglotofxmltages//havinglotofxmltages我有四张tablesection1Tableidsection1//fieldssection2Tableidsection2section3Tableidsection3section4Tableidsection4现在我想将数