草庐IT

Spark-Hive

全部标签

hadoop - Hive 在多列上对 null 的奇怪处理?

这个查询:SELECTcount(distinctfield1,field2,field3,field4)FROMSOME_TABLE返回与此查询不同(更小)的计数:SELECTcount(distinctcoalesce(field1,"null"),coalesce(field2,"null"),coalesce(field3,"null"),coalesce(field4,"null"))FROMSOME_TABLE我希望结果是相同的。对此有解释吗? 最佳答案 您看到不同结果的原因有两点:COUNT(DISTINCT(...)

hadoop - 无法减去涉及 Hive 查询中别名的两列

我正在尝试执行以下查询,其中我使用窗口来获取下一个日志时间戳,然后在它和当前时间戳之间进行减法。SELECTLEAD(timestamp)OVER(PARTITIONBYidORDERBYtimestamp)ASlead_timestamp,timestamp,(lead_timestamp-timestamp)asdeltaFROMlogs;但是,当我这样做时,出现以下错误:失败:SemanticException[错误10004]:第4:1行无效的表别名或列引用“lead_timestamp”:(可能的列名称为:logs.timestamp、logs.latitude、logs.l

hadoop - Spark RDD : Get row number

如何从当前正在处理的RDD中获取行号:valrdd2=rdd1.filter(row=>{//getrownumber}true}) 最佳答案 valrdd2=rdd1.zipWithIndex.filter{case(row,index)=>{//rownumberisindex.(butisnotfixed,unlessRDDissorted)} 关于hadoop-SparkRDD:Getrownumber,我们在StackOverflow上找到一个类似的问题:

hadoop - 作为 Map only 作业执行的 Hive 查询

最近遇到一个问题WillallHivequeriesbeconvertedintomapandreducejobs?我知道Hive查询被转换为一系列MapReduce作业。我不是在谈论在Hive中调用外部脚本。是否存在不需要reduce作业且Hive可以通过Map作业本身获得结果的情况。你有什么想法? 最佳答案 是的。这仅取决于您正在运行的作业类型。例如,如果您有一个具有架构(姓名、ID、部门)的员工表。以下查询运行仅map作业。Mapper从配置单元表中接收(Name,id,department)作为值,并发出Name和Nullw

hadoop - AWS Hive + Kinesis on EMR = 了解检查点

我有一个AWSKinesis流,我在Hive中创建了一个指向它的外部表。然后,我为检查点创建了一个DynamoDB表,并在我的Hive查询中设置了以下属性,如here:所述setkinesis.checkpoint.enabled=true;setkinesis.checkpoint.metastore.table.name=my_dynamodb_table;setkinesis.checkpoint.metastore.hash.key.name=HashKey;setkinesis.checkpoint.metastore.range.key.name=RangeKey;setk

hadoop - 表显示 CLI 中的 Hive 分区,但无法通过终端访问

当我使用命令showpartitions时,我可以在Hive中看到日期分区。但是,当我尝试通过hadoopfs-ls/path/to/partition访问该文件夹时,我收到消息Nosuchfileordirectory。我不确定为什么会这样?即使里面没有数据,我也不能去那个日期分区文件夹吗(我也不能将数据移动到这个分区) 最佳答案 您必须遵循以下步骤:创建托管/内部表CREATETABLEstations(numberSTRING,latitudeINT,longitudeINT,elevationINT,nameSTRING,c

scala - 在 Spark RDD Println Error 中,如何显示 [Ljava.lang.String;@8e6606 等数据

我在使用Scala时遇到ApacheSpark的一个问题。我正在尝试创建一个Spark应用程序,它根据用户输入打印一个RDD。输入数据是这样的:List("aaaa","aaaa","dfddf","aaaa","aaaa","dfddf","aaaa","aaaa","dfddf","aaaa","aaaa","dfddf","aaaa","aaaa","dfddf")代码是这样的:valwSchemaString="col1col2col3col4";valwSchema=StructType(wSchemaString.split("").map(fieldName=>Struc

Hive讲课笔记:内部表与外部表

文章目录零、学习目标一、导言二、内部表1.1什么是内部表1.1.1内部表的定义1.1.2内部表的关键特性1.2创建与操作内部表1.2.1创建并查看数据库1.2.2创建数据表1.2.3插入表记录1.2.4通过HDFSWebUI查看数据库与表三、外部表2.1什么是外部表2.2创建与操作外部表2.2.1在虚拟机上建文本文件2.2.2上传文件到HDFS指定目录2.2.3基于HDFS目录创建外部表2.2.4查询外部表记录2.2.5在MySQL里查看hive元数据信息四、内部表与外部表的区别3.1区别体现在删除表3.2通过实验进行验证3.2.1删除内部表3.2.2删除外部表3.2.3查看MySQL里hiv

hadoop - Apache Spark S3 错误

我正在尝试将amazons3连接到Sparkstreaming。我在本地机器上运行代码并尝试从s3流式传输到Spark,但出现以下错误:java.io.IOException:NoFileSystemforscheme:s3n你能帮我解决同样的问题吗? 最佳答案 您可以通过在您的spark上下文的hadoop配置中指定s3n方案的实现来解决它:sparkContext.hadoopConfiguration.set("fs.s3.impl","org.apache.hadoop.fs.s3native.NativeS3FileSys

scala - 如何在现有的 Hadoop 2.x 中使用 spark

我们已经在服务器上安装了Hadoop2.5。是不是可以用那个Hadoop来部署Spark程序呢?我希望Spark使用现有的Yarn来调度任务,并能够读写现有的HDFS。我怎样才能做到这一点? 最佳答案 您可以尝试使用可用的ApacheSpark预构建下载https://spark.apache.org/downloads.html如果那没有解决,那么你需要通过添加你的hadoopjar来构建sparkhttps://spark.apache.org/docs/latest/building-spark.html很简单然后您的Spar