spark-hive

hadoop - 在 Apache Spark 中使用 Reduce

我正在尝试使用Apachespark加载一个文件，并将该文件分发到我集群中的多个节点，然后聚合结果并获取它们。我不太明白该怎么做。根据我的理解，reduce操作使Spark能够组合来自不同节点的结果并将它们聚合在一起。我的理解正确吗？从编程的角度来看，我不明白我将如何编写这个reduce函数。我究竟如何将主数据集分成N个部分，并使用转换列表要求它们并行处理？reduce应该接受两个元素和一个将它们组合起来的函数。这两个元素应该是Spark上下文中的RDD，还是可以是任何类型的元素？另外，如果你有N个不同的分区并行运行，如何减少将它们的所有结果聚合为一个最终结果(因为reduce函数只聚

apache - 创建分区 View 时 Hive 出错

我有一个“日志”表，该表当前按年、月和日进行分区。我想在“日志”表的顶部创建一个分区View，但遇到了这个错误:hive>CREATEVIEWlog_viewPARTITIONEDON(pagename,year,month,day)ASSELECTpagename,year,month,day,uid,propertiesFROMlog;FAILED:SemanticException[Error10093]:RightmostcolumnsinviewoutputdonotmatchPARTITIONEDONclause创建分区View的正确方法是什么？

apache View section pagename PARTITIONED hadoop hive hdfs hiveql

hadoop - Hive 在多列上对 null 的奇怪处理？

这个查询:SELECTcount(distinctfield1,field2,field3,field4)FROMSOME_TABLE返回与此查询不同(更小)的计数:SELECTcount(distinctcoalesce(field1,"null"),coalesce(field2,"null"),coalesce(field3,"null"),coalesce(field4,"null"))FROMSOME_TABLE我希望结果是相同的。对此有解释吗？最佳答案您看到不同结果的原因有两点:COUNT(DISTINCT(...)

多列 hadoop code field section hive hiveql

hadoop - 无法减去涉及 Hive 查询中别名的两列

我正在尝试执行以下查询，其中我使用窗口来获取下一个日志时间戳，然后在它和当前时间戳之间进行减法。SELECTLEAD(timestamp)OVER(PARTITIONBYidORDERBYtimestamp)ASlead_timestamp,timestamp,(lead_timestamp-timestamp)asdeltaFROMlogs;但是，当我这样做时，出现以下错误:失败:SemanticException[错误10004]:第4:1行无效的表别名或列引用“lead_timestamp”:(可能的列名称为:logs.timestamp、logs.latitude、logs.l

hadoop Hive timestamp lead_timestamp section

hadoop - Spark RDD : Get row number

如何从当前正在处理的RDD中获取行号:valrdd2=rdd1.filter(row=>{//getrownumber}true}) 最佳答案 valrdd2=rdd1.zipWithIndex.filter{case(row,index)=>{//rownumberisindex.(butisnotfixed,unlessRDDissorted)} 关于hadoop-SparkRDD:Getrownumber，我们在StackOverflow上找到一个类似的问题：

hadoop number section 行号 code apache-spark rdd

hadoop - 作为 Map only 作业执行的 Hive 查询

最近遇到一个问题WillallHivequeriesbeconvertedintomapandreducejobs?我知道Hive查询被转换为一系列MapReduce作业。我不是在谈论在Hive中调用外部脚本。是否存在不需要reduce作业且Hive可以通过Map作业本身获得结果的情况。你有什么想法？最佳答案是的。这仅取决于您正在运行的作业类型。例如，如果您有一个具有架构(姓名、ID、部门)的员工表。以下查询运行仅map作业。Mapper从配置单元表中接收(Name,id,department)作为值，并发出Name和Nullw

hadoop Hive section strong mapreduce hiveql hadoop2

hadoop - AWS Hive + Kinesis on EMR = 了解检查点

我有一个AWSKinesis流，我在Hive中创建了一个指向它的外部表。然后，我为检查点创建了一个DynamoDB表，并在我的Hive查询中设置了以下属性，如here:所述setkinesis.checkpoint.enabled=true;setkinesis.checkpoint.metastore.table.name=my_dynamodb_table;setkinesis.checkpoint.metastore.hash.key.name=HashKey;setkinesis.checkpoint.metastore.range.key.name=RangeKey;setk

Kinesis hadoop blockquote amazon-web-services hive emr amazon-kinesis

hadoop - 表显示 CLI 中的 Hive 分区，但无法通过终端访问

当我使用命令showpartitions时，我可以在Hive中看到日期分区。但是，当我尝试通过hadoopfs-ls/path/to/partition访问该文件夹时，我收到消息Nosuchfileordirectory。我不确定为什么会这样？即使里面没有数据，我也不能去那个日期分区文件夹吗(我也不能将数据移动到这个分区) 最佳答案您必须遵循以下步骤:创建托管/内部表CREATETABLEstations(numberSTRING,latitudeINT,longitudeINT,elevationINT,nameSTRING,c

hadoop Hive section STRING strong

scala - 在 Spark RDD Println Error 中，如何显示 [Ljava.lang.String;@8e6606 等数据

我在使用Scala时遇到ApacheSpark的一个问题。我正在尝试创建一个Spark应用程序，它根据用户输入打印一个RDD。输入数据是这样的:List("aaaa","aaaa","dfddf","aaaa","aaaa","dfddf","aaaa","aaaa","dfddf","aaaa","aaaa","dfddf","aaaa","aaaa","dfddf")代码是这样的:valwSchemaString="col1col2col3col4";valwSchema=StructType(wSchemaString.split("").map(fieldName=>Struc

Println String 34 aaaa scala hadoop apache-spark hadoop-yarn rdd

Hive讲课笔记：内部表与外部表

文章目录零、学习目标一、导言二、内部表1.1什么是内部表1.1.1内部表的定义1.1.2内部表的关键特性1.2创建与操作内部表1.2.1创建并查看数据库1.2.2创建数据表1.2.3插入表记录1.2.4通过HDFSWebUI查看数据库与表三、外部表2.1什么是外部表2.2创建与操作外部表2.2.1在虚拟机上建文本文件2.2.2上传文件到HDFS指定目录2.2.3基于HDFS目录创建外部表2.2.4查询外部表记录2.2.5在MySQL里查看hive元数据信息四、内部表与外部表的区别3.1区别体现在删除表3.2通过实验进行验证3.2.1删除内部表3.2.2删除外部表3.2.3查看MySQL里hiv

讲课外部数据 code li hive 内部表外部表

81 82 838485 86 87