spark-hive_草庐IT

hadoop - Hive - Hive 如何在内部执行多个 BIG 表连接查询(在 MapReduce 中)以及如何对其进行优化？

假设我有4-5个所有大表(TB中的数据)并且我想将它们连接到配置单元中。Hive内部(在MapReduce中)如何以最佳方式执行连接。最佳答案可以使用Bucketized-Join或Sort-Merge-Join以最佳方式连接许多大表，请参阅HIVEJoinstrategies.所有表都需要进行相应的结构化(相同的存储桶，或以相同的方式排序和存储)。如果您的表的组织方式不同(存储相同)，那么剩下的唯一选择就是随机连接，这将复制整个表(慢)。关于hadoop-Hive-Hive如何在

apache-spark - Snappydata 和外部 Hive 兼容性

我正在尝试使用Snappydata1.0.1从Hadoop(HDP2.6.3)读取和处理数据。当指向Hivemetastore(通过Snappydata配置中的hive-site.xml)时，来自Snappydata发行版的Spark可以读取数据库列表，但不能在Snappydata中创建表。它告诉“找不到表”。此外，Snappydata集群UI显示该表，但Snappydata无法进一步使用它-使用此表的INSERT、SELECT、DROP命令会抛出表未找到错误，随后的CREATETABLE会提示“表已存在”。在不指定Hive元存储的情况下，它运行良好。hive-site.xml中的配置

apache-spark Snappydata section 中创 hadoop hive

apache-spark - 查找事件的 Hadoop 镜像

这个问题在这里已经有了答案:FindingtheclosestApacheSoftwareFoundationmirrorprogramatically(3个答案)关闭4年前。我目前正在使用启动EC2实例并从二进制文件安装Hadoop/Spark的设置脚本。作者目前已经硬编码了来自this的镜像。列表，但任何镜像都可以随时更改/删除。是否有更“有原则”的方式来获取Apache项目的镜像/下载位置？

apache-spark apache section notice span hadoop

hadoop - Hive:Decimal(12,9) 的列类型使用 JSONSerDe 抛出 NullPointerException

我有一个指向json数据的外部表。我正在使用serdeorg.apache.hive.hcatalog.data.JsonSerDe。我使用DDL在这个外部表之上创建了一个View:CREATEVIEW`my_table`ASSELECTa.col1,a.col2,......a.longitude,a.latitudeFROM(SELECTmytable.body.col1,mytable.body.col2,......mytable.body.longitude,mytable.body.latidute,ROW_NUMBER()OVER(PARTITIONBYmytable.b

NullPointerException JSONSerDe java apache TezTaskRunner hadoop hive hiveql hadoop2

apache-spark - Spark 独立集群 :Configuring Distributed File System

我刚刚从Spark本地设置迁移到Spark独立集群。显然，加载和保存文件不再有效。我了解我需要使用Hadoop来保存和加载文件。我的Spark安装是spark-2.2.1-bin-hadoop2.7问题1:我仍然需要单独下载、安装和配置Hadoop以与我的独立Spark集群一起工作，我是否正确？问题2:使用Hadoop运行和使用Yarn运行有什么区别？...哪个更容易安装和配置(假设数据负载相当轻)？最佳答案 A1。正确的。你提到的包只是打包了指定版本的hadoop客户端，如果你想使用hdfs，你仍然需要安装hadoop。A2。使

apache-spark Configuring section strong Spark hadoop

apache-spark - spark 谓词下推不适用于 phoenix hbase 表

我正在处理spark-hive-hbase集成。这里使用phoenixhbase表进行集成。Phoenix:**apache-phoenix-4.14**HBase:**hbase-1.4**spark:**spark-2.3**hive:**1.2.1**我正在使用sparkthrift服务器并使用jdbc访问表。我测试的几乎所有基本功能都运行良好。但是当我从spark提交查询时，它会在没有where条件的情况下提交给phoenix并且所有过滤都发生在spark端。如果表有数十亿的数据，我们就不能这样做。示例:Input-query:select*fromhive_hbasewher

spark apache-spark section strong hadoop hive hbase apache-phoenix

amazon-web-services - spark aws S3a ARN(亚马逊资源名称)IAM 角色

我正在使用spark2.3.0和Hadoop2.7(但如果需要我可以升级)我想访问具有ARN(亚马逊资源名称)IAM角色的S3文件https://docs.aws.amazon.com/cli/latest/userguide/cli-multiple-profiles.html我已经看过这个Howtoaccesss3a://filesfromApacheSpark?但是没有关于IAM访问的问题publicclasstest{publicstaticvoidmain(String[]args){SparkSessionsc=newSparkSession.Builder().appNa

amazon-web-services services hadoop noreferrer noopener apache-spark amazon-s3 amazon-iam

apache-spark - 如何在没有 Hadoop 的情况下让 Spark 在 Windows 10 上运行？

我试图让Spark在Windows10上运行，但我总是遇到错误。我已经彻底研究过，但仍然遇到问题，这是我所做的:已安装JDK1.8。(工作正常)已安装Anaconda3(工作正常)解压Spark2.3.1从here下载了winutils.exe并将它放在.\Hadoop\bin\中(除了这个文件之外，Hadoop文件夹的其余部分是空的——有人告诉我我不需要Hadoop)设置环境变量如下:用户变量:PATH=.\Continuum\anaconda3系统变量:JAVA_HOME=.\Java\jdk1.8.0_161HADOOP_HOME=.\HadoopPYSPARK_DRIVER_P

何在 apache-spark apache spark scala hadoop pyspark

scala - 使用 spark 仅列出文件夹中的文件名

我必须列出文件夹中的所有文件，并根据文件名将文件保存在不同的文件夹中，使用spark.我写了下面的代码但出现错误splitisnotamemberoforg.hadoop,whileusingoperatorsplit.下面是我的代码，任何人都可以建议我如何消除或克服这个错误。importorg.apache.spark.sql.SparkSessionimportscala.io.Sourceimportorg.apache.hadoop.conf.Configurationimportscala.io.Sourceimportorg.apache.spark.sql.functio

scala spark import val apache apache-spark hadoop

hadoop - Hive 查询以根据多个可选键分配分组键

我们有一个包含三个不同ID的Hive表，所有ID都是可选的。在每一行中，必须至少提供三个ID中的一个。如果提供了多个ID，这将在多个ID之间建立等价关系。我们需要根据在任何行中建立的等价关系，为每一行分配一个唯一的主ID。例如:Lineid1id2id3masterID--------------------------------------(1)A1M1(2)A2M1(3)A3M1(4)A1A2M1(5)A2A3M1(6)B1A2M1(7)C1C3M2因为在第4行，A1和A2都存在，我们知道这些ID是等价的。同样，在第5行，A2和A3都存在，我们知道这些ID也是等价的。同样在第6行

hadoop Hive table select section mapreduce hadoop2