草庐IT

spark-hive

全部标签

apache-spark - Spark 独立设置中的内存使用情况

我有一个spark设置,其中有一个worker有6个核心。现在我向工作人员广播一个对象x。我有三个问题-对于mapreduce作业,将生成我的objx的6个副本还是x的单个副本将由所有核心共享?x的生命周期是什么,即;它什么时候会被摧毁。我问是因为这个对象x占用了大量内存。如果我从文件中读取对象,是否有其他方法可以在所有6个内核之间共享该对象。 最佳答案 广播数据在每个执行器(java进程)中传输和存储一次,而不是每个内核一次。换句话说,如果您只有一个节点,并且将spark.executor.instances设置为2,并将spar

hadoop - 为什么 Hive 返回 FAILED : SemanticException. ..Unable To Instantiate

我已经安装了Hive,将它添加到PATH,并且能够在终端中使用hive命令打开它。但是,当我尝试运行诸如之类的基本命令时显示表格;我遇到了错误:失败:SemanticExceptionorg.apache.hadoop.hive.ql.metadata.HiveException:java.lang.RuntimeException:无法实例化org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient我遵循的说明并未建议必须实例化任何内容。作为引用,我正在使用Hadoop:权威指南(第4版)一书并在我的机器上本地运行它。运

apache-spark - Spark 与 Hadoop yarn : Use the entire cluster nodes

我将Spark与HDFSHadoop存储和Yarn结合使用。我的集群包含5个节点(1个主节点和4个从节点)。主节点:48GbRAM-16个CPU内核从属节点:12GbRAM-16个CPU内核我正在执行两个不同的进程:WordCount方法和带有两个不同文件的SparkSQL。一切正常,但我在问一些问题,也许我不太了解Hadoop-Spark。第一个例子:WordCount我执行了WordCount函数并在两个文件(part-00000和part-00001)中得到了结果。part-00000的可用性是slave4和slave1,part-00001的可用性是slave3和slave4。

hadoop - 如何从与 hbase 集成的 hive 表中获取最新版本数据?

如果我在hbase中的表有3个版本,并且我已经将ahive表集成到这个hbase表中。那么如何从配置单元表中只读取最新版本的记录呢? 最佳答案 Hbase-Hive集成表只显示记录的最新版本,我们无法从hive表中查询任何版本而不是最新版本。当我们再次将相同的rowkey写入hbase表时,Hbase会覆盖现有数据,如果rowkey不存在,则插入到表中如果你想在hbase表中查看旧版本,那么你需要在扫描命令中指定版本,我们需要创建(或)更改hbase表来存储版本。hbase(main):>create't2',{NAME=>'f2'

apache-spark - 用于点击流分析的 AWS S3 数据格式

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。关闭4年前。Improvethisquestion我们使用Kafka队列从不同设备收集json格式的点击流数据。我们需要通过Hive(或者可能是Spark)分析这些数据。我们考虑使用每小时分区,我们将每小时调用我们的hive/spark作业。我阅读了有关不同文件格式的信息,但无法确定最佳文件格式以获得更好的查询性能。我们试图在s3中以avro格式保存json数据,但查询速度很慢。我们可能会将json数据以柱状格式插入

apache-spark - 解决 NoClassDefFoundError : org/apache/spark/Logging exception

我正在试用hbase-spark连接器。首先,我正在尝试this代码。我的pom依赖项是:org.apache.sparkspark-core_2.112.0.0org.apache.sparkspark-sql_2.112.0.0org.apache.hbasehbase-spark2.0.0-alpha4运行代码时出现以下异常:Exceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/spark/Loggingatjava.lang.ClassLoader.defineClass1(NativeMethod)a

apache-spark - Spark - 获取部分文件后缀

当Spark使用Hadoopwriter写入部分文件时(使用saveAsTextFile()),这是它保存文件的通用格式“part-NNNNN”。如何在运行时在Spark中检索这个后缀“NNNNN”?附言。我不想列出文件然后检索后缀。 最佳答案 文件名为part-00000、part-00001等。每个RDD分区都写入一个part-文件。因此,输出文件的数量将取决于正在写入的RDD中的分区。您可以检查正在写入的RDD的分区数(比如5),然后访问文件part-00000到part-00004。插图通过查询Hive表构建DataFram

hadoop - Presto 查询无法将数据插入 Hive

我正在尝试将数据插入配置单元。为此,我使用Presto。这是我的查询:insertintocard_transactions_part_buckpartition(tran_year,tran_month,tran_day)selecttran_id,tran_uid,tran_date,tran_category,tran_category_id,tran_type,tran_type_id,tran_ingress_ip_address,tran_ingress_api_name,tran_ingress_api_id,platform,platform_id,card_type,

Hadoop 生态系统 : Map Reduce needed for Pig/Hive

互联网上有很多hadoop生态系统图片,所以我很难理解这些工具是如何协同工作的。例如在附图中,为什么pig和hive是基于mapreduce的,而其他工具如spark或storm基于YARN?你能解释一下吗?谢谢!BRhaddopecosystem 最佳答案 图片显示了MapReduce之上的Pig和Hive。这是因为MapReduce是Pig和Hive使用的分布式计算引擎。Pig和Hive查询作为MapReduce作业执行。使用Pig和Hive更容易,因为它们提供了更高级别的抽象来使用MapReduce。现在我们来看一下图中YAR

sql - hive 喜欢 [0-9]

我正在尝试编写一个HIVEcase语句,其中如果一个字段包含数字8/9作为第一个字符,第二个字符包含0-9之间的任何数字,最后一个字段包含A-E之间的任何字母,则它将从字符串中删除它。我拥有的有效代码(大部分)是:CaseWhenSubstr(Upper(Trim(MBRCHR)),-3)like'9_A'orSubstr(Upper(Trim(MBRCHR)),-3)like'9_B'orSubstr(Upper(Trim(MBRCHR)),-3)like'9_C'orSubstr(Upper(Trim(MBRCHR)),-3)like'9_D'orSubstr(Upper(Trim