草庐IT

mysql分区

全部标签

apache-spark - Spark Streaming to Hive,每个分区的小文件太多

我有一个批处理间隔为2分钟(可配置)的Spark流作业。此作业从Kafka主题读取并创建数据集并在其上应用模式并将这些记录插入到Hive表中。Spark作业在Hive分区中每个批处理间隔创建一个文件,如下所示:dataset.coalesce(1).write().mode(SaveMode.Append).insertInto(targetEntityName);现在传入的数据不是那么大,如果我将批处理持续时间增加到10分钟左右,那么即使我最终也可能只获得2-3mb的数据,这远小于block大小。这是SparkStreaming中的预期行为。我正在寻找有效的方法来进行后处理以合并所有

apache-spark - HadoopPartitions 的 Spark 的默认分区是如何计算的?

我正在阅读JacekLaskowski'sonlinebookaboutApacheSpark,关于分区,他说Bydefault,apartitioniscreatedforeachHDFSpartition,whichbydefaultis64MB我对HDFS不是很熟悉,但是我在复制这个声明时遇到了一些问题。我有一个名为Reviews.csv的文件,它是大约330MB的亚马逊食品评论文本文件。给定默认的64MBblock,我希望ceiling(330/64)=6分区。但是,当我将文件加载到我的SparkShell中时,我得到了9个分区:scala>valtokenized_logs=

JAVAFX + MySql实现: 图书管理系统( 完整版 附源码)

 应用知识JavaJavafxscensebuild构图工具,mysql的基础sql语句,JDBC(连接数据库,可把数据库里的数据提取出来),简单的css样式应用工具idear2020.1社区版Mysql8.0 sencebulid2.0(非必须)额外连接数据库jar包:mysql-connector-java-8.0.16.jar先展示一下部分效果以下是我建立的数据库里的表 数据库名为book,下面有5个表第一表:book储存图书信息 第二个表:person储存账号信息标题 第三个表send储存用户借阅图书信息第四个表:sendm储存管理员看到的被借阅图书的信息第五个表state储存作者信息

hadoop - HIVE中如何提高从非分区表加载数据到ORC分区表的性能

我是Hive查询的新手,我正在寻找从Hive表中检索数据的最佳实践。我们启用了TeZ执行引擎并启用了矢量化。我们想从Hive表进行报告,我从TEZ文档中读到它可以用于实时报告。场景来self的WEB应用程序,我想在UI上显示HiveQuerySelect*fromHive表的结果,但是对于任何查询,在hive命令提示符中至少需要20-60秒,即使hive表有60GB数据。1)谁能告诉我如何通过查询Hive表来显示实时报告并在10-30秒内立即在UI上显示结果2)我们发现的另一个问题是,当我们将未分区表中的数据转储到ORC时,最初我们有一个未分区表指向HDFS中的一个Blob/文件,它的

mysql - Hive 的 hour() 函数返回 12 小时时钟值

根据文档Hives标准函数hour()应该返回0到24之间的值,但出于某种原因我总是得到一个12小时时钟值,在0到12之间。我使用的是MySQLDateTime字段作为我的Hive表中的Timestamp字段。任何人都知道问题可能是什么? 最佳答案 我想我找到了。我查看了源代码,显然UDFHour.java确实有两个evaluate()函数。一种确实接受Text对象作为参数,另一种使用TimeStampWritable对象作为参数。两者都使用Calendar实例,但出于某种原因,第一个函数返回Calendar.HOUR_OF_DAY

【湖仓一体尝试】MYSQL和HIVE数据联合查询

爬了两天大大小小的一堆坑,今天把一个简单的单机环境的流程走通了,记录一笔。先来个完工环境照:mysql+hadoop+hive+flink+iceberg+trino得益于IBMOPENJ9的优化,完全启动后的内存占用:1)执行联合查询后的2)其中trino由于必须使用ORACLE或OPENJDK,只能再安装多一个JDK21的环境HIVE里ICEBERG的表和数据:--iceberg.test.my_tbldefinitionCREATETABLEiceberg.test.my_tbl(user_idinteger,user_namevarchar,countryvarchar,birthda

hadoop - Hive derby/mysql 安装

我有来自以下日志的2个查询:如何去除第一行WARN消息。为什么Hive提示xml格式正确或者我遗漏了什么。15/04/2318:26:58WARNconf.HiveConf:HiveConfofnamehive.metastore.localdoesnotexistLogginginitializedusingconfigurationinjar:file:/usr/lib/hive/lib/hive-common-1.1.0.jar!/hive-log4j.propertiesSLF4J:ClasspathcontainsmultipleSLF4Jbindings.SLF4J:Fou

java - SPARK 分区和 Worker Core 之间有什么区别?

我使用StandaloneSparkCluster来处理多个文件。当我执行驱动程序时,数据在使用它的核心的每个工作人员上进行处理。现在,我已经阅读了有关Partitions的内容,但我不知道它是否与WorkerCores不同。设置核心数和分区数有区别吗? 最佳答案 简单View:分区与内核数当您调用RDD的操作时,为其创建了一个“工作”。因此,Job是提交给spark的工作。作业根据洗牌边界分为“STAGE”!!!每个阶段根据RDD上的分区数进一步划分为任务。所以Task是spark的最小工作单元。现在,这些任务中有多少可以同时执行

hadoop - 用于处理大数据的 MySQL Cluster 与 Hadoop

我想知道使用MySQL集群和使用Hadoop框架的优点/缺点。什么是更好的解决方案。我想听听您的意见。我认为使用MySQL集群的优点是:高可用性良好的可扩展性高性能/实时数据访问您可以使用商用硬件而且我看不出有什么缺点!有没有Hadoop没有的缺点?Hadoop和Hive的优点是:也有很好的可扩展性您也可以使用商用硬件在异构环境中运行的能力使用MapReduce框架进行并行计算使用HiveQL的Hive缺点是:没有实时数据访问。分析数据可能需要几分钟或几小时。所以在我看来,对于处理大数据,MySQL集群是更好的解决方案。为什么Hadoop是处理大数据的chalice?你怎么看?

hadoop - Hive Metastore 尝试创建 Derby 连接而不是 MySQL

我在本地模式下使用Hive0.11和Metastore。当我尝试启动Metastore守护进程时,它在发出以下错误消息后退出:2013-11-2108:47:19.541GMT线程[main,5,main]java.io.FileNotFoundException:derby.log(权限被拒绝)2013-11-2108:47:19.646GMT线程[main,5,main]清理操作开始错误XBM0H:无法创建目录/metastore_db。这是我的hive-site.xml.我使用MySQL作为Metastore存储。我不明白的是为什么Hive试图在本地创建metastore_db。