spark-hive

hadoop - 如何在cloudera quickstartVM -5.7.0中获取默认的HIVE_HOME？

如何在cloudera-quickstartVM-5.7中获取环境变量$HIVE_HOME的值？试图通过printenv查看存在的环境变量，它不存在。最佳答案 HIVE_HOME在调用hiveshell时设置。以下是找到HIVE_HOME的三种方法从hive命令行:[cloudera@quickstart~]$hive-e'!env'|grepHIVE_HOMEHIVE_HOME=/usr/lib/hive来自hiveshell-这将打印与上面相同的变量但是你不能在这里使用grep，所以你必须从所有变量的列表中找到HIVE_HOM

何在 quickstartVM code HIVE_HOME section hadoop hive sqoop

scala - 从自定义数据格式创建 spark 数据框

我有一个文本文件，其中StringREC作为记录分隔符，换行符作为列分隔符，每个数据都附加了列名，以逗号作为分隔符，下面是示例数据格式录音编号，19048学期，牛奶排名,1录音编号,19049术语，Jade米排名,5使用REC作为记录分隔符。现在，我想创建带有列名ID、Term和Rank的spark数据框。请协助我。最佳答案这是工作代码importorg.apache.hadoop.conf.Configurationimportorg.apache.hadoop.io.{LongWritable,Text}importorg.

自定 scala 34 section String hadoop apache-spark spark-dataframe

java - 如何解析数据集apache spark java中的多行json

有没有办法使用数据集解析多行json文件这是示例代码publicstaticvoidmain(String[]args){//creatingsparksessionSparkSessionspark=SparkSession.builder().appName("JavaSparkSQLbasicexample").config("spark.some.config.option","some-value").getOrCreate();Datasetdf=spark.read().json("D:/sparktestio/input.json");df.show();}如果json

多行 java 34 section json hadoop apache-spark apache-spark-dataset

【湖仓一体尝试】MYSQL和HIVE数据联合查询

爬了两天大大小小的一堆坑，今天把一个简单的单机环境的流程走通了，记录一笔。先来个完工环境照：mysql+hadoop+hive+flink+iceberg+trino得益于IBMOPENJ9的优化，完全启动后的内存占用：1）执行联合查询后的2）其中trino由于必须使用ORACLE或OPENJDK，只能再安装多一个JDK21的环境HIVE里ICEBERG的表和数据：--iceberg.test.my_tbldefinitionCREATETABLEiceberg.test.my_tbl(user_idinteger,user_namevarchar,countryvarchar,birthda

尝试一体 xff country img hadoop hive flink iceberg trino

scala - 如何使用 Spark 独立集群在工作节点上管理多个执行程序？

到目前为止，我只在Hadoop集群上使用Spark，并将YARN作为资源管理器。在那种类型的集群中，我确切地知道要运行多少个执行程序以及资源管理是如何工作的。但是，知道我正在尝试使用独立的SparkCluster，我有点困惑。纠正我错误的地方。来自thisarticle，默认情况下，一个工作节点使用该节点的所有内存减去1GB。但我知道通过使用SPARK_WORKER_MEMORY，我们可以使用更少的内存。例如，如果节点的总内存为32GB，但我指定为16GB，那么Sparkworker不会在该节点上使用超过16GB的内存吗？但是执行者呢？假设我想在每个节点上运行2个执行程序，我可以通过在

scala Spark code 心数 section apache-spark hadoop cluster-computing apache-spark-standalone

hadoop - java.sql.SQLException : Failed to start database '/var/lib/hive/metastore/metastore_db' in hive 异常

我是hive的初学者。当我尝试执行任何配置单元命令时:hive>显示表格；它显示以下错误:FAILED:Errorinmetadata:javax.jdo.JDOFatalDataStoreException:Failedtostartdatabase'/var/lib/hive/metastore/metastore_db',seethenextexceptionfordetails.NestedThrowables:java.sql.SQLException:Failedtostartdatabase'/var/lib/hive/metastore/metastore_db',se

metastore hive section hadoop

json - 将数据从多个 Hive 表转换为复杂的 JSON

我有两个配置单元表中的数据，我需要加入这些表并生成一个JSON对象。我发现很少有库(BrickHouse、OpenX)将配置单元表映射到复杂的JSON模式。但是，我无法找到将两个表中的结果放入此Hive表中的方法。例如:Table-ACol1Col2"userLogins"30TableBCol1Col2Col3"userLogins""SiteA"10"userLogins""SiteB"20IwanttogenerateaJSONObjectsuchas:{name:"userLogins",children:[{name:"SiteA",logins:10},{name:"Sit

json Hive 34 userLogins section hadoop apache-pig

hadoop - Hive derby/mysql 安装

我有来自以下日志的2个查询:如何去除第一行WARN消息。为什么Hive提示xml格式正确或者我遗漏了什么。15/04/2318:26:58WARNconf.HiveConf:HiveConfofnamehive.metastore.localdoesnotexistLogginginitializedusingconfigurationinjar:file:/usr/lib/hive/lib/hive-common-1.1.0.jar!/hive-log4j.propertiesSLF4J:ClasspathcontainsmultipleSLF4Jbindings.SLF4J:Fou

hadoop derby java apache hive

hadoop - 哈希如何在 hive 的存储中工作？

我知道Java中HashMap的哈希原理，所以想知道当我们将数据存储在不同的桶中时，Hive的哈希是如何工作的。最佳答案我最近不得不深入研究一些Hive源代码来自己解决这个问题。这是我发现的:对于整数字段，hashisjusttheintegervalue.对于字符串，它使用similarversion的Java'sStringhashCode.散列多个值时，散列是Java’sListhashCode的类似版本. 关于hadoop-哈希如何在hive的存储中工作？，我们在StackO

中工何在 section noreferrer noopener hadoop hive hiveql

scala - Spark 会使用此 sortByKey/map/collect 序列保留键顺序吗？

让我们说，我们有这个。valsx=sc.parallelize(Array((0,39),(4,47),(3,51),(1,98),(2,61)))我们后来称之为。valsy=sx.sortByKey(true)这会让sy=RDD[(0,39),(1,98),(2,61),(3,51),(4,47)]然后我们做collected=sy.map(x=>(x._2/10,x._2)).collect我们会一直得到以下信息吗？我的意思是，尽管更改了键值，是否会保留原始键顺序？collected=[(3,39),(9,98),(6,61),(5,51),(4,47)]

sortByKey collect code section scala hadoop apache-spark bigdata

124 125 126127128 129 130