spark-hive

eclipse 中的 java.lang.ClassNotFoundException : org. apache.hadoop.hive.jdbc.HiveDriver

我还添加了usr/local/share/hadoop/mapreduce/*jars、usr/local/hadoop/common、hive-exec-xxx.jar、hive-metastore-xxx.jar和hive-的所有jars文件jdbc-xxx.jar.Hive终端运行良好。我的代码是:privatestaticStringdriverName="org.apache.hadoop.hive.jdbc.HiveDriver";try{Class.forName(driverName);Connectioncon;con=DriverManager.getConnect

hadoop - 使用大型数据集在 Spark 上训练 BloomFilter

我正在尝试为数据帧中的大量字符串创建布隆过滤器-约1.2亿。每个字符串平均有20-25个字符，总数据大小超过我们默认的spark.driver.maxResultSize1GB。我不想更改maxResultSize，因为将来输入数据的大小增加时我将不得不再次更改它。在Spark中，我是否可以通过调用BloomFilter.putString()以小块流式传输数据帧中的数据并训练BloomFilter？我也尝试过使用Dataset.toLocalIterator()但由于源数据集的性质，我不得不将它合并为100个大分区，使得这100个分区中的每一个都太大而无法容纳在驱动程序内存中。作为最

BloomFilter 训练 code section hadoop apache-spark spark-dataframe bloom-filter

hadoop - 确定 Apache Spark 作业中的当前 Kerberos 用户

我在支持Kerberos的集群(Cloudera)上运行Spark作业，并希望能够为作业的任何给定运行记录用户的Kerberos身份。(注意这里不是启动job的本地linux用户身份，因为我们使用keytab文件，jaas.conf文件，调用kinit启动脚本。我们可以在启动脚本中记录一个身份，因为我们知道与key表一起传递给kinit的主体，但是能够在实际的Spark作业本身中登录会很好，这样即使一个作业是手动启动的，我们也能可靠地知道它在什么身份下运行)。一些答案表明如下:importjava.security.{AccessController,Principal}impor

Kerberos hadoop code section UserGroupInformation apache-spark jaas

scala - ClassNotFoundException : com. 数据 block .spark.csv.DefaultSource

我正在尝试使用sparkscala从Hive导出数据。但我收到以下错误。Causedby:java.lang.ClassNotFoundException:com.databricks.spark.csv.DefaultSource我的scala脚本如下所示。importorg.apache.spark.sql.hive.HiveContextvalsqlContext=newHiveContext(sc)valdf=sqlContext.sql("SELECT*FROMsparksdata")df.write.format("com.databricks.spark.csv").sa

ClassNotFoundException DefaultSource code spark section scala hadoop apache-spark hive

hadoop - Hive 中的 RANK OVER 函数

我试图在Hive中运行此查询以仅返回在adimpression表中出现频率最高的前10个url。selectranked_mytable.url,ranked_mytable.cntfrom(selectiq.url,iq.cnt,rank()over(partitionbyiq.urlorderbyiq.cntdesc)rnkfrom(selecturl,count(*)cntfromstore.adimpressionaiinnerjoinzuppa.adgroupcreativesubscriptionagcsonagcs.id=ai.adgroupcreativesubscri

hadoop Hive ranked_mytable mytable ranked partitioning rank

mongodb - Spark with Mongo DB : java. lang.IncompatibleClassChangeError:实现类

我正在尝试使用Scala将示例MongoDB集合加载到Spark，然后将RDD保存到文本文件。以下是我的代码:valsc=newSparkContext(conf)valmongoConfig=newConfiguration()mongoConfig.set("mongo.input.uri","mongodb://localhost:27017/myDB.myCollectionData")valsparkConf=newSparkConf()valdocuments=sc.newAPIHadoopRDD(mongoConfig,//ConfigurationclassOf[Mon

IncompatibleClassChangeError mongodb compile INFO jar scala hadoop apache-spark

hadoop - 将列添加到Hive外部表错误

尝试将列添加到配置单元中的外部表，但出现以下错误。这个表目前已经注册了1000个分区，我希望避免重新创建这个表，然后运行msckrepair，这需要很长时间才能完成。此外，该表使用opencsvserde格式。如何添加列hive>ALTERTABLEschema.Table123ADDCOLUMNS(Column1000STRING);FAILED:ExecutionError,returncode1fromorg.apache.hadoop.hive.ql.exec.DDLTask.Unabletoaltertable.java.lang.IllegalArgumentExcepti

hadoop Hive section code pre apache-spark bigdata

database - Hive 的 Bucket Map Join

我有一个Hadoop集群，我使用Hive进行查询，我想连接两个大表，其中一个有小桶，从我读到的内容来看，如果我将两个表都存储在连接键上，那会帮助性能。所以我的设置是:将连接键上的两个表分桶到相同数量的桶中，较小表的桶适合内存，设置hive.optimize.bucketmapjoin=true;运行以下查询:SELECT/*+MAPJOIN(a)*/count(*)FROMaJOINBONa.join_key=b.join_key;问题1:以上设置是否足以触发bucketmapjoin？问题2:我对bucketmapjoin的理解是它启动一个本地任务，为每个bucket创建哈希表，然后

database Bucket 射器 strong join hadoop hive

unix - Hive 变量替换在 hive -e 命令中不起作用

我正在尝试使用Hive变量。如果我登录Hive并使用:hive>seta=test_table;hive>describe${hiveconf:a};但是如果从Shell尝试相同的命令，它会给出:ParseError1:1cannotrecognizeinputnear...$>hive-e"seta=test_table;describe${hiveconf:a};"ParseError1:1cannotrecognizeinputnear 最佳答案 ParameterExpansionThe`$'characterintrodu

unix Hive parameter section code hadoop

exception - 将数据加载到 Hive 时出错

我正在尝试使用以下命令将本地计算机上的csv文件中的数据加载到在Hive上创建的测试数据库LOADDATALOCALINPATH'bdata/tx/TX_2012.csv'INTOTABLEtestdbPARTITION(dt='08-09-2012');但是，我不断收到以下错误:Copyingfile:file:/root/business-data/sc_sd_tn_tx_ut/TX_6_17_2012.csvFailedwithexceptionjava.io.IOException:File/tmp/hive-root/hive_2012-08-09_13-21-49_208_

时出 exception hadoop java apache hive

84 85 868788 89 90