spark-hive

performance - Hive 查询卡在执行中间

同事们，我在配置单元中使用sql脚本执行bash文件时遇到问题-它总是卡在同一个地方map=100%，reduce=67%我尝试使用具有不同变体和其他调整特性的映射器和缩减器数量:SEThive.exec.parallel=true;SEThive.default.fileformat=RCFILE;SEThive.stats.autogather=false;SEThive.exec.compress.output=true;SETmapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;SET

hadoop - 使用 sqoop 将数据从 Hive 导出到 rdbms 时如何处理主键

这是我的场景，我在配置单元仓库中有一个数据，我想将此数据导出到mysql中名为“测试”数据库的“示例”表中。如果一列是sample.test中的主键，并且hive中的数据(我们正在导出)在该键下有重复值，那么作业显然会失败，那么我该如何处理这种情况？提前致谢最佳答案如果你希望你的mysql表只包含重复项中的最后一行，你可以使用以下内容:sqoopexport--connectjdbc:mysql:///test-tablesample--usernameroot-P--export-dir/user/hive/warehouse

何处 hadoop section 插入语 update export hive sqoop

sql - 使用 PARTITION BY (HIVE) 时如何过滤掉组中的重复元素

假设我有下表(动物):**Color****Species****Weight**WhiteDog20WhiteDog8WhiteDog33BlackDog55BrownDog80WhiteCat10BlackCat14WhiteCat9我想按物种分组，过滤每个物种内的独特颜色，并为每个过滤组找到两种最亮的动物。生成的表格应如下所示:**Color****Species****Weight**WhiteDog8BlackDog55WhiteCat9BlackCat14我正在使用以下查询(我知道这是不正确的):SELECTcolor,species,weightFROM(SELECTsp

PARTITION HIVE SELECT 39 Species sql hadoop

sql - 通过选择在 Hive 中插入值

我正在尝试在配置单元列中插入某些派生值，并想知道为什么它不起作用。我的代码如下。Insertintomonthasselectmonth(datestamp)asmonthfromgc_1;此处month列已存在，其中包含NULL值，gc_1是表名。我不确定是否可以使用month、date等函数从另一列添加到hive中。最佳答案从你的问题来看，我认为你正在努力实现以下目标:有一个名为gc_1的表，其中已经存在一个名为datestamp的列，它可能包含一个日期适合作为month函数参数的字符串。然后您想在gc_1中创建一个名为mo

Hive sql code month section hadoop

json - 使用 Hive 向 Hbase 中插入数据(JSON 文件)

我已经使用hive在hbase中创建了一个表:hive>CREATETABLEhbase_table_emp(idint,namestring,rolestring)STOREDBY'org.apache.hadoop.hive.hbase.HBaseStorageHandler'WITHSERDEPROPERTIES("hbase.columns.mapping"=":key,cf1:name,cf1:role")TBLPROPERTIES("hbase.table.name"="emp");并创建了另一个表来加载数据:hive>createtabletestemp(idint,na

Hbase json 34 code hadoop hive

hadoop - 在 spark yarn 集群中，容器如何工作取决于 RDD 分区的数量？

我有一个关于ApacheSpark(yarn集群)的问题虽然在这段代码中，创建了10个分区但是在yarncluster中，只需要3个contatinervalsc=newSparkContext(newSparkConf().setAppName("SparkCount"))valsparktest=sc.textFile("/spark_test/58GB.dat",10)valtest=sparktest.flatMap(line=>line.split("")).map(word=>(word,1))在sparkyarn集群中，容器如何工作取决于RDD分区的数量？*因为我只有一点

容器取决于 code section 读入 hadoop apache-spark hadoop-yarn rdd

mysql - Hive-1.1.0 在将数据插入创建的表时显示错误(使用 hadoop-2.5.1)

我成功地创建了表:CREATETABLEmovie_example(titleSTRING,idBIGINT,directorSTRING,yearBIGINT,genresARRAY)ROWFORMATDELIMITEDFIELDSTERMINATEDBY','COLLECTIONITEMSTERMINATEDBY'$'MAPKEYSTERMINATEDBY'#'LINESTERMINATEDBY'\n'STOREDASTEXTFILE;当我尝试使用以下方法向该表中插入数据时:LOADDATALOCALINPATH'//hiveExample.txt'OVERWRITEINTOTAB

时显 hadoop apache section mysql hive

hadoop - HIVE:UDF 错误失败:找不到类 <ClassName>

我正在尝试使用myjar.jar作为HIVE中的UDF函数，如下所示，echo"Addmyjar.jar"$HIVE_HOME/bin/hive-e"ADDJAR/gpfs/user/username/HIVE/myjar.jar;"echo"Listmyjar.jar,thisisshowinglocaldirectorypath"$HIVE_HOME/bin/hive-e"listjar;"$HIVE_HOME/bin/hive-e"dropfunctionifexistsmyfunction;"echo"Createtemporaryfunction,myclassnameisU

ClassName amp section HIVE_HOME HIVE hadoop jar user-defined-functions

scala - Spark/Scala 拆分

我有这个代码:rdd.map(_.split("-")).filter(row=>{...})当我执行row.length时:This-is-a-test----on-split--这是一个测试--------输出分别是9和4。如果它为空，则不计算尾随分隔字符。如果我希望两个输出均为10，这里的解决方法是什么？最佳答案您可以通过将-1作为限制参数传递给split来完成您想要的操作，如下所示:rdd.map(_.split("-",-1)).filter(row=>{...})顺便说一句，预期结果是11，而不是10(因为如果您想保

scala Spark section code split hadoop mapreduce apache-spark rdd

hadoop - 如何在 Spark 上运行 Mahout

我最近注意到有一些关于在Spark而不是MapReduce上运行Mahout算法的讨论。但是我找不到任何文档。有人能告诉我是否可以在Spark上运行Mahout算法吗？如果是这样，对我们可以运行的算法有什么限制吗？最佳答案是的，mahout现在可以在Spark上运行(即新版本v0.10.0)。记录了不同引擎上可用的算法here.这些在Spark上可用:MahoutDistributedBLAS.DistributedRowMatrixAPIwithRandMatlablikeoperators.DistributedALS,SP

何在 hadoop section mahout Spark apache-spark

75 76 777879 80 81