草庐IT

spark-hive

全部标签

sql - 如何检查 HIVE 中 having 子句的顺序?

我希望能够编写一个查询,告诉我哪些数据组没有序列中的每个数字。例如,我的table是这样的:Columns:sequencegroup10ADM1ADM0GDM2GDM3GDM0WJK而且,我想知道group1中的哪些唯一值包含从0开始并计数的所有数字。因此,在这种情况下,ADM和WJK将被返回,但GDM不会。GDM不会,因为它从0、2、3开始并跳过1。我如何在HIVE中编写查询来告诉我列group1中的哪些唯一值依次包含所有整数? 最佳答案 SELECTgroup1FROMTableNameGROUPBYgroup1HAVINGC

hadoop - 使用 spark 跨 hadoop 集群复制数据

我有一种情况,我必须将数据/文件从PROD复制到UAT(hadoop集群)。为此,我现在正在使用'distcp'。但它需要永远。由于distcp在引擎盖下使用map-reduce,有什么方法可以使用spark使过程更快?就像我们可以将hive执行引擎设置为'TEZ'(以替换map-reduce),我们是否可以将执行引擎设置为sparkfordistcp?或者是否有任何其他'spark'跨集群复制数据的方法,甚至可能不关心distcp?这是我的第二个问题(假设我们可以将distcp执行引擎设置为spark而不是map-reduce,否则请不要费心回答这个问题):-据我所知,Spark比m

scala - 将转换从 hive sql 查询移动到 Spark

valtemp=sqlContext.sql(s"SELECTA,B,C,(CASEWHEN(D)in(1,2,3)THEN((E)+0.000)/60ELSE0END)ASZfromTEST.TEST_TABLE")valtemp1=temp.map({temp=>((temp.getShort(0),temp.getString(1)),(USAGE_TEMP.getDouble(2),USAGE_TEMP.getDouble(3)))}).reduceByKey((x,y)=>((x._1+y._1),(x._2+y._2)))我希望在scala中完成转换,而不是上面在配置单​​

python - 创建 step spark python, amazon hadoop

我正在Amazon上使用Hadoop创建一个Spark步骤,但我一直在思考。不是因为我的代码不好或发送错误的判断,而是找不到出路。我传递代码spark-submit--deploy-modecluster--masteryarn--num-executors5--executor-cores5--executor-memory1gs3://URL-S3/scripts/test.py脚本:importboto3dynamodb=boto3.resource('dynamodb')table=dynamodb.Table('TestSpark')table.put_item(Item={

hadoop - sqoop导入数据到hive

我正在尝试使用sqoop2将数据导入到配置单元表。我正在使用--hive-import但它不起作用代码:sqoopimport--connectjdbc:sqlserver://192.168.x.xxx:11xx--usernameuser--passworduser--tablexxxx.NOTIFICATION--hive-import错误:ERRORmanager.SqlManager:Errorexecutingstatement:com.microsoft.sqlserver.jdbc.SQLServerException:Invalidobjectname'XXXX.NO

date - Hive 数据类型混淆

我有大量数据,其中一个字段类似于WedSep1519:17:44+01002010,我需要将该字段插入到Hive中。我为选择数据类型而烦恼。我尝试了时间戳和日期,但从CSV文件加载时得到空值。 最佳答案 数据类型是字符串,因为它是文本。如果你想转换它,我建议使用TIMESTAMP。但是,您需要在加载数据时或之后(甚至更好)自己进行此转换。要转换为时间戳,可以使用以下语法:CAST(FROM_UNIXTIME(UNIX_TIMESTAMP(,'FORMAT'))asTIMESTAMP)虽然您的格式看起来很复杂。我的建议是将它作为字符串

sql - 对分组列 Hive 的操作

在Hive表中,我有它们的实际销售额和预测。所以数据看起来像:itemdatesalesDolsalesUnitpredictionU11/1/20165.9910.911/1/20165.4910.912/1/20165.9910.8413/1/20166.0410.92为了计算平均价格,我这样做:createtabledata1asselectitem,date,predictionUfromdataJOIN(selectsum(salesDol)astotDol,sum(salesUnit)astotUnitfromdata);所以在每一行中我都有totDol和totUnit。现

sql - 获取Hive中每个单词的唯一字数

我有如下表格,从表名中选择*;IDsentence1Thisisasentence2Thismightbeatest3America4Thisthis我想编写一个查询,将句子拆分成单词,并按降序获取单词数。我想要一个类似的输出,wordcountUnique(ids)This43a22might11...其中count是单词在列中出现的次数,Unique(ids)是使用该单词的用户数。我在想我们可以用什么方式编写查询来做到这一点?有人可以帮我在hive中做这件事吗?谢谢 最佳答案 侧面Viewhttps://cwiki.apache

scala - 将不同类型的值作为 Spark/Scala 中的参数传递给单个函数

我是Scala的新手。我可以将不同类型的值作为spark/scala中的参数传递给单个函数吗?我的意思是可以访问每种类型的值作为参数(例如String、Int、Double等)的通用函数例。这里的波纹管函数将只接受Int值。defTest(firstColumn:Int,secondColumn:Int):(Int)={//MyCodehere}valFLAG:Int=Test(2,4)请给我一些建议。提前致谢 最佳答案 您可以使用类型参数并让Scala推断您的返回类型,而不是像这样指定返回类型:defTest[A,B](first

hadoop - 在 Spark 中,如何在没有 RDD 的情况下在 Hadoop 上写入文件?

SparkRDD具有saveAsTxtFile函数。但是,我如何打开一个文件并将一个简单的字符串写入hadoop存储?valsparkConf:SparkConf=newSparkConf().setAppName("example")valsc:SparkContext=newSparkContext(sparkConf)sc.hadoopConfiguration.set("fs.s3n.awsAccessKeyId","...")sc.hadoopConfiguration.set("fs.s3n.awsSecretAccessKey","...")vallines:RDD[St