Spark-Hive

scala - 在 Spark 作业服务器中运行 Mllib

我正在练习使用spark网站提供的在线资源开发示例模型。我设法创建了模型并使用Spark-Shell为示例数据运行它，但是如何在生产环境中实际运行模型？是通过Spark作业服务器吗？importorg.apache.spark.mllib.classification.SVMWithSGDimportorg.apache.spark.mllib.regression.LabeledPointimportorg.apache.spark.mllib.linalg.Vectorsvaldata=sc.textFile("hdfs://mycluster/user/Cancer.csv")v

中运 scala spark apache hadoop apache-spark-mllib spark-jobserver bigdata

hadoop - 无法运行 Spark Java 程序

我正在运行一个用java编写的Spark程序，我正在使用示例wordcount示例。我已经创建了一个jar文件，但是当我提交spark作业时它抛出了一个错误。$spark-submit--classWordCount--masterlocal\home/cloudera/workspace/sparksample/target/sparksample-0.0.1-SNAPSHOT.jar我收到以下错误java.lang.ClassNotFoundException:wordCountatjava.net.URLClassLoader$1.run(URLClassLoader.java:

hadoop Spark SparkSubmit java apache apache-spark bigdata

scala - 使用 Spark Streaming 从 http 创建分析

您好，我的要求是从http://10.3.9.34:9900/messages创建分析，即从http://10.3.9.34:9900/messages并将此数据放在HDFS位置/user/cloudera/flume并使用Tableau或HUEUI从HDFS创建分析报告。我在CDH5.5的spark-shell的scala控制台中尝试使用以下代码，但无法从http链接获取数据importorg.apache.spark.SparkContextvaldataRDD=sc.textFile("http://10.3.9.34:9900/messages")dataRDD.collect

Streaming scala FileSystem code apache hadoop apache-spark spark-streaming

hive sql，年月日时分秒格式的数据，以15分钟为时间段，找出每一条数据所在时间段的上下界限时间值（15分钟分区）

获取当前的年月日时分秒selectdate_format(current_timestamp(),'yyyy-MM-ddHH:mm:ss')date_format(时间字段,‘yyyy-MM-ddHH:mm:ss’)将时间字段转为2023-10-1818:14:16这种格式在指定时间上增加15分钟selectfrom_unixtime(unix_timestamp(current_timestamp(),'yyyy-MM-ddHH:mm:ss')+(15*60),'yyyy-MM-ddHH:mm:ss')unix_timestamp：获取当前时间的UNIX时间戳（从1970-01-0100:0

时间段时间 span class token hive sql

java - 使用旧版本运行 Apache Spark 最新版本的集群

我有ClouderaCDH5.2.2集群和ApacheSpark1.5.0。有什么方法可以使用ApacheSpark2.0和数据集API在此集群应用程序上运行？集群设置最好不要更改。我尝试使用maven-shade-plugin运行内置的JARSpark2.0.0，但它不起作用(NoSuchMethodException)。最佳答案如果您想使用Spark2.0.0功能，您的集群应该运行Spark2.0.0。我认为没有解决方法。抛出像NoSuchMethodExeception这样的异常是因为您正在使用的方法或方法的签名已从1.5

Apache Spark section code java maven hadoop apache-spark

hadoop - 重写 Hive IN 子句

我正在尝试在HIVE中执行此子查询，但我收到错误消息，指出我的HIVE版本不支持子查询，不幸的是，是的，我们使用的是旧版本的HIVE。selectcol1,col2fromt1wherecol1in(selectxfromt2wherey=0)然后我像这样使用左半连接重写了子查询，selecta.col1,a.col2FROMt1aLEFTSEMIJOINt2bon(a.col1=b.x)WHEREb.y=0如果我不给出where条件，此查询运行良好，但当我尝试在where条件中使用b.any列或在select子句中使用b.any列时，它无法识别表b。抛出这个错误-Errorwhile

hadoop Hive section code col hiveql

scala - 尝试从 UDF 执行 spark sql 查询

我正在尝试使用scala在spark框架中编写一个内联函数，它将接受一个字符串输入，执行一个sql语句并返回一个字符串值valtestfunc:(String=>String)=(arg1:String)=>{valk=sqlContext.sql("""selectc_codefromr_c_tblwherex_nm="something"""")k.head().getString(0)}我正在将此Scala函数注册为UDFvaltestFunc_test=udf(testFunc)我在配置单元表上有一个数据框valdf=sqlContext.table("some_table")

scala spark code section pre apache-spark dataframe hadoop apache-spark-sql

hadoop - 将 TeraData 查询转换为 Hive

请将以下TeraData查询转换为Hive。我是Hive的新手，无法转换它。请指导如何将Teradata的Case..转换为Hive。转换时..我遇到很多错误SELECTMLOC.MATL_LOC_ID,MLOC.MATL_ID,MLOC.LOC_PRTY_ID,MLOC.SRC_SYS_CD,MLOC.PLNT_CD,MLOC.PRCTR_SGMNT_ID,MLOC.PRCTR_CD,MLOC.CC_SGMNT_ID,MLOC.CC_CD,MLOC.CNTL_AREA_NUM,MLOC.DFLT_MATL_PLNT_DESC,MLOC.VALUATION_CATEGORY_CD,ML

TeraData hadoop 39 MATL MLOC hive

sql - 如何检查 HIVE 中 having 子句的顺序？

我希望能够编写一个查询，告诉我哪些数据组没有序列中的每个数字。例如，我的table是这样的:Columns:sequencegroup10ADM1ADM0GDM2GDM3GDM0WJK而且，我想知道group1中的哪些唯一值包含从0开始并计数的所有数字。因此，在这种情况下，ADM和WJK将被返回，但GDM不会。GDM不会，因为它从0、2、3开始并跳过1。我如何在HIVE中编写查询来告诉我列group1中的哪些唯一值依次包含所有整数？最佳答案 SELECTgroup1FROMTableNameGROUPBYgroup1HAVINGC

having HIVE code section group1 sql hadoop

hadoop - 使用 spark 跨 hadoop 集群复制数据

我有一种情况，我必须将数据/文件从PROD复制到UAT(hadoop集群)。为此，我现在正在使用'distcp'。但它需要永远。由于distcp在引擎盖下使用map-reduce，有什么方法可以使用spark使过程更快？就像我们可以将hive执行引擎设置为'TEZ'(以替换map-reduce)，我们是否可以将执行引擎设置为sparkfordistcp？或者是否有任何其他'spark'跨集群复制数据的方法，甚至可能不关心distcp？这是我的第二个问题(假设我们可以将distcp执行引擎设置为spark而不是map-reduce，否则请不要费心回答这个问题):-据我所知，Spark比m

hadoop spark distcp code section apache-spark hdfs bigdata

77 78 798081 82 83