草庐IT

Spark-Hive

全部标签

mysql - 如何获得 hive 中时间戳的平均差异

我有下面的表格,其中包含两列hive>select*fromhivetable;a2016-09-16T03:01:12.367782Zb2016-09-16T03:01:12.300514Zc2016-09-16T03:01:12.241532Za2016-09-16T03:01:12.138016Zc2016-09-16T03:01:12.136986Zb2016-09-16T03:01:10.512201Zc2016-09-16T03:01:12.235671ZTimetaken:0.457seconds,Fetched:7row(s)现在我想从第一列中找到唯一值和时间戳差异,或

hadoop - 从 HIVE 中的 REST API 访问数据

有没有办法创建一个配置单元表,其中该配置单元表的位置将是一个httpJSONRESTAPI?我不想每次都在HDFS中导入数据。 最佳答案 几年前我在一个项目中遇到过类似的情况。这是一种将数据从Restful摄取到HDFS的低调方式,然后您使用Hive分析来实现业务逻辑。我希望您熟悉核心Java,MapReduce(如果不是,您可以查看HortonworksDataFlow,HDF是Hortonworks的产品)。第1步:您的数据摄取工作流不应绑定(bind)到包含业务逻辑的Hive工作流。这应该根据您的要求(数据流的数量和速度)及时

sql-server - Sqoop Hive 字符串数据类型到 MS SQL Server 类型

我正在使用Sqoop将数据从SQLServer导入Hive,然后将该数据从Hive导出到另一个SQLServer。SqoopImport工作正常并将VCHAR/NVARCHAR数据类型转换为字符串。我的问题是在Target表上定义的最佳列类型是什么,因为Hive目前将数据类型保存为字符串?我最初将Target表上的大部分列定义为VARCHAR(100)并且它一直在工作,但现在一些String在导出过程中失败了,我得到:SQLState:22001,errorcode:8152"java.sql.BatchUpdateException:Stringorbinarydatawouldbe

Hive实战:词频统计

文章目录一、实战概述二、提出任务三、完成任务(一)准备数据文件1、在虚拟机上创建文本文件2、将文本文件上传到HDFS指定目录(二)实现步骤1、启动HiveMetastore服务2、启动Hive客户端3、基于HDFS文件创建外部表4、查询单词表,所有单词成一列5、基于查询结果创建视图6、基于视图进行分组统计7、基于嵌套查询一步搞定四、总结一、实战概述在大数据实战中,我们利用Hive对存储在HDFS的文本数据进行词频统计。首先,我们在master虚拟机创建test.txt文件,并将其上传至HDFS的/hivewc/input目录作为输入源。随后启动HiveMetastore服务和客户端,创建名为t

scala - spark-submit 无法访问本地文件系统

第一个count()方法调用中的非常简单的Scala代码文件。defmain(args:Array[String]){//createSparkcontextwithSparkconfigurationvalsc=newSparkContext(newSparkConf().setAppName("SparkFileCount"))valfileList=recursiveListFiles(newFile("C:/data")).filter(_.isFile).map(file=>file.getName())valfilesRDD=sc.parallelize(fileList)

hadoop - 配置单元:dfs copyToLocal 给出 "org.apache.hive.service.cli.HiveSQLException: Error while processing statement: null"

我正在尝试从.hql文件执行“copyToLocal”,如下所示:dfs-copyToLocalhdfs://nameservice1/HDFS_FOLDER1/HDFS_FOLDER2/file_name.dat/LOCAL_FOLDER1/LOCAL_FOLDER2/;但是我得到了下面提到的异常:Error:Errorwhileprocessingstatement:null(state=,code=1)org.apache.hive.service.cli.HiveSQLException:Errorwhileprocessingstatement:nullatorg.apach

hadoop - 无法全局访问 Kafka Spark Streaming 中的数据

我正在尝试将数据从Kafka流式传输到SparkJavaPairInputDStreamdirectKafkaStream=KafkaUtils.createDirectStream(ssc,String.class,String.class,StringDecoder.class,StringDecoder.class,kafkaParams,topics);我在这里迭代JavaPairInputDStream来处理RDD。directKafkaStream.foreachRDD(rdd->{rdd.foreachPartition(items->{while(items.hasNe

scala - 通过 Scala IDE 使用 spark sql

我想试试sparksql,我一开始用的是bin/spark-shell插入此代码valsqlcontext=neworg.apache.spark.sql.SQLContext(sc)valdata=sc.textFile("hdfs://localhost:9000/cars.csv")valmapr=data.map(p=>p.split(','))valMyMatchRDD=mapr.map(p=>MyMatch(p(0).toString(),p(1).toString(),p(2).toString(),p(3).toString(),p(4).toString(),p(5)

json - 将数据集写入 Hive 时出现异常

我正在尝试使用SparkJava将DataSet写入Hive数据库,但在此过程中出现异常。这是我的代码:Datasetdata=spark.read().json(rdd).select("event.event_name");data.write().mode("overwrite").saveAsTable("telecom.t2");这里,rdd是流式传输的json数据,我可以通过以下命令打印结果data。data.show();但是当我尝试将此结果写入Hive数据库时,我没有收到任何异常,但当我尝试打印这些值时,我在Hive命令行中收到异常。例如:select*fromtele

java - Spark SASL 无法使用 yarn 在 emr 上工作

所以首先,我想说的是我所看到的解决这个问题的唯一方法是:Spark1.6.1SASL.但是,在添加spark和yarn认证的配置时,还是不行。下面是我在亚马逊emr上的yarn集群上使用spark-submit的spark配置:SparkConfsparkConf=newSparkConf().setAppName("secure-test");sparkConf.set("spark.authenticate.enableSaslEncryption","true");sparkConf.set("spark.network.sasl.serverAlwaysEncrypt","tr