Spark-Hive

mysql - 如何获得 hive 中时间戳的平均差异

我有下面的表格，其中包含两列hive>select*fromhivetable;a2016-09-16T03:01:12.367782Zb2016-09-16T03:01:12.300514Zc2016-09-16T03:01:12.241532Za2016-09-16T03:01:12.138016Zc2016-09-16T03:01:12.136986Zb2016-09-16T03:01:10.512201Zc2016-09-16T03:01:12.235671ZTimetaken:0.457seconds,Fetched:7row(s)现在我想从第一列中找到唯一值和时间戳差异，或

hadoop - 从 HIVE 中的 REST API 访问数据

有没有办法创建一个配置单元表，其中该配置单元表的位置将是一个httpJSONRESTAPI？我不想每次都在HDFS中导入数据。最佳答案几年前我在一个项目中遇到过类似的情况。这是一种将数据从Restful摄取到HDFS的低调方式，然后您使用Hive分析来实现业务逻辑。我希望您熟悉核心Java，MapReduce(如果不是，您可以查看HortonworksDataFlow，HDF是Hortonworks的产品)。第1步:您的数据摄取工作流不应绑定(bind)到包含业务逻辑的Hive工作流。这应该根据您的要求(数据流的数量和速度)及时

hadoop HIVE import apache hiveql

sql-server - Sqoop Hive 字符串数据类型到 MS SQL Server 类型

我正在使用Sqoop将数据从SQLServer导入Hive，然后将该数据从Hive导出到另一个SQLServer。SqoopImport工作正常并将VCHAR/NVARCHAR数据类型转换为字符串。我的问题是在Target表上定义的最佳列类型是什么，因为Hive目前将数据类型保存为字符串？我最初将Target表上的大部分列定义为VARCHAR(100)并且它一直在工作，但现在一些String在导出过程中失败了，我得到:SQLState:22001,errorcode:8152"java.sql.BatchUpdateException:Stringorbinarydatawouldbe

sql-server server code section 34 string hadoop hive sqoop

Hive实战：词频统计

文章目录一、实战概述二、提出任务三、完成任务（一）准备数据文件1、在虚拟机上创建文本文件2、将文本文件上传到HDFS指定目录（二）实现步骤1、启动HiveMetastore服务2、启动Hive客户端3、基于HDFS文件创建外部表4、查询单词表，所有单词成一列5、基于查询结果创建视图6、基于视图进行分组统计7、基于嵌套查询一步搞定四、总结一、实战概述在大数据实战中，我们利用Hive对存储在HDFS的文本数据进行词频统计。首先，我们在master虚拟机创建test.txt文件，并将其上传至HDFS的/hivewc/input目录作为输入源。随后启动HiveMetastore服务和客户端，创建名为t

词频实战 code xff xff0c hive hadoop 数据仓库

scala - spark-submit 无法访问本地文件系统

第一个count()方法调用中的非常简单的Scala代码文件。defmain(args:Array[String]){//createSparkcontextwithSparkconfigurationvalsc=newSparkContext(newSparkConf().setAppName("SparkFileCount"))valfileList=recursiveListFiles(newFile("C:/data")).filter(_.isFile).map(file=>file.getName())valfilesRDD=sc.parallelize(fileList)

spark-submit submit section code 34 scala hadoop apache-spark

hadoop - 配置单元:dfs copyToLocal 给出 "org.apache.hive.service.cli.HiveSQLException: Error while processing statement: null"

我正在尝试从.hql文件执行“copyToLocal”，如下所示:dfs-copyToLocalhdfs://nameservice1/HDFS_FOLDER1/HDFS_FOLDER2/file_name.dat/LOCAL_FOLDER1/LOCAL_FOLDER2/;但是我得到了下面提到的异常:Error:Errorwhileprocessingstatement:null(state=,code=1)org.apache.hive.service.cli.HiveSQLException:Errorwhileprocessingstatement:nullatorg.apach

配置单 HiveSQLException java apache hive hadoop

hadoop - 无法全局访问 Kafka Spark Streaming 中的数据

我正在尝试将数据从Kafka流式传输到SparkJavaPairInputDStreamdirectKafkaStream=KafkaUtils.createDirectStream(ssc,String.class,String.class,StringDecoder.class,StringDecoder.class,kafkaParams,topics);我在这里迭代JavaPairInputDStream来处理RDD。directKafkaStream.foreachRDD(rdd->{rdd.foreachPartition(items->{while(items.hasNe

Streaming hadoop String code section apache-spark apache-kafka spark-streaming

scala - 通过 Scala IDE 使用 spark sql

我想试试sparksql，我一开始用的是bin/spark-shell插入此代码valsqlcontext=neworg.apache.spark.sql.SQLContext(sc)valdata=sc.textFile("hdfs://localhost:9000/cars.csv")valmapr=data.map(p=>p.split(','))valMyMatchRDD=mapr.map(p=>MyMatch(p(0).toString(),p(1).toString(),p(2).toString(),p(3).toString(),p(4).toString(),p(5)

scala toString spark gt maven hadoop apache-spark apache-spark-sql

json - 将数据集写入 Hive 时出现异常

我正在尝试使用SparkJava将DataSet写入Hive数据库，但在此过程中出现异常。这是我的代码:Datasetdata=spark.read().json(rdd).select("event.event_name");data.write().mode("overwrite").saveAsTable("telecom.t2");这里，rdd是流式传输的json数据，我可以通过以下命令打印结果data。data.show();但是当我尝试将此结果写入Hive数据库时，我没有收到任何异常，但当我尝试打印这些值时，我在Hive命令行中收到异常。例如:select*fromtele

时出 json java parquet hadoop apache-spark hive spark-streaming

java - Spark SASL 无法使用 yarn 在 emr 上工作

所以首先，我想说的是我所看到的解决这个问题的唯一方法是:Spark1.6.1SASL.但是，在添加spark和yarn认证的配置时，还是不行。下面是我在亚马逊emr上的yarn集群上使用spark-submit的spark配置:SparkConfsparkConf=newSparkConf().setAppName("secure-test");sparkConf.set("spark.authenticate.enableSaslEncryption","true");sparkConf.set("spark.network.sasl.serverAlwaysEncrypt","tr

上工 Spark AbstractChannelHandlerContext java hadoop apache-spark hadoop-yarn

60 61 626364 65 66