草庐IT

Spark-Hive

全部标签

azure - 如何从 C# 中自动化 Azure Spark?

我可以创建集群,但我该如何自动执行脚本?varclusterInfo=newClusterCreateParametersV2{Name=clusterConfig.ClusterName,...ClusterType=ClusterType.Spark};`cluster.RunScript()?我可以获得SparkContext吗?https://azure.microsoft.com/en-us/documentation/articles/hdinsight-apache-spark-use-bi-tools/ 最佳答案 今

mysql - Hive 使用子查询填充表

我正在处理Hadoop数据库,使用Hive作为首选接口(interface)。我希望能够将多个SELECT语句组合成一个查询(有点像UNION,但每个查询填充不同的列)。下面的查询将在一个列中返回我需要的所有结果,但我希望能够使用每个查询来填充单独的列。任何关于如何实现这一点的帮助都将是非常棒的——某种与VALUES等效的Hive可能会做到这一点。干杯。INSERTOVERWRITETABLEtstr_tmpSELECT*FROM(SELECTtime_stampFROMhttpWHEREext_hostname='exotichorse'ANDdt='01/07/2015'ANDex

hadoop - Hive:GROUP By 上的子查询

需要Hive查询的帮助。我写了一个Hive查询:selectto_date(from_unixtime(epoch))asdate,count1,count2,count3fromtable1wherecount3=168这给我的结果如下:datecount1count2count37-15-2015168377-15-2015168157-15-201516843andsimilarlyforotherdates....最后,我需要编写一个查询,返回每个日期的count2和count3的中值。例如:我需要输出为:datecount1count2count37-15-201516835

java - 使用 Spark Dataframe 的 Hive 分区中缺少日期前导零

我正在向SparkDataframe添加一个分区列。新列包含年月日。我的数据框中有一个时间戳列。DataFramedfPartition=df.withColumn("year",df.col("date").substr(0,4));dfPartition=dfPartition.withColumn("month",dfPartition.col("date").substr(6,2));dfPartition=dfPartition.withColumn("day",dfPartition.col("date").substr(9,2));当我输出数据帧时,我可以看到列的正确值,

hadoop - 记录对于内存缓冲区来说太大。通过 TEZ 使用 Hive 的 ORC 表时出错

我们正在尝试从HIVE(1.2.1)中的“ORC”表中读取数据,并将该数据放入带有“TextInputFormat”的表中。原始数据中的某些条目太大,在运行过程中出现以下错误:org.apache.hadoop.hive.ql.metadata.HiveException:org.apache.tez.runtime.library.common.sort.impl.ExternalSorter$MapBufferTooSmallException:Recordtoolargeforin-memorybuffer.Exceededbufferoverflowlimit,bufferOv

image - 如何从 Hive 表中存储和检索图像

我想将图像存储在配置单元表中,然后检索图像以将其显示在仪表板上。我可以在不使用任何Java编码的情况下完成吗?我已成功创建配置单元表并将图像文件加载到具有二进制数据类型的列中,但HDFS中的图像文件是这样的�����JFIF���������Exif��MM�*�����������>�������F(��������i�������N�����������������������z���`����UNICODE��C�R�E�A�T�O�R�:��g�d�-�j�p�e�g��v�1�.�0��(�u�s�i�n�g��I�J�G��J�P�E�G��v�6�2�)�,��q�u�a

java - Spark `FileAlreadyExistsException` when `saveAsTextFile` 即使输出目录不存在

这个问题在这里已经有了答案:Howtooverwritetheoutputdirectoryinspark(9个回答)关闭6年前。我正在运行这个命令行:hadoopfs-rm-r/tmp/output然后是一个带有main()的Java8spark作业SparkConfsparkConf=newSparkConf();JavaSparkContextsc=newJavaSparkContext(sparkConf);JavaRDDrdd=sc.textFile("/tmp/input").map(s->newJSONObject(s))rdd.saveAsTextFile("/tmp/

hadoop - 粘性位设置 hive 执行失败拒绝权限

当我试图在形成桶表的过程中触发一个sql命令时我收到以下错误,我明白因为正在执行的进程是配置单元但/tmp归mapred所有,所以它导致了问题。但我不知道如何解决我应该在哪里更改的问题。请帮助我的人Permissiondeniedbystickybitsetting:user=ras,inode=bucked_sampleFailedwithexceptionUnabletomovesourcehdfs://roax:8020/tmp/hive-training/hive_2016-02-16_03-29-10_837_2599907748984819467-1/-ext-10000t

javascript - Hive - Thrift - readMessageBegin 中缺少版本,旧客户端?

你好,我正在尝试构建一个nodejs客户端来使用thrift查询我的hive数据库,但我遇到了一个奇怪的问题......我已经用thrift生成了我的nodejs客户端API(thrift-r--genjs:nodeTCLIService.thriftTCLIService是定义Hive服务的节俭文件)现在我尝试连接到Hive但我的OpenSession正在等待中......也许我没有做正确的调用但我不在网上找不到任何最新的东西(每个thrift/node/hive项目都有4或5年的历史)。你能看看我做错了吗?谢谢TCLIService.thrift://OpenSession()//

hadoop - Spark + yarn 簇: how can i configure physical node to run only one executor\task each time?

我的环境包含4个物理节点和少量RAM,每个节点有8个CPU内核。我注意到spark会自动决定为每个CPU分配RAM。结果是发生了内存错误。我正在处理大数据结构,我希望每个执行程序都将在物理节点上拥有整个RAM内存(否则我会遇到内存错误)。我尝试在“yarn-site.xml”文件上配置“yarn.nodemanager.resource.cpu-vcores1”或在spark-defaults.conf上配置“spark.driver.cores1”但没有成功。 最佳答案 尝试设置spark.executor.cores1