spark-hive

sql - Hive 连接或子查询混淆

(SELECTid,SUM(hits/ab)ASHABFROMbattingGROUPBYid)bSELECTid,bmonth,bstateFROMmasteraWHEREbmonth>=0ANDbstateisNOTNULLGROUPBybmonth,bstate到目前为止，我有这些胡言乱语，但我迷失了如何形成连接然后继续。我不确定从哪里开始得到东西。我们应该加入还是使用子查询？请协助在下面查找架构:CREATEEXTERNALTABLEIFNOTEXISTSbatting(idSTRING,yearINT,teamSTRING,leagueSTRING,gamesINT,abIN

混淆 Hive STRING INT bstate sql hadoop

maven - Apache Spark 依赖问题

我正在尝试在Hadoop集群中运行我的spark应用程序。集群中运行的spark版本为1.3.1。在集群中打包和运行我的spark应用程序时，出现如下错误。我也查看了其他帖子，好像我搞砸了库依赖项，但无法弄清楚是什么!以下是可能对你们帮助我有帮助的其他信息:hadoop-版本:Hadoop2.7.1.2.3.0.0-2557Subversiongit@github.com:hortonworks/hadoop.git-r9f17d40a0f2046d217b2bff90ad6e2fc7e41f5e1Compiledbyjenkinson2015-07-14T13:08ZCompiled

Apache maven gt lt spark hadoop apache-spark apache-spark-sql

linux - 转瞬即逝 + hive : CLUSTERED TABLE

我在HIVE中有聚簇表。所有查询都在hive-client中工作。但是我不能用这个表运行任何查询:Query...failed:Hivetableiscorrupt.Itisdeclaredasbeingbucketed,butthefilesdonotmatchthebucketingdeclaration.Thenumberoffilesinthedirectory(0)doesnotmatchthedeclaredbucketcount(8)forpartition:在设置hive.enforce.bucketing=true;之后错误:Query...failed:Hiveta

转瞬即逝转瞬 code section bucketing linux hadoop hive presto

sql - 在 Hive SQL 中，使用分区键基于另一个表中的列创建表

我想根据现有表中的列创建一个新表，在配置单元中添加一个新的分区列。我想在hivesql中实现这个目标。除了下面的sql或者使用kettle之类的ETL工具还有没有别的办法createtableifnotexiststable_name(col1,col2,col3,……,coln)partitionedbydt;其中col1到coln来自已经存在的旧表，dt是新添加的partitionkey。因为旧表太大，可能有几百列，罗列出来会很累。但是，下面的sql显示语法错误:createtableifnotexiststable_namelikeolder_table_namepartitio

Hive sql section blockquote col hadoop

hadoop - 如何从 hive 或 impala 读取 Hbase 当前和以前版本的数据？

我想从Hive或Impala读取Hbase当前和以前版本的数据。在我最初的研究中，我发现只能从Hive访问当前版本。那么，目前有什么方法可以从hive或Impala中检索旧版本吗？最佳答案在Hive的情况下:请看this似乎不可能在Hive中获得同一单元格的不同版本(即使Hbase具有同一单元格的多个版本)，它总是返回具有最新时间戳的单元格。我相信我们可以从战术上解决这个问题。我们可以将以前的版本附加到Hbase行键或者作为单独的单元格(名称，值)如果是Impala:请看limitations节

hadoop impala section strong stackoverflow hbase

hadoop - hive elasticsearch外部表创建

当我在ElasticSearchHandler存储的hive中创建外部表时，它可以正常工作:*CREATETABLEtest(daySTRING,idCustSTRING)STOREDBY'org.elasticsearch.hadoop.hive.EsStorageHandler'TBLPROPERTIES('es.resource'='test/test','es.mapping.names'='day:@timestamp','es.nodes'='localhost');*当我向其中插入数据时，它起作用了但是当我尝试查询它时，出现错误:异常java.io.IOException

elasticsearch hadoop 39 section test hive

hadoop - 文本文件可以直接从 Spark 输出到本地文件系统吗？

使用RDD，我可以输出rdd.saveAsTextFile('directory')将文件保存在hdfs://directory中。文本文件可以直接保存到本地文件系统上的目录(即directory)吗？最佳答案当然你可以...因为saveAsTextFile('directory')将保存与你的分区程序一样多的文件，你首先需要在复制到本地之前合并文件(除非你希望将每个文件复制到本地).因此先调用FileUtil.copyMerge(sourceFileSystem,newPath(sourceFullPath),destFile

本文 hadoop section code directory apache-spark pyspark

hadoop - Hive:如果我删除当前正在查询的文件会怎样？

假设我们有一个Hive表作为这样的目录存储在HDFS上:data/|--file1|--file2|--file3如果我对该目录开始长时间查询然后删除其中一个文件会怎样？我可以想到3种情况:文件描述符在开始时打开，数据一直保留到查询结束，即使文件路径不再可用于新查询。Hive会记住文件路径，如果找不到已删除的文件，查询就会失败。Hive不记住文件路径，只接受当前目录中的文件。如果Hive的行为类似于(2)，并且在查询期间删除文件是不安全的，从被查询目录中删除旧数据的正确方法是什么？最佳答案如@Shankarsh所述，Hive尝试

hadoop Hive strong code section delete-file

regex - 文件名的一部分作为 Hive 表中的列

我想将文件名的第一部分作为Hive表中的一列Myfilenameis:20151102114450.46400_Always_1446482638967.xml我在MicrosoftAzure的Hive中使用正则表达式编写了一个查询(查询下方)以获取它的第一部分，即20151102114450但是当我运行查询时，我得到的输出为20151102164358selectCAST(regexp_replace(regexp_replace(regexp_replace(CAST(CAST(regexp_replace(split(INPUT__FILE__NAME,'[_]')[2],'.x

regex Hive 39 section code azure hadoop hiveql

windows - Spark Windows 安装 Java 报错

我继续上一个问题的问题-winutilssparkwindowsinstallation-我知道这个线程-HowtostartSparkapplicationsonWindows(akaWhySparkfailswithNullPointerException)?-，但我还没有找到任何可以解决我的问题的方法。我也知道有人建议使用maven或sbt从源代码构建spark。我还不想这样做，因为很多人不会从源代码构建spark并且它对他们来说很好用。到目前为止，我已经设置了以下环境变量...set_JAVA_OPTIONS=-Xmx512M-Xms512Mset_JAVA_OPTION=-X

windows spark apache scala hadoop apache-spark environment-variables read-eval-print-loop

104 105 106107108 109 110