Spark-Hive

hadoop - ALTER TABLE (Hive) 中的动态数据

我的查询出现错误，我不完全确定原因:ALTERTABLErevenueADDPARTITION(ds=from_unixtime(unix_timestamp(),'yyyy-MM-dd'))LOCATIONCONCAT('s3://userenroll-analytics/prod/revenue/avro/',from_unixtime(unix_timestamp(),'yyyy/MM/dd'))错误:Errorwhilecompilingstatement:FAILED:ParseExceptionline1:38cannotrecognizeinputnear'from_un

hadoop ALTER section 39 unix_timestamp hive hue beeswax

sql - 使用 between operator 的 Hive 不等式连接

我们有一个类似于下面的查询:(partition_date是我们的表分区)SELECT*FROMAJOINBwherepartition_date>B.last_runtime;我们意识到通过将条件放在where子句中会导致全表扫描，因此我们需要将其作为ON放在JOIN中。问题是Hive不支持不等式连接，所以考虑使用如下所示的BETWEEN运算符:Select*fromAJOINBONpar_datebetweenB.last_runtimeand'99999999';thisisgivingustheerror:Bothleftandrightaliasesencounteredin

不等 operator code section tblAliasCnt sql hadoop join hive

hadoop - Spark SQL 不返回 HDP 上 HIVE 事务表的记录

我在HDP设置上遇到了这个问题，事务表只需要一次压缩就可以使用SparkSQL获取记录。另一方面，Apache设置甚至不需要压缩一次。可能是压缩后在元存储上触发了某些东西，SparkSQL开始识别增量文件。如果需要其他详细信息来找出根本原因，请告诉我。试试这个，查看完整场景:hive>createtabledefault.foo(idint)clusteredby(id)into2bucketsSTOREDASORCTBLPROPERTIES('transactional'='true');hive>insertintodefault.foovalues(10);scala>sqlCo

hadoop Spark section default foo apache-spark hive apache-spark-sql hiveql

hadoop - 使用 HIVE 添加列

我有以下数据表。IDsalaryoccupation15000Engineer26000Doctor38000Pilot41000Army13000Engineer24000Teacher32000Engineer11000Teacher31000Engineer15000Doctor现在我想向该表添加另一个列标志，使其看起来如下所示。IDsalaryoccupationFlag15000Engineer026000Doctor038000Pilot041000Army013000Engineer124000Teacher132000Engineer111000Teacher23100

hadoop HIVE Engineer section code apache-spark hiveql

Hive 中的 regexp_extract 参数

花括号中的参数在下面的代码段中有什么作用？regexp_extract(col_value,'^(?:([^,]*)\,?){1}',1)Id,regexp_extract(col_value,'^(?:([^,]*)\,?){2}',1)Score,regexp_extract(col_value,'^(?:([^,]*)\,?){9}',1)DisplayName, 最佳答案如您所见here，大括号包含前面标记的次数，在本例中为non-capturinggroup,可能会重复。该组包含一个(可能为空)capturinggrou

regexp_extract extract section regex apache hadoop hive

hadoop - 在集群部署模式下运行 spark 提交作业失败但通过客户端

EDITI:通过删除应用程序中“setMaster”的conf设置，我能够成功运行yarn-cluster-如果有人可以帮助sparkmaster作为集群部署-那太棒了我正在尝试在本地测试机上设置spark，以便我可以从s3存储桶中读取数据，然后写回它。使用客户端运行jar/应用程序工作正常，很好，很好，因为它进入存储桶并创建一个文件并再次返回。然而，我需要它在集群模式下工作，以便它更接近我们的生产环境，但它总是失败——我能看到的日志中没有真正有意义的消息，也没有什么反馈可以继续。非常感谢任何帮助-我是spark/hadoop的新手，所以可能忽略了一些明显的事情。我也尝试以yarn-c

hadoop spark application 1458817514983 Client amazon-web-services amazon-s3 apache-spark

hadoop - 从 Spark 作业创建 FS 的快照

我想在运行spark作业时创建底层HDFS的快照。特定步骤涉及删除某些Parquet文件的内容。我想创建快照执行删除操作，验证操作结果并继续执行后续步骤。但是，我找不到从我的spark作业访问HDFSAPI的好方法。我要创建快照的目录在HDFS中被标记/标记为可快照。创建快照的命令行方法有效，但是我需要以编程方式执行此操作。我在CDH5.5上运行Spark1.5。关于如何执行此操作的任何提示线索？谢谢内存开发最佳答案我还没有验证这一点，但至少我没有遇到编译错误，理论上这个解决方案应该有效。这是Scala代码:valsc=newS

hadoop Spark section stackoverflow snapshotPath apache-spark hdfs java

hadoop - 在 HIVE 中创建 View

我想在分区的配置单元表上创建一个View。我的View定义如下:createviewschema.V1asselectt1.*fromscehma.tab1ast1innerjoin(selectrecord_key,max(last_update)aslast_updatefromscehma.tab1groupbyrecord_key)ast2ont1.record_key=t2.record_keyandt1.last_update=t2.last_update我的tab1表是按quarter_id分区的。当我在View上运行任何查询时它给出错误:FAILED:SemanticE

中创 hadoop section last_update record_key hive hadoop-partitioning

hadoop - 使用 yarn 的 hive 问题

我在yarn上运行hivesql，它在连接条件下抛出错误，我能够创建外部表和内部表但是在使用命令时无法创建表createtableasASSELECTnamefromstudent.当通过hivecli运行相同的查询时它工作正常但是使用springjog它会抛出错误2016-03-2804:26:50,692[Thread-17]WARNorg.apache.hadoop.hive.shims.HadoopShimsSecure-Can'tfetchtasklog:TaskLogServletisnotsupportedinMR2mode.Taskwiththemostfailures

hadoop yarn section hive 1458863269455 hadoop-yarn

hadoop - Spark Streaming 可以选择特定文件吗

我的程序不断从hadoop文件夹(例如/hadoopPath/)读取流。它从上述文件夹中挑选所有文件。我可以只为这个文件夹拍摄特定的文件类型吗(比如:/hadoopPath/*.log)我还有一个与Spark和流相关的问题:Issparkstreamingworkswithboth"cp"and"mv" 最佳答案几个小时以来，我一直在为同一个问题苦苦挣扎，虽然它看起来很简单，但我在网上找不到任何相关信息。最后，我找到了适合我的情况的解决方案。我把它放在这里是为了为遇到同样问题的其他人节省一些时间。假设您只想读取具有“path-to

Streaming hadoop section spark code apache-spark spark-streaming

91 92 939495 96 97