草庐IT

spark-hive

全部标签

javascript - Hive - Thrift - readMessageBegin 中缺少版本,旧客户端?

你好,我正在尝试构建一个nodejs客户端来使用thrift查询我的hive数据库,但我遇到了一个奇怪的问题......我已经用thrift生成了我的nodejs客户端API(thrift-r--genjs:nodeTCLIService.thriftTCLIService是定义Hive服务的节俭文件)现在我尝试连接到Hive但我的OpenSession正在等待中......也许我没有做正确的调用但我不在网上找不到任何最新的东西(每个thrift/node/hive项目都有4或5年的历史)。你能看看我做错了吗?谢谢TCLIService.thrift://OpenSession()//

hadoop - Spark + yarn 簇: how can i configure physical node to run only one executor\task each time?

我的环境包含4个物理节点和少量RAM,每个节点有8个CPU内核。我注意到spark会自动决定为每个CPU分配RAM。结果是发生了内存错误。我正在处理大数据结构,我希望每个执行程序都将在物理节点上拥有整个RAM内存(否则我会遇到内存错误)。我尝试在“yarn-site.xml”文件上配置“yarn.nodemanager.resource.cpu-vcores1”或在spark-defaults.conf上配置“spark.driver.cores1”但没有成功。 最佳答案 尝试设置spark.executor.cores1

hadoop - ALTER TABLE (Hive) 中的动态数据

我的查询出现错误,我不完全确定原因:ALTERTABLErevenueADDPARTITION(ds=from_unixtime(unix_timestamp(),'yyyy-MM-dd'))LOCATIONCONCAT('s3://userenroll-analytics/prod/revenue/avro/',from_unixtime(unix_timestamp(),'yyyy/MM/dd'))错误:Errorwhilecompilingstatement:FAILED:ParseExceptionline1:38cannotrecognizeinputnear'from_un

sql - 使用 between operator 的 Hive 不等式连接

我们有一个类似于下面的查询:(partition_date是我们的表分区)SELECT*FROMAJOINBwherepartition_date>B.last_runtime;我们意识到通过将条件放在where子句中会导致全表扫描,因此我们需要将其作为ON放在JOIN中。问题是Hive不支持不等式连接,所以考虑使用如下所示的BETWEEN运算符:Select*fromAJOINBONpar_datebetweenB.last_runtimeand'99999999';thisisgivingustheerror:Bothleftandrightaliasesencounteredin

hadoop - Spark SQL 不返回 HDP 上 HIVE 事务表的记录

我在HDP设置上遇到了这个问题,事务表只需要一次压缩就可以使用SparkSQL获取记录。另一方面,Apache设置甚至不需要压缩一次。可能是压缩后在元存储上触发了某些东西,SparkSQL开始识别增量文件。如果需要其他详细信息来找出根本原因,请告诉我。试试这个,查看完整场景:hive>createtabledefault.foo(idint)clusteredby(id)into2bucketsSTOREDASORCTBLPROPERTIES('transactional'='true');hive>insertintodefault.foovalues(10);scala>sqlCo

hadoop - 使用 HIVE 添加列

我有以下数据表。IDsalaryoccupation15000Engineer26000Doctor38000Pilot41000Army13000Engineer24000Teacher32000Engineer11000Teacher31000Engineer15000Doctor现在我想向该表添加另一个列标志,使其看起来如下所示。IDsalaryoccupationFlag15000Engineer026000Doctor038000Pilot041000Army013000Engineer124000Teacher132000Engineer111000Teacher23100

Hive 中的 regexp_extract 参数

花括号中的参数在下面的代码段中有什么作用?regexp_extract(col_value,'^(?:([^,]*)\,?){1}',1)Id,regexp_extract(col_value,'^(?:([^,]*)\,?){2}',1)Score,regexp_extract(col_value,'^(?:([^,]*)\,?){9}',1)DisplayName, 最佳答案 如您所见here,大括号包含前面标记的次数,在本例中为non-capturinggroup,可能会重复。该组包含一个(可能为空)capturinggrou

hadoop - 在集群部署模式下运行 spark 提交作业失败但通过客户端

EDITI:通过删除应用程序中“setMaster”的conf设置,我能够成功运行yarn-cluster-如果有人可以帮助sparkmaster作为集群部署-那太棒了我正在尝试在本地测试机上设置spark,以便我可以从s3存储桶中读取数据,然后写回它。使用客户端运行jar/应用程序工作正常,很好,很好,因为它进入存储桶并创建一个文件并再次返回。然而,我需要它在集群模式下工作,以便它更接近我们的生产环境,但它总是失败——我能看到的日志中没有真正有意义的消息,也没有什么反馈可以继续。非常感谢任何帮助-我是spark/hadoop的新手,所以可能忽略了一些明显的事情。我也尝试以yarn-c

hadoop - 从 Spark 作业创建 FS 的快照

我想在运行spark作业时创建底层HDFS的快照。特定步骤涉及删除某些Parquet文件的内容。我想创建快照执行删除操作,验证操作结果并继续执行后续步骤。但是,我找不到从我的spark作业访问HDFSAPI的好方法。我要创建快照的目录在HDFS中被标记/标记为可快照。创建快照的命令行方法有效,但是我需要以编程方式执行此操作。我在CDH5.5上运行Spark1.5。关于如何执行此操作的任何提示线索?谢谢内存开发 最佳答案 我还没有验证这一点,但至少我没有遇到编译错误,理论上这个解决方案应该有效。这是Scala代码:valsc=newS

hadoop - 在 HIVE 中创建 View

我想在分区的配置单元表上创建一个View。我的View定义如下:createviewschema.V1asselectt1.*fromscehma.tab1ast1innerjoin(selectrecord_key,max(last_update)aslast_updatefromscehma.tab1groupbyrecord_key)ast2ont1.record_key=t2.record_keyandt1.last_update=t2.last_update我的tab1表是按quarter_id分区的。当我在View上运行任何查询时它给出错误:FAILED:SemanticE