spark-hive

hadoop - 插入覆盖目录的 Hive Case 语句

当尝试使用以下逻辑运行HQL脚本时，我收到错误:ParseExceptionline4:0cannotrecognizeinputnear'CASE''WHEN''mytable'inserdepropertiesspecification脚本逻辑INSERTOVERWRITEDIRECTORY'/example/path'ROWFORMATDELIMITEDFIELDSTERMINATEDBY','CASEWHEN${hiveconf:tbl_name}='mytable'THENSELECT*FROM${hiveconf:tbl_name}LEFTOUTERJOIN...;WHEN

hadoop Hive tbl_name 39 hiveconf parameters case hiveql

解决Hive在DataGrip 中注释乱码问题

注释属于元数据的一部分，同样存储在mysql的metastore库中，如果metastore库的字符集不支持中文，就会导致中文显示乱码。不建议修改Hive元数据库的编码，此处我们在metastore中找存储注释的表，找到表中存储注释的字段，只改对应表对应字段的编码。如下两步修改，缺一不可。（1）修改mysql元数据库我们用到的注释有两种：字段注释和整张表的注释。COLUMNS_V2表中的COMMENT字段存储了Hive表所有字段的注释，TABLE_PARAMS表中的PARAM_VALUE字段存储了所有表的注释。我们可以通过命令修改字段编码，也可以用DataGrip或Navicat等工具修改，此

乱码注释 xff0c xff xff0 hive hadoop 数据仓库

hadoop - 需要通过 Spark 加载 Hana 表，没有 Spark Vora 集成

我有一个要求，我必须将数据从Hadoop加载到SAPHana。我已经使用MySql、DB2和其他一些带有Spark的RDBMS，并使用HSBCSparkDataframeAPI在1.5.0及更高版本中加载，也使用Cassandra和Hive但不是Hana。是否可以在不对Hana进行任何修改的情况下这样做不能以任何方式接触Hana安装的一面。最佳答案如果您更愿意留在Hadoop端，则可以使用Sqoop。带有Hive适配器的SAPBusinessObjects数据服务也能正常工作。关于

Spark hadoop section Hana apache-spark sap spark-dataframe

hadoop - 有没有办法在将数据从 HIVE 移动到 ES 时跳过 ES 中的行插入？

我正在尝试使用以下查询将数据(超过3亿行)从配置单元表复制到Elasticsearch:-插入覆盖表TableNameESselect*fromHiveTableName;&在插入一些行后我得到了这个异常。我知道这是因为ES中映射的数据类型不同...Causedby:org.elasticsearch.hadoop.rest.EsHadoopInvalidRequest:Foundunrecoverableerror[xx.xx.xx.xx:9200]returnedBadRequest(400)-[MapperParsingException[failedtoparse[pctbla

hadoop HIVE section 34 39 elasticsearch

hadoop - Hive 查询在 Tez 上无限运行

下面是我尝试在Hive上运行的查询，执行引擎为tez。SELECTA.CITY,A.NAME,B.PRICE,(ROW_NUMBER()OVER(PARTITIONBYA.NAMEORDERBYB.PRICE))ASRNUMFROMTABLE1ALEFTJOINTABLE2BONA.NAME=B.NAMEWHERE(A.COLUMN2>=B.COLUMN3ANDA.COLUMN2当我在Hive中对我的数据运行上述查询时，它会持续运行数小时没有任何结果，但在句法上上述查询是正确的。TABLEA和TABLEB都有数百万条记录。我尝试过更改数据格式、增加容器大小、更改reducer的数量以及

hadoop Hive section https hiveql hadoop2 tez

hadoop - 如何使用 Pyspark 从 Hive Context 调用用 Java 编写的 Hive UDF

我在配置单元中使用getLastProcessedVal2UDF从表中获取最新的分区。这个UDF是用java编写的。我想通过配置单元上下文使用来自pyspark的相同UDF。dfsql_sel_nxt_batch_id_ini=sqlContext.sql('''selectl4_xxxx_seee.**getLastProcessedVal2**("/data/l4/work/hive/l4__stge/proctl_stg","APP_AMLMKTE_L1","L1_AMLMKT_MDWE","TRE_EXTION","2.1")''')错误:ERRORexec.FunctionR

Hive 编写 code section pyspark hadoop apache-spark apache-spark-sql

scala - Intellij Idea - 运行 Spark 应用程序时禁用信息消息

在运行使用ApacheSpark和Hbase/Hadoop库的应用程序时，我收到了很多消息。例如:0[main]DEBUGorg.apache.hadoop.metrics2.lib.MutableMetricsFactory-fieldorg.apache.hadoop.metrics2.lib.MutableRateorg.apache.hadoop.security.UserGroupInformation$UgiMetrics.loginSuccesswithannotation@org.apache.hadoop.metrics2.annotation.Metric(abou

Intellij scala section apache strong hadoop apache-spark hbase

python - Pig//Spark 作业看不到 Python 模块

我的hadoop集群有一个反复出现的问题，偶尔功能代码会停止查看位于正确位置的python模块。我正在寻找可能遇到过相同问题的人的提示。当我第一次开始编程并且代码停止工作时，我在这里问了一个关于SO的问题，有人告诉我去sleep，早上它应该可以工作，或者其他一些“你是个傻瓜，你一定有改变了一些东西”之类的评论。我多次运行该代码，它有效，我去sleep了，早上我尝试再次运行它，但它失败了。有时我使用CTRL+C终止作业，有时我使用CTRL+Z。但这只会占用资源，除此之外不会引起任何其他问题——代码仍在运行。我还没有在代码运行后立即看到这个问题。这通常发生在第二天早上，当我在10小时前离开

python section strong 的 hadoop apache-pig pyspark

hadoop - Sqoop 导入到 HCatalog/Hive - 表不可见

使用Ambari2.2.2.0安装HDP-2.4.2.0-258我必须导入几个SQLServer模式，这些模式应该可以通过Hive、Pig、MR和任何第三方(将来)访问。我决定导入HCatalog。Sqoop提供了导入到Hive或HCatalog的方法，我想如果我导入到HCatalog，同一个表将可以从HiveCLI、MR和Pig访问(请评估我的假设)。问题:如果直接导入到Hive，该表是否可供Pig、MR使用？如果导入到HCatalog，通过Hive访问需要做什么？是否需要在Hive中预先创建表？如果是，在HCatalog中导入的优势是什么，(我可以直接在Hive中导入)/(在HDF

HCatalog hadoop SettingAttribute INFO mapreduce hive sqoop hortonworks-data-platform

java - HDInsight-Spark (spark-submit) 失败 - java.lang.NoSuchMethodError : com. microsoft.azure.storage.blob.CloudBlockBlob.startCopy

我们正在开发一个spark应用程序。它将托管在azureHDInsightSpark集群上。我们的用例是这样的，我们必须从azureblob存储中提取数据并使用spark处理数据，最后创建或将数据追加回azureblob存储。所以我们用了azure-storage-4.3.0.jar我们在eclipse项目中使用了Maven并添加了以下依赖com.microsoft.azureazure-storage4.3.0编译成功。甚至应用程序在本地机器上也能正常运行并且执行时没有任何问题。因此我们从eclipse创建了一个uber/fatjar并移植到我们的AzureHDInsight-Spa

NoSuchMethodError java apache hadoop azure apache-spark azure-hdinsight

128 129 130131132 133 134