spark-hive

java - 信息 : Transport Used for JDBC connection: null + Apache Hive

我正在尝试通过JDBC连接ApacheHive和eclipse，但出现以下错误。以下是版本信息:ApacheHadoop:2.7.1，Hive:1.2.1和EclipseKepler。****Error:****Dec29,20156:04:00PMorg.apache.hive.jdbc.UtilsparseURLINFO:Suppliedauthorities:localhost:10000Dec29,20156:04:00PMorg.apache.hive.jdbc.UtilsparseURLINFO:Resolvedauthority:localhost:10000Dec29,

connection Transport java 34 apache eclipse hadoop jdbc

hadoop - Tez Pushdown Predicate 上的 Hive 在分区表上使用窗口函数的 View 中不起作用

在Tez上使用Hive针对此View运行此查询会导致全表扫描，即使在regionid和id上存在分区也是如此。ClouderaImpala中的这个查询需要0.6秒才能完成，而使用HortonworksDataPlatform和Tez上的Hive则需要800秒。我得出的结论是，在Tez上的Hive中使用窗口函数可以防止谓词被下推到内部选择，从而导致全表扫描。CREATEVIEWlatestpositionASWITHt1AS(SELECT*,ROW_NUMBER()OVER(PARTITIONBYregionid,id,deviceidorderbytsdesc)ASrownosFROM

Predicate Pushdown section https questions hadoop hive hortonworks-data-platform apache-tez

hadoop - Hive 当前日期函数

我想在直线上获取当前日期。我试着用这个:FROM_UNIXTIME(UNIX_TIMESTAMP())它输出这个:16-03-21我想要得到的东西:2016-03-2109:34我该怎么做？我在这里看到直线文档:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-DateFunctions但它对我不起作用。最佳答案您可以通过将预期格式作为from_unixtime函数的参数传递来获取它。示例:selectfro

hadoop Hive section code LanguageManualUDF-DateFunctions oozie beeline

hadoop - 给定 --driver-class-path 时，spark 找不到 spark-class-launcher-output 文件

我正在尝试让spark与aws一起玩得开心。在Windows环境中工作。无论我尝试过哪些选项，都永远找不到NativeS3类。目前，如果我使用:spark-shell--packagescom.amazonaws:aws-java-sdk-s3:1.10.38,com.amazonaws:aws-java-sdk-core:1.10.38,org.apache。hadoop:hadoop-aws:2.7.1作为我的命令，然后我将下载文件并可以使用s3，但是感觉很老套，每次下载它们都不理想。在另一个人的帮助下，我一直在尝试其他选项，结果是:>spark-shell--driver-cla

spark-class-launcher-output class hadoop spark code amazon-web-services amazon-s3 apache-spark

python - 从发送到 spark-submit 的外部 main 文件修改 SparkContext

我正在尝试打包python依赖项，以便使用spark-submit发送到hadoop集群，我希望尽可能以DRYest方式执行此操作。我希望我的my_spark_app.py看起来像这样:frompysparkimportSparkContext,SparkConfconf=SparkConf().setAppName('MyApp').setMaster('yarn-client')sc=SparkContext(conf=conf)sc.addPyFile('/path/to/dependencies.py')fromdependenciesimportDependencyManag

SparkContext spark-submit dateutil code Adding python hadoop apache-spark pyspark

python - 来自 Hive 查询的持久 PySpark Dataframe

我正在从Hive表中获取一些数据:df=sqlContext.sql('selectshubiru,datefromthebigtablebtwherebt.num>10')df.show()#herethequeryisprocessedandtheresultsshown而且一切正常。现在我想对df进行操作，但是每次我对df进行操作时，它都会再次运行针对Hive的查询:importpyspark.sql.functionsasfuncfromdatetimeimportdatetimefrompyspark.sql.typesimportTimestampTypedt_udt=fu

持久 Dataframe code section df python hadoop apache-spark pyspark

scala - 我想将 Hive 中所有现有的 UDTF 转换为 Scala 函数并从 Spark SQL 使用它

任何人都可以给我一个用scala编写的返回多行并将其用作SparkSQL中的UDF的示例UDTF(例如；explode)吗？表:表1+------+----------+----------+|userId|someString|varA|+------+----------+----------+|1|example1|[0,2,5]||2|example2|[1,20,5]|+------+----------+----------+我想创建以下Scala代码:defexampleUDTF(var:Seq[Int])={//codetoexplodevarAfield???}sql

scala code example 34 hadoop apache-spark hive apache-spark-sql

hadoop - 如何将外部创建的 ORC 文件加载到存储为 ORC 的 HIVE 表中？

我创建了一个存储为ORC的托管配置单元表，当加载.txt文件时它工作正常，但是我无法将ORC文件加载到该表中。与分隔符有什么关系吗？还是我错过了什么？最佳答案下面的代码对我有用，同时将HDFS中存在的ORC文件加载到配置单元表中。在hive中创建一个表。createtableMyDB.TEST(Col1String,Col2String,Col3String,Col4String)STOREDASINPUTFORMAT'org.apache.hadoop.hive.ql.io.orc.OrcInputFormat'OUTPUTF

ORC hadoop section 配置单 String hive hdfs hiveql

hadoop - 检查点在 Apache Spark 上有什么作用？

检查点对ApacheSpark有什么作用，它对RAM或CPU有何影响？最佳答案来自ApacheStreamingDocumentation-希望对您有所帮助:流式应用程序必须24/7全天候运行，因此必须能够应对与应用程序逻辑无关的故障(例如，系统故障、JVM崩溃等)。为了使这成为可能，SparkStreaming需要将足够的信息检查点到容错存储系统，以便它可以从故障中恢复。有两种类型的数据被检查点。元数据检查点-定义信息的保存将计算流式传输到HDFS等容错存储。这是用于从运行驱动程序的节点的故障中恢复流应用程序(稍后详细讨论)。

hadoop Apache section 的 li apache-spark pyspark checkpointing

hadoop - Bluemix Spark 和 Hadoop 服务配置

在Bluemix上运行HadoopBigInsights和ApacheSpark服务的配置后，我注意到Hadoop的可配置性很强。我可以选择集群中将有多少个节点以及这些节点的RAM和CPU内核节点以及硬盘空间但Spark服务似乎不太可配置。我唯一的选择是在2到30个Spark执行器之间进行选择。作为IBMIC4项目的一部分，我正在使用Bluemix来评估这些服务，因此我对此有几个问题。Spark服务是否可以像Hadoop服务一样配置？即选择节点、节点的RAM、CPU内核等。在此上下文中什么是Spark执行器？他们是节点吗？如果有，它们的规范是什么？future有计划改进Spark的配置

服务配置 Bluemix Spark section 的 hadoop apache-spark ibm-cloud

103 104 105106107 108 109