spark-hive

python - 使用 Spark 的默认 log4j 配置文件 : org/apache/spark/log4j-defaults. 属性将默认日志级别设置为 "WARN"

我是spark的新手，我将spark2.1.0与python2.7一起使用，但无法正常工作。我一直在寻找一个星期来找到我的问题的解决方案，但没有成功。当我在commmadLine中运行pyspark时出现以下错误:Python2.7.13(v2.7.13:a06454b1afa1,Dec172016,20:42:59)[MSCv.150032bit(Intel)]onwin32Type"help","copyright","credits"or"license"formoreinformation.UsingSpark'sdefaultlog4jprofile:org/apache/s

log4 log4j-defaults hadoop 34 java python apache-spark pyspark

hadoop - 简单的基于 deeplearning4J Java 的 Spark 示例？

我需要在hadoop集群中运行一个简单的基于Java的deeplearning4j示例，我找到了一个here.我需要指定来自命令行的输入(这应该是HDFS上的路径)并且输出应该转到HDFS，以供以后查看然而，在示例中没有提及，它是硬编码从本地文件系统输入并输出到本地文件系统。有人可以帮我吗？最佳答案也许是最近对我们示例的拉取请求的某种组合:https://github.com/deeplearning4j/dl4j-examples/pull/384Spring-hadoop可以帮助您吗？http://projects.spri

deeplearning4J deeplearning4 section deeplearning hadoop apache-spark

scala - 如何在 Spark 中拆分？

我在一个RDD中有数据，数据如下:scala>c_datares31:org.apache.spark.rdd.RDD[String]=/home/t_csvMapPartitionsRDD[26]attextFileat:25scala>c_data.count()res29:Long=45212scala>c_data.take(2).foreach(println)age;job;marital;education;default;balance;housing;loan;contact;day;month;duration;campaign;pdays;previous;pou

何在 scala val code section hadoop apache-spark

hadoop - 使用 Spark 获取存储在 JSON 中的值列表的统计属性

我使用以下结构以JSON格式存储我的数据:{"generationId":1,"values":[-36.0431,-35.913,...,36.0951]}我想获取文件(generationIds)的平均值之间的间距分布(连续数字之间的差异)。我的zepplein笔记本中的第一行是:importorg.apache.spark.sql.SparkSessionvalwarehouseLocation="/user/hive/warehouse"valspark=SparkSession.builder().appName("test").config("spark.sql.wareh

hadoop Spark section code 34 apache-spark hive apache-zeppelin

hadoop - 用户 ALTER TABLE ... CONCATENATE 与 Hive 中的部分匹配分区

我想在Hive中使用ALTERTABLE...CONCATENATE功能，但似乎我必须提供准确的分区名称。例如，我有一个包含两个分区列、日期和组的表。我希望能够做这样的事情:altertablemytablepartition(insert_date='2017-04-11',group='%')CONCATENATE;但是我找不到这样做的方法。最佳答案 Concatenate不支持这个。关于hadoop-用户ALTERTABLE...CONCATENATE与Hive中的部分匹配分区

CONCATENATE hadoop section stackoverflow hive

hadoop - Hive 更改外部表和更新架构

我正在寻找一个命令来为我的由Avro架构支持的Hive外部表添加列和更新架构。这是我到目前为止尝试过的方法。我有一个Hive外部表，其中包含使用此命令创建的Avro支持的架构-CREATEEXTERNALTABLE`person_hourly`('personid'stringCOMMENT'','name'stringCOMMENT'')PARTITIONEDBY('partitiontime'string)ROWFORMATSERDE'org.apache.hadoop.hive.serde2.avro.AvroSerDe'STOREDASINPUTFORMAT'org.apach

hadoop Hive code section 39

hadoop - 如何在 Hive 中将 array<date> 转换为 array<string>

我想将数组转换为数组字符串，这样["2016-06-02","2016-06-02"]变成2016-06-02|2016-06-02 最佳答案使用concat_ws(stringdelimiter,array)连接数组的函数:selectconcat_ws(',',collect_set(date))fromtable;如果日期字段不是字符串，则将其转换为字符串:concat_ws(',',collect_set(cast(dateasstring))) 关于hadoop-如何在Hiv

amp array section code string hadoop hive hiveql

hadoop - 由于 UTC 时间， hive 中的日期转换问题

我有时间2017-05-04T23:25:23.234Z我想使用HIVE获取2017-05-0423:25:23.234。如何实现这一目标？实际数据-2017-05-04T23:25:23.234Z预期-2017-05-0423:25:23.234实际数据-2016-05-04T02:29:23.231234Z预期-2016-05-0402:29:23.231234请帮帮我最佳答案 selecttranslate('2017-05-04T23:25:23.234Z','TZ','')2017-05-0423:25:23.234

hadoop hive code section 23.234 hiveql

scala - 使用 Spark 在 HDFS 上压缩 Har 文件

我有大量的hadoop存档.har格式的数据。因为har不包含任何压缩，所以我试图进一步将其压缩并存储在HDFS中。我唯一可以毫无错误地开始工作的是:harFile.coalesce(1,"true").saveAsTextFile("hdfs://namenode/archive/GzipOutput",classOf[org.apache.hadoop.io.compress.GzipCodec])//`coalesce`becauseGzipisn'tsplittable.但是，这并没有给我正确的结果。生成了一个Gzipped文件，但输出无效(单行说明rdd类型等)任何帮助将不胜

scala Spark 34 hadoop apache apache-spark compression hdfs

Apache hive 服务器 2 配置

我正在尝试配置apachehiveserver2我的配置文件在hive-site.xmlhive.server2.thrift.min.worker.threads5Minimumnumberofworkerthreadshive.server2.thrift.max.worker.threads500Maximumnumberofworkerthreadshive.server2.thrift.port10000TCPportnumbertolistenonhiver.server2.thrift.bind.host10.89.20.22TCPinterfacetobindtohiv

Apache hive gt lt description hadoop

62 63 646566 67 68