spark-dataframe

python - Hive 和 Spark 窗口函数的数据洗牌

对已经在同一节点上的数据使用Hive窗口函数时，是否会发生数据混洗？具体在下面的例子中，在使用窗口函数之前，数据已经被'City'用Sparkrepartition()函数重新分区，这应该确保城市“A”的所有数据在同一节点上共同本地化(假设一个城市的数据可以适合一个节点)。df=sqlContext.createDataFrame([('A','1',2009,"data1"),('A','1',2015,"data2"),('A','22',2015,"data3"),('A','22',2016,"data4"),('BB','333',2014,"data5"),('BB','3

洗牌 python data 34 Spark hadoop apache-spark hive pyspark

apache-spark - 通过 Spark 加载的表在 Hive 中无法访问

无法从Hive访问通过Spark(pyspark)创建的Hive表。df.write.format("orc").mode("overwrite").saveAsTable("db.table")从Hive访问时出错:Error:java.io.IOException:java.lang.IllegalArgumentException:bucketIdoutofrange:-1(state=,code=0)在Hive中成功创建表，并能够在spark中读回该表。表元数据可访问(在Hive中)，表中的数据文件(在hdfs中)目录。Hive表的TBLPROPERTIES是:'bucketi

apache-spark apache Hive section hadoop pyspark hortonworks-data-platform

hadoop - Spark - 连接异常失败 : java.net.ConnectException - localhost

我在一台机器上运行hadoop和spark(Ubuntu14.04)。JPS命令给我以下输出hduser@ubuntu:~$jps4370HRegionServer6568Jps5555RunJar3744TaskTracker5341RunJar4120HQuorumPeer5790SparkSubmit3308DataNode4203HMaster3469SecondaryNameNode3079NameNode3587JobTracker我在HDFS中创建了一个简单的csv文件。文件的以下详细信息。hduser@ubuntu:~$hadoopfs-ls/user/hduser/f

ConnectException localhost apache spark org hadoop apache-spark

scala - 获取 HDFS 中 Parquet 文件的大小，以便在 Scala 中使用 Spark 进行重新分区

我在HDFS上有许多parquet文件目录，每个目录包含几千个小的(大多数使用以下代码，我可以将本地parquet文件重新分区为更少的部分:valpqFile=sqlContext.read.parquet("file:/home/hadoop/data/file.parquet")pqFile.coalesce(4).write.save("file:/home/hadoop/data/fileSmaller.parquet")但我不知道如何通过Scala代码以编程方式获取HDFS上目录的大小，因此我无法计算出要传递给coalesce函数的分区数真实数据集。我该怎么做？或者在Spar

Parquet scala section hadoop apache-spark hdfs

hadoop - 为 Spark 集群和 Cassandra 设置和配置 JanusGraph

我在一台机器上运行JanusGraph(0.1.0)和Spark(1.6.1)。我按照描述进行了配置here.使用SparkGraphComputer访问gremlin-console上的图形时，它始终为空。我在日志文件中找不到任何错误，它只是一个空图。是否有人将JanusGraph与Spark一起使用并且可以分享他的配置和属性？使用JanusGraph，我得到了预期的输出:gremlin>graph=JanusGraphFactory.open('conf/test.properties')==>standardjanusgraph[cassandrathrift:[127.0.0.

JanusGraph Cassandra gremlin hadoop apache-spark titan

security - Spark 独立集群的身份验证

我有一个在远程服务器上运行的独立Spark集群，我是Spark的新手。默认情况下，似乎没有身份验证方案保护集群主机的(7077)端口。任何人都可以不受任何限制地简单地向集群提交自己的代码。Sparkdocumentation指出可以使用spark.authenticate.secret参数在独立部署模式下进行身份验证，但并未详细说明应该如何使用它。是否可以使用某种共享secret来阻止任何潜在的攻击者向集群提交任务？谁能解释一下具体是如何配置的？最佳答案启用身份验证支持有2个部分:为主人和所有奴隶设置secret在向集群提交作业

security Spark section strong code hadoop authentication apache-spark pyspark

scala - yarn 上的 Spark ；如何将指标发送到 Graphite 水槽？

我是spark的新手，我们正在运行sparkonyarn。我可以很好地运行我的测试应用程序。我正在尝试收集Graphite中的Spark指标。我知道要对metrics.properties文件进行哪些更改。但是我的spark应用程序将如何看到这个conf文件？/xxx/spark/spark-0.9.0-incubating-bin-hadoop2/bin/spark-classorg.apache.spark.deploy.yarn.Client--jar/xxx/spark/spark-0.9.0-incubating-bin-hadoop2/examples/target/sca

水槽 Graphite spark metrics code scala hadoop apache-spark

简单使用Spark、Scala完成对天气数据的指标统计

目录一、前言& 什么是Spark？& 什么是Scala二、数据准备（数据类型的转换）三、Spark部分1、使用Spark完成数据中的“风级”，“风向”、“天气情况”相关指标统计及筛选四、Scala部分1、使用Scala统计某月、全年的温差、平均气温以及最值等相关的指标五、遇到的问题：六、总结一、前言& 什么是Spark？Spark最初由美国加州伯克利大学（UCBerkeley）的AMP（Algorithms,MachinesandPeople）实验室于2009年开发，是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。Spark在诞生之初属于研究性项目，其诸多核心理

指标天气 34 xff strong spark scala 大数据

apache-spark - spark over kubernetes vs yarn/hadoop 生态系统

关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我看到spark比kubernetes有很大的吸引力。它比在Hadoop上运行spark更好吗？这两种方法都以分布式方法运行。有人可以帮助我了解在kubernetes上运行spark与在Hadoop生态系统上运行之间的区别/比较吗？谢谢

spark apache-spark section class notice hadoop kubernetes

hadoop - 如何从命令行运行 Spark-java 程序

关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题editingthispost.关闭8年前。Improvethisquestion我正在spark中运行wordcountjava程序。如何从命令行运行它。

Spark-java hadoop section class notice hdfs apache-spark

81 82 838485 86 87