spark-graphx

hadoop - 部署 Spark 的最佳方式？

在YARN或EMR而非EC2上部署Spark是否有实质性优势？这将主要用于研究和原型(prototype)设计，并且可能使用Scala。我们不愿意不使用EC2主要是因为其他选项涉及额外的基础设施和复杂性，但也许它们也提供了实质性的好处？我们主要是从S3读取数据/向S3写入数据。最佳答案让我们区分不同的层:有基础设施层，即spark作业应该在哪些(虚拟)机器上运行。潜在的选择包括本地机器集群或从EC2租用的虚拟机集群。尤其是当从S3写入大量数据或向S3写入大量数据时，EC2可能是一个不错的选择，因为这两种服务都很好地集成并且通常在

scala - Spark : Custom key compare method for reduceByKey

我需要在Scala中使用我自己的类作为键/值对中的键。特别是，我有一个包含两个变量id1和id2的简单类，我希望元素仅根据id2和不是id1。我在网上找不到任何关于如何以及在何处可以重写reduceByKey()方法的比较方法的信息，以便它可以根据我的自定义compare()方法。感谢任何帮助。谢谢你。最佳答案您不能覆盖reduceByKey的比较，因为它无法利用这样一个事实，即您的数据通常在整个集群中的不同执行程序上按key进行混洗。不过，您可以更改key(请注意，根据您使用的转换/操作，这可能会重新洗牌周围的数据)。RDD中

reduceByKey compare code section scala hadoop apache-spark key-value reduce

hadoop - 如何将位于 HDFS 上的类型安全配置文件添加到 spark-submit(集群模式)？

我有一个Spark(Spark1.5.2)应用程序，可以将数据从Kafka流式传输到HDFS。我的应用程序包含两个Typesafe配置文件来配置某些东西，比如Kafka主题等。现在我想在集群中使用spark-submit(集群模式)运行我的应用程序。我项目的所有依赖项的jar文件存储在HDFS上。只要我的配置文件包含在jar文件中，一切正常。但这对于测试目的是不切实际的，因为我总是必须重建jar。因此我排除了项目的配置文件，并通过“driver-class-path”添加了它们。这适用于客户端模式，但如果我现在将配置文件移动到HDFS并在集群模式下运行我的应用程序，它找不到设置。您可以

spark-submit 位于 spark SimpleConfig code hadoop apache-spark hdfs typesafe

hadoop - 获取 emr-ddb-hadoop.jar 以连接 DynamoDB 和 EMR Spark

我有一个DynamoDB表，我需要连接到EMRSparkSQL以在该表上运行查询。我得到了带有发布标签emr-4.6.0和Spark1.6.1的EMRSparkCluster。我指的是文档:AnalyseDynamoDBDatawithSpark连接到主节点后，我运行命令:spark-shell--jars/usr/share/aws/emr/ddb/lib/emr-ddb-hadoop.jar它给出警告:Warning:Localjar/usr/share/aws/emr/ddb/lib/emr-ddb-hadoop.jardoesnotexist,skipping.稍后，当我使用导

hadoop emr-ddb-hadoop code dynamodb amazon-web-services apache-spark amazon-dynamodb

hadoop - 由于空间问题导致 Spark 作业失败

我正在使用pyspark在Spark中编写批处理程序。以下是输入文件及其大小base-track.dat(3.9g)base-attribute-link.dat(18g)base-release.dat(543m)这些是每行一条记录的文本文件，每个字段由一个特殊字符分隔(引用代码)我正在对属性链接执行一些过滤操作并将它们分组并与其他表连接。我正在通过spark-submit将此程序提交到一个由Ambari管理的具有9个数据节点的Hadoop集群。每个数据节点包含140GB的RAM和3.5TB的磁盘空间。以下是我的pyspark代码importsysfrompysparkimportS

hadoop Spark 39 java apache-spark pyspark diskspace

hadoop - Spark 1.0.2(也是 1.1.0)卡在一个分区上

我在apachespark中遇到了一个奇怪的问题，我将不胜感激。从hdfs读取数据(并进行一些从json到对象的转换)后，下一阶段(处理所述对象)在处理完2个分区(总共512个)后失败。这种情况发生在大型数据集上(我注意到的最小数据集约为700兆，但可能会更低，我还没有缩小范围)。编辑:700megs是tgz文件大小，未压缩是6gigs。编辑2:同样的事情发生在spark1.1.0我在一台32核、60演出的机器上使用本地主机运行spark，设置如下:spark.akka.timeout=200spark.shuffle.consolidateFiles=truespark.kryose

hadoop Spark prio os_prio 0x bigdata distributed distributed-computing apache-spark

hadoop - 使用 hive/sql 和 spark 读取 json 键值

我正在尝试将此json文件读入配置单元表，顶级键即1,2..，此处不一致。{"1":"{\"time\":1421169633384,\"reading1\":130.875969,\"reading2\":227.138275}","2":"{\"time\":1421169646476,\"reading1\":131.240628,\"reading2\":226.810211}","position":0}我的hive表中只需要时间和读数1,2，因为列会忽略位置。我还可以结合使用配置单元查询和sparkmap-reduce代码。感谢您的帮助。更新，这是我正在尝试的valhqlC

hadoop spark reading 34 scala hive apache-spark apache-spark-sql

python - Hive 和 Spark 窗口函数的数据洗牌

对已经在同一节点上的数据使用Hive窗口函数时，是否会发生数据混洗？具体在下面的例子中，在使用窗口函数之前，数据已经被'City'用Sparkrepartition()函数重新分区，这应该确保城市“A”的所有数据在同一节点上共同本地化(假设一个城市的数据可以适合一个节点)。df=sqlContext.createDataFrame([('A','1',2009,"data1"),('A','1',2015,"data2"),('A','22',2015,"data3"),('A','22',2016,"data4"),('BB','333',2014,"data5"),('BB','3

洗牌 python data 34 Spark hadoop apache-spark hive pyspark

apache-spark - 通过 Spark 加载的表在 Hive 中无法访问

无法从Hive访问通过Spark(pyspark)创建的Hive表。df.write.format("orc").mode("overwrite").saveAsTable("db.table")从Hive访问时出错:Error:java.io.IOException:java.lang.IllegalArgumentException:bucketIdoutofrange:-1(state=,code=0)在Hive中成功创建表，并能够在spark中读回该表。表元数据可访问(在Hive中)，表中的数据文件(在hdfs中)目录。Hive表的TBLPROPERTIES是:'bucketi

apache-spark apache Hive section hadoop pyspark hortonworks-data-platform

hadoop - Spark - 连接异常失败 : java.net.ConnectException - localhost

我在一台机器上运行hadoop和spark(Ubuntu14.04)。JPS命令给我以下输出hduser@ubuntu:~$jps4370HRegionServer6568Jps5555RunJar3744TaskTracker5341RunJar4120HQuorumPeer5790SparkSubmit3308DataNode4203HMaster3469SecondaryNameNode3079NameNode3587JobTracker我在HDFS中创建了一个简单的csv文件。文件的以下详细信息。hduser@ubuntu:~$hadoopfs-ls/user/hduser/f

ConnectException localhost apache spark org hadoop apache-spark

77 78 798081 82 83