草庐IT

spark-graphx

全部标签

hadoop - Spark - 寻找重叠值或寻找共同 friend 的变体

我有一个问题想用Spark解决。我是Spark的新手,所以我不确定设计它的最佳方式是什么。输入:group1=user1,user2group2=user1,user2,user3group3=user2,user4group4=user1,user4group5=user3,user5group6=user3,user4,user5group7=user2,user4group8=user1,user5group9=user2,user4,user5group10=user4,user5我想找到每对用户之间的相互组数。所以对于上面的输入,我期望的输出是:输出:1stuser||2nd

hadoop - 使用 java 在 Apache Spark 中进行多行输入

我已经查看了此站点上已经提出的其他类似问题,但没有得到满意的答案。我是Apachespark和hadoop的新手。我的问题是我有一个输入文件(35GB),其中包含对在线购物网站商品的多行评论。文件中给出的信息如下所示:productId:C58500585Fproduct:NunToyproduct/price:5.99userId:A3NM6WTIAEprofileName:Heatherhelpfulness:0/1score:2.0time:1624609summary:notverymuchfuntext:Boughtitforarelative.Wasnotimpressiv

hadoop - Spark 工作负载是否需要 HDFS?

HDFS不是必需的,但建议出现在某些地方。为了帮助评估让HDFS运行所花费的努力:将HDFS用于Spark工作负载有哪些好处? 最佳答案 Spark是分布式处理引擎,HDFS是分布式存储系统。如果HDFS不是一个选项,那么Spark必须使用ApacheCassandra或AmazonS3形式的其他替代方案。看看这个comparisionS3–非紧急批处理作业。当数据局部性不重要时,S3适合非常具体的用例。Cassandra–非常适合流数据分析和批处理作业。HDFS–非常适合批处理作业,不会影响数据局部性。什么时候使用HDFS作为Sp

hadoop - 在 Spark Streaming 中更改输出文件名

我正在运行一个Spark作业,它在逻辑上表现得非常好。但是,当我使用saveAsTextFile将文件保存在s3存储桶中时,我的输出文件的名称格式为part-00000、part-00001等。有没有办法更改输出文件名?谢谢。 最佳答案 在Spark中,您可以使用saveAsNewAPIHadoopFile并在hadoop配置中设置ma​​preduce.output.basename参数来更改前缀(只是“部分”前缀)valhadoopConf=newConfiguration()hadoopConf.set("mapreduce.

hadoop - 从本地 IDE 针对远程 Spark 集群运行

我们有一个基于Kerberos的集群,Spark在Yarn上运行。目前,我们在本地用Scala编写Spark代码,然后构建一个胖JAR,我们将其复制到集群,然后运行​​spark-submit。相反,我想在我的本地PC上编写Spark代码并让它直接在集群上运行。有没有直接的方法来做到这一点?Spark文档似乎没有任何此类模式。仅供引用,我的本地计算机正在运行Windows,集群正在运行CDH. 最佳答案 虽然cricket007的答案适用于spark-submit,但这是我使用IntelliJ针对远程集群运行的方法:首先,确保客户端

scala - spark csv读取速度很慢,虽然我增加了节点数

我在GoogleComputeEngine上创建了两个集群,该集群读取100GB数据。集群一:1主-15GB内存-250GB磁盘10个节点-7.5GB内存-200GB磁盘第二组:1主-15GB内存-250GB磁盘150个节点-1.7GB内存-200GB磁盘我正在用它来读取文件:valdf=spark.read.format("csv").option("inferSchema",true).option("maxColumns",900000).load("hdfs://master:9000/tmp/test.csv")这也是一个包含55k行和850k列的数据集。Q1:虽然我增加了机

hadoop - Hadoop EC2 安装的 Spark 脚本 : IPC client connection refused

我试图在EC2的spark脚本设置的EC2集群上使用distcp在Hadoop和AmazonS3之间复制[root]#bin/hadoopdistcps3n://bucket/f1hdfs:///user/root/我得到的错误是INFOipc.Client:Retryingconnecttoserver:..Alreadytriedntime(s).Copyfailed:java.net.ConnectException:Callto..my_serverfailedonconnectionexcep\tion:java.net.ConnectException:Connection

python - 使用 Spark,如何连接 master 或解决错误 :"WARN TaskSchedulerImpl: Initial job has not accepted any resources"

请告诉我如何解决以下问题。首先,我确认以下代码在master为“本地”时运行。然后我启动了两个EC2实例(m1.large)。但是,当master为“spark://MASTER_PUBLIC_DNS:7077”时,会出现错误消息“TaskSchedulerImpl”并且失败。当我从VALID地址更改为Master(spark://INVALID_DNS:7077)的INVALID地址时,会出现相同的错误消息。即,"WARNTaskSchedulerImpl:Initialjobhasnotacceptedanyresources;检查您的集群UI以确保工作人员已注册并有足够的内存"好

hadoop - Spark 在 hdfs 中只读

我已经使用HDFS设置了一个Spark集群配置,我知道在HDFS示例中Sparkall将读取默认文件路径:/ad-cpc/2014-11-28/Sparkwillreadin:hdfs://hmaster155:9000/ad-cpc/2014-11-28/有时我想知道如何在不重新配置我的集群(不使用hdfs)的情况下强制Spark在本地读取文件。请帮帮我!!! 最佳答案 可以从Spark引用本地文件系统,前缀为file:///Eg:sparkContext.textFile("file:///>")此命令从本地文件系统读取文件。注

java - Apache Spark :-Nullpointer Exception on broadcast variables (YARN Cluster mode)

我有一个简单的spark应用程序,我试图在YARN集群上广播一个String类型的变量。但是每次我尝试访问广播变量值时,我都会在任务中得到空值。如果你们可以提出建议,那将非常有帮助,我在这里做错了什么。我的代码如下:-publicclassTestAppimplementsSerializable{staticBroadcastmongoConnectionString;publicstaticvoidmain(String[]args){StringmongoBaseURL=args[0];SparkConfsparkConf=newSparkConf().setAppName(Co