spark-graphx_草庐IT

hadoop - Spark - 寻找重叠值或寻找共同 friend 的变体

我有一个问题想用Spark解决。我是Spark的新手，所以我不确定设计它的最佳方式是什么。输入:group1=user1,user2group2=user1,user2,user3group3=user2,user4group4=user1,user4group5=user3,user5group6=user3,user4,user5group7=user2,user4group8=user1,user5group9=user2,user4,user5group10=user4,user5我想找到每对用户之间的相互组数。所以对于上面的输入，我期望的输出是:输出:1stuser||2nd

变体共同 user user2 group hadoop apache-spark mapreduce apache-spark-sql

hadoop - 使用 java 在 Apache Spark 中进行多行输入

我已经查看了此站点上已经提出的其他类似问题，但没有得到满意的答案。我是Apachespark和hadoop的新手。我的问题是我有一个输入文件(35GB)，其中包含对在线购物网站商品的多行评论。文件中给出的信息如下所示:productId:C58500585Fproduct:NunToyproduct/price:5.99userId:A3NM6WTIAEprofileName:Heatherhelpfulness:0/1score:2.0time:1624609summary:notverymuchfuntext:Boughtitforarelative.Wasnotimpressiv

中进多行 code 34 productId hadoop apache-spark mapreduce multiline

hadoop - Spark 工作负载是否需要 HDFS？

HDFS不是必需的，但建议出现在某些地方。为了帮助评估让HDFS运行所花费的努力:将HDFS用于Spark工作负载有哪些好处？最佳答案 Spark是分布式处理引擎，HDFS是分布式存储系统。如果HDFS不是一个选项，那么Spark必须使用ApacheCassandra或AmazonS3形式的其他替代方案。看看这个comparisionS3–非紧急批处理作业。当数据局部性不重要时，S3适合非常具体的用例。Cassandra–非常适合流数据分析和批处理作业。HDFS–非常适合批处理作业，不会影响数据局部性。什么时候使用HDFS作为Sp

hadoop Spark strong section HDFS apache-spark mesos mesosphere

hadoop - 在 Spark Streaming 中更改输出文件名

我正在运行一个Spark作业，它在逻辑上表现得非常好。但是，当我使用saveAsTextFile将文件保存在s3存储桶中时，我的输出文件的名称格式为part-00000、part-00001等。有没有办法更改输出文件名？谢谢。最佳答案在Spark中，您可以使用saveAsNewAPIHadoopFile并在hadoop配置中设置mapreduce.output.basename参数来更改前缀(只是“部分”前缀)valhadoopConf=newConfiguration()hadoopConf.set("mapreduce.

Streaming hadoop strong section apache-spark spark-streaming spark-dataframe

hadoop - 从本地 IDE 针对远程 Spark 集群运行

我们有一个基于Kerberos的集群，Spark在Yarn上运行。目前，我们在本地用Scala编写Spark代码，然后构建一个胖JAR，我们将其复制到集群，然后运行spark-submit。相反，我想在我的本地PC上编写Spark代码并让它直接在集群上运行。有没有直接的方法来做到这一点？Spark文档似乎没有任何此类模式。仅供引用，我的本地计算机正在运行Windows，集群正在运行CDH. 最佳答案虽然cricket007的答案适用于spark-submit，但这是我使用IntelliJ针对远程集群运行的方法:首先，确保客户端

hadoop Spark 34 cdh5 apache-spark hadoop-yarn kerberos cloudera-cdh

scala - spark csv读取速度很慢，虽然我增加了节点数

我在GoogleComputeEngine上创建了两个集群，该集群读取100GB数据。集群一:1主-15GB内存-250GB磁盘10个节点-7.5GB内存-200GB磁盘第二组:1主-15GB内存-250GB磁盘150个节点-1.7GB内存-200GB磁盘我正在用它来读取文件:valdf=spark.read.format("csv").option("inferSchema",true).option("maxColumns",900000).load("hdfs://master:9000/tmp/test.csv")这也是一个包含55k行和850k列的数据集。Q1:虽然我增加了机

点数 scala section 的 Spark csv apache-spark hadoop google-compute-engine

hadoop - Hadoop EC2 安装的 Spark 脚本 : IPC client connection refused

我试图在EC2的spark脚本设置的EC2集群上使用distcp在Hadoop和AmazonS3之间复制[root]#bin/hadoopdistcps3n://bucket/f1hdfs:///user/root/我得到的错误是INFOipc.Client:Retryingconnecttoserver:..Alreadytriedntime(s).Copyfailed:java.net.ConnectException:Callto..my_serverfailedonconnectionexcep\tion:java.net.ConnectException:Connection

connection refused section code pre hadoop amazon-ec2 apache-spark

python - 使用 Spark，如何连接 master 或解决错误 :"WARN TaskSchedulerImpl: Initial job has not accepted any resources"

请告诉我如何解决以下问题。首先，我确认以下代码在master为“本地”时运行。然后我启动了两个EC2实例(m1.large)。但是，当master为“spark://MASTER_PUBLIC_DNS:7077”时，会出现错误消息“TaskSchedulerImpl”并且失败。当我从VALID地址更改为Master(spark://INVALID_DNS:7077)的INVALID地址时，会出现相同的错误消息。即，"WARNTaskSchedulerImpl:Initialjobhasnotacceptedanyresources;检查您的集群UI以确保工作人员已注册并有足够的内存"好

TaskSchedulerImpl amp section spark master python hadoop amazon-ec2 apache-spark

hadoop - Spark 在 hdfs 中只读

我已经使用HDFS设置了一个Spark集群配置，我知道在HDFS示例中Sparkall将读取默认文件路径:/ad-cpc/2014-11-28/Sparkwillreadin:hdfs://hmaster155:9000/ad-cpc/2014-11-28/有时我想知道如何在不重新配置我的集群(不使用hdfs)的情况下强制Spark在本地读取文件。请帮帮我!!! 最佳答案可以从Spark引用本地文件系统，前缀为file:///Eg:sparkContext.textFile("file:///>")此命令从本地文件系统读取文件。注

hadoop Spark section strong apache-spark distributed-computing

java - Apache Spark :-Nullpointer Exception on broadcast variables (YARN Cluster mode)

我有一个简单的spark应用程序，我试图在YARN集群上广播一个String类型的变量。但是每次我尝试访问广播变量值时，我都会在任务中得到空值。如果你们可以提出建议，那将非常有帮助，我在这里做错了什么。我的代码如下:-publicclassTestAppimplementsSerializable{staticBroadcastmongoConnectionString;publicstaticvoidmain(String[]args){StringmongoBaseURL=args[0];SparkConfsparkConf=newSparkConf().setAppName(Co

Nullpointer Exception section mongoConnectionString javaSchemaRDD java hadoop apache-spark cloud hadoop-yarn