草庐IT

spark_libs

全部标签

hadoop - 如何在 aws us-east-2 上将 s3a 与 spark 2.1.0 一起使用?

背景我一直在努力为自己获取一个灵活的设置,以便在aws上使用spark和dockerswarm模式。我一直在使用的docker镜像配置为使用最新的spark,当时是2.1.0和Hadoop2.7.3,可在jupyter/pyspark-notebook获得。.这是有效的,我一直在测试我计划使用的各种连接路径。我遇到的问题是与s3交互的正确方式的不确定性。我一直在跟踪如何使用s3a为spark提供依赖项以连接到awss3上的数据。协议(protocol),对比s3n协议(protocol)。我终于找到了hadoopawsguide并认为我正在关注如何提供配置。但是,我仍然收到400Bad

scala - 使用 Spark hadoop API 创建 RDD 以访问 Cassandra DB

我正在运行一个节点cassandra2.0.3和ApacheSpark2.0.3我创建了一个scala程序来使用SparkhadoopAPI创建RDD以访问CassandraDB。还应该在bashrc中为spaark设置哪些环境变量,因为我在spark-env.sh中使用以下配置exportSPARK_MASTER_IP="10.0.3.15"exportSPARK_MASTER_PORT="7077"exportSCALA_HOME="/home/Desktop/CD/scala-2.9.3"exportSPARK_WORKER_MEMORY=1gexportSPARK_WORKER

python - 当使用 hbase 作为数据源时,spark 是否利用 hbase 键的排序顺序

我将时间序列数据存储在HBase中。rowkey由user_id和timestamp组成,像这样:{"userid1-1428364800":{"columnFamily1":{"val":"1"}}}"userid1-1428364803":{"columnFamily1":{"val":"2"}}}"userid2-1428364812":{"columnFamily1":{"val":"abc"}}}}现在我需要执行每个用户的分析。这是hbase_rdd的初始化(来自here)sc=SparkContext(appName="HBaseInputFormat")conf={"hb

python - Apache Spark 使用的 python 版本

ApacheSpark库支持哪个版本的python(2或3)?如果它支持两个版本,在使用Apache-Spark时使用python2或3是否有任何性能考虑? 最佳答案 至少自Spark1.2.1起,如果未使用PYSPARK_PYTHON或PYSPARK_DRIVER_PYTHON进行设置,则默认Python版本为2.7(参见bin/pyspark)。自Spark1.4.0起支持Python3(参见SPARK-4897和Spark1.4.0releasenotes)。选择一个而不是另一个应该取决于您的要求。阅读ShouldIusePy

hadoop - 如何读取 Spark 中的多行元素?

当您使用sc.textfile在Spark中读取文件时,它会为您提供元素,其中每个元素都是单独的一行。但是,我希望每个元素都包含N行。我也不能使用定界符,因为该文件中没有定界符。那么,如何让spark为我提供多行元素?我对使用NLineInputFormat类这样做很感兴趣。在Spark中可以这样做吗?我可以看到MapReduce的例子,但我不知道这将如何转化为Spark。 最佳答案 是的,如果您从hadoop获取文件。你应该可以这样做:valrecords=sc.newAPIHadoopRDD(hadoopConf,classOf

hadoop - Spark - 寻找重叠值或寻找共同 friend 的变体

我有一个问题想用Spark解决。我是Spark的新手,所以我不确定设计它的最佳方式是什么。输入:group1=user1,user2group2=user1,user2,user3group3=user2,user4group4=user1,user4group5=user3,user5group6=user3,user4,user5group7=user2,user4group8=user1,user5group9=user2,user4,user5group10=user4,user5我想找到每对用户之间的相互组数。所以对于上面的输入,我期望的输出是:输出:1stuser||2nd

hadoop - 使用 java 在 Apache Spark 中进行多行输入

我已经查看了此站点上已经提出的其他类似问题,但没有得到满意的答案。我是Apachespark和hadoop的新手。我的问题是我有一个输入文件(35GB),其中包含对在线购物网站商品的多行评论。文件中给出的信息如下所示:productId:C58500585Fproduct:NunToyproduct/price:5.99userId:A3NM6WTIAEprofileName:Heatherhelpfulness:0/1score:2.0time:1624609summary:notverymuchfuntext:Boughtitforarelative.Wasnotimpressiv

hadoop - Spark 工作负载是否需要 HDFS?

HDFS不是必需的,但建议出现在某些地方。为了帮助评估让HDFS运行所花费的努力:将HDFS用于Spark工作负载有哪些好处? 最佳答案 Spark是分布式处理引擎,HDFS是分布式存储系统。如果HDFS不是一个选项,那么Spark必须使用ApacheCassandra或AmazonS3形式的其他替代方案。看看这个comparisionS3–非紧急批处理作业。当数据局部性不重要时,S3适合非常具体的用例。Cassandra–非常适合流数据分析和批处理作业。HDFS–非常适合批处理作业,不会影响数据局部性。什么时候使用HDFS作为Sp

hadoop - 在 Spark Streaming 中更改输出文件名

我正在运行一个Spark作业,它在逻辑上表现得非常好。但是,当我使用saveAsTextFile将文件保存在s3存储桶中时,我的输出文件的名称格式为part-00000、part-00001等。有没有办法更改输出文件名?谢谢。 最佳答案 在Spark中,您可以使用saveAsNewAPIHadoopFile并在hadoop配置中设置ma​​preduce.output.basename参数来更改前缀(只是“部分”前缀)valhadoopConf=newConfiguration()hadoopConf.set("mapreduce.

hadoop - 从本地 IDE 针对远程 Spark 集群运行

我们有一个基于Kerberos的集群,Spark在Yarn上运行。目前,我们在本地用Scala编写Spark代码,然后构建一个胖JAR,我们将其复制到集群,然后运行​​spark-submit。相反,我想在我的本地PC上编写Spark代码并让它直接在集群上运行。有没有直接的方法来做到这一点?Spark文档似乎没有任何此类模式。仅供引用,我的本地计算机正在运行Windows,集群正在运行CDH. 最佳答案 虽然cricket007的答案适用于spark-submit,但这是我使用IntelliJ针对远程集群运行的方法:首先,确保客户端