spark_libs_草庐IT

hadoop - 如何在 aws us-east-2 上将 s3a 与 spark 2.1.0 一起使用？

背景我一直在努力为自己获取一个灵活的设置，以便在aws上使用spark和dockerswarm模式。我一直在使用的docker镜像配置为使用最新的spark，当时是2.1.0和Hadoop2.7.3，可在jupyter/pyspark-notebook获得。.这是有效的，我一直在测试我计划使用的各种连接路径。我遇到的问题是与s3交互的正确方式的不确定性。我一直在跟踪如何使用s3a为spark提供依赖项以连接到awss3上的数据。协议(protocol)，对比s3n协议(protocol)。我终于找到了hadoopawsguide并认为我正在关注如何提供配置。但是，我仍然收到400Bad

何在 us-east code hadoop section apache-spark amazon-s3 pyspark parquet

scala - 使用 Spark hadoop API 创建 RDD 以访问 Cassandra DB

我正在运行一个节点cassandra2.0.3和ApacheSpark2.0.3我创建了一个scala程序来使用SparkhadoopAPI创建RDD以访问CassandraDB。还应该在bashrc中为spaark设置哪些环境变量，因为我在spark-env.sh中使用以下配置exportSPARK_MASTER_IP="10.0.3.15"exportSPARK_MASTER_PORT="7077"exportSCALA_HOME="/home/Desktop/CD/scala-2.9.3"exportSPARK_WORKER_MEMORY=1gexportSPARK_WORKER

Cassandra hadoop ClusterTaskSetManager cluster 16 scala cassandra-2.0 apache-spark

python - 当使用 hbase 作为数据源时，spark 是否利用 hbase 键的排序顺序

我将时间序列数据存储在HBase中。rowkey由user_id和timestamp组成，像这样:{"userid1-1428364800":{"columnFamily1":{"val":"1"}}}"userid1-1428364803":{"columnFamily1":{"val":"2"}}}"userid2-1428364812":{"columnFamily1":{"val":"abc"}}}}现在我需要执行每个用户的分析。这是hbase_rdd的初始化(来自here)sc=SparkContext(appName="HBaseInputFormat")conf={"hb

hbase python code 34 hadoop mapreduce apache-spark

python - Apache Spark 使用的 python 版本

ApacheSpark库支持哪个版本的python(2或3)？如果它支持两个版本，在使用Apache-Spark时使用python2或3是否有任何性能考虑？最佳答案至少自Spark1.2.1起，如果未使用PYSPARK_PYTHON或PYSPARK_DRIVER_PYTHON进行设置，则默认Python版本为2.7(参见bin/pyspark)。自Spark1.4.0起支持Python3(参见SPARK-4897和Spark1.4.0releasenotes)。选择一个而不是另一个应该取决于您的要求。阅读ShouldIusePy

python Apache section noreferrer noopener hadoop apache-spark pyspark

hadoop - 如何读取 Spark 中的多行元素？

当您使用sc.textfile在Spark中读取文件时，它会为您提供元素，其中每个元素都是单独的一行。但是，我希望每个元素都包含N行。我也不能使用定界符，因为该文件中没有定界符。那么，如何让spark为我提供多行元素？我对使用NLineInputFormat类这样做很感兴趣。在Spark中可以这样做吗？我可以看到MapReduce的例子，但我不知道这将如何转化为Spark。最佳答案是的，如果您从hadoop获取文件。你应该可以这样做:valrecords=sc.newAPIHadoopRDD(hadoopConf,classOf

多行 hadoop section strong apache-spark hdfs

hadoop - Spark - 寻找重叠值或寻找共同 friend 的变体

我有一个问题想用Spark解决。我是Spark的新手，所以我不确定设计它的最佳方式是什么。输入:group1=user1,user2group2=user1,user2,user3group3=user2,user4group4=user1,user4group5=user3,user5group6=user3,user4,user5group7=user2,user4group8=user1,user5group9=user2,user4,user5group10=user4,user5我想找到每对用户之间的相互组数。所以对于上面的输入，我期望的输出是:输出:1stuser||2nd

变体共同 user user2 group hadoop apache-spark mapreduce apache-spark-sql

hadoop - 使用 java 在 Apache Spark 中进行多行输入

我已经查看了此站点上已经提出的其他类似问题，但没有得到满意的答案。我是Apachespark和hadoop的新手。我的问题是我有一个输入文件(35GB)，其中包含对在线购物网站商品的多行评论。文件中给出的信息如下所示:productId:C58500585Fproduct:NunToyproduct/price:5.99userId:A3NM6WTIAEprofileName:Heatherhelpfulness:0/1score:2.0time:1624609summary:notverymuchfuntext:Boughtitforarelative.Wasnotimpressiv

中进多行 code 34 productId hadoop apache-spark mapreduce multiline

hadoop - Spark 工作负载是否需要 HDFS？

HDFS不是必需的，但建议出现在某些地方。为了帮助评估让HDFS运行所花费的努力:将HDFS用于Spark工作负载有哪些好处？最佳答案 Spark是分布式处理引擎，HDFS是分布式存储系统。如果HDFS不是一个选项，那么Spark必须使用ApacheCassandra或AmazonS3形式的其他替代方案。看看这个comparisionS3–非紧急批处理作业。当数据局部性不重要时，S3适合非常具体的用例。Cassandra–非常适合流数据分析和批处理作业。HDFS–非常适合批处理作业，不会影响数据局部性。什么时候使用HDFS作为Sp

hadoop Spark strong section HDFS apache-spark mesos mesosphere

hadoop - 在 Spark Streaming 中更改输出文件名

我正在运行一个Spark作业，它在逻辑上表现得非常好。但是，当我使用saveAsTextFile将文件保存在s3存储桶中时，我的输出文件的名称格式为part-00000、part-00001等。有没有办法更改输出文件名？谢谢。最佳答案在Spark中，您可以使用saveAsNewAPIHadoopFile并在hadoop配置中设置mapreduce.output.basename参数来更改前缀(只是“部分”前缀)valhadoopConf=newConfiguration()hadoopConf.set("mapreduce.

Streaming hadoop strong section apache-spark spark-streaming spark-dataframe

hadoop - 从本地 IDE 针对远程 Spark 集群运行

我们有一个基于Kerberos的集群，Spark在Yarn上运行。目前，我们在本地用Scala编写Spark代码，然后构建一个胖JAR，我们将其复制到集群，然后运行spark-submit。相反，我想在我的本地PC上编写Spark代码并让它直接在集群上运行。有没有直接的方法来做到这一点？Spark文档似乎没有任何此类模式。仅供引用，我的本地计算机正在运行Windows，集群正在运行CDH. 最佳答案虽然cricket007的答案适用于spark-submit，但这是我使用IntelliJ针对远程集群运行的方法:首先，确保客户端

hadoop Spark 34 cdh5 apache-spark hadoop-yarn kerberos cloudera-cdh