sparking_草庐IT

hadoop - Spark/Hadoop 作业未并行运行

我想我遇到了初学者错误，但我真的不知道如何修复它，这让我抓狂。我有一个由2台机器组成的集群:8GB内存(6.9可用)，4核，Win10:运行一个主机，一个工作机，它也是我运行java驱动程序的机器(来自IntelliJ)2GBRAM(1.3可用)，4核，VM上的Ubuntu16.04(在VBox中运行):运行一个worker我有一个网络类，我想通过从具有单个网络的列表开始，然后使用平面图将每个网络转换为N个新网络，在for循环中生成网络。之后我有一个过滤器和一个计数。步骤:JavaSparkContextsc=newJavaSparkContext(conf);Listdata=Arr

python - 提交 PySpark 应用以在集群模式下在 YARN 上产生 Spark

我正在尝试测试为我工作的团队构建的大数据平台。它在YARN上运行spark。是否可以创建PySpark应用程序并在YARN集群上提交它们？我能够成功提交示例SparkPijar文件，它在YARNstdout日志中返回输出。这是我要测试的PySpark代码；frompysparkimportSparkConffrompysparkimportSparkContextHDFS_MASTER='hadoop-master'conf=SparkConf()conf.setMaster('yarn')conf.setAppName('spark-test')sc=SparkContext(con

用以 PySpark scala spark java python hadoop apache-spark hadoop-yarn

azure - 如何在 Azure HDInsight 的 Spark 集群中配置 HBase？

我已经在Azure中创建了HDInsight的Spark集群。现在我想将处理后的数据存储到HBASE中，我不想创建单独的HBASEHDInsight集群并使用VNET连接到Spark集群。这是因为我们限制每个区域60个核心(例如美国东部2)。我已经并且想要将所有60个内核用于我的Spark集群。所以想到在HDInsight的sparkCluster中安装HBASE。当我在HDInsightSpark集群中创建时，似乎已经有一个HBASE实例在运行。但这不会显示在Azure的集群仪表板(Ambari)或其任何配置中。而且我不确定它是否正常工作。当我执行“hbaseshell”时，出现如下

何在 HDInsight section Spark azure hadoop apache-spark hortonworks-data-platform azure-hdinsight

java - spark java api 有像 hadoop MultipleOutputs/FSDataOutputStream 这样的类吗？

我试图在减少部分输出一些特定的记录，这取决于键值记录的值。在hadoopmapreduce中可以使用类似的代码publicvoidsetup(Contextcontext)throwsIOException,InterruptedException{super.setup(context);Configurationconf=context.getConfiguration();FileSystemfs=FileSystem.get(conf);inttaskID=context.getTaskAttemptID().getTaskID().getId();hdfsOutWriter=

FSDataOutputStream java section context String hadoop apache-spark multipleoutputs

python - Spark MLLib 的问题导致所有事物的概率和预测都相同

我正在学习如何将机器学习与SparkMLLib结合使用，目的是对推文进行情感分析。我从这里得到了一个情绪分析数据集:http://thinknook.com/wp-content/uploads/2012/09/Sentiment-Analysis-Dataset.zip该数据集包含100万条归类为正面或负面的推文。该数据集的第二列包含情绪，第四列包含推文。这是我当前的PySpark代码:importcsvfrompyspark.sqlimportRowfrompyspark.sql.functionsimportrandfrompyspark.ml.featureimportToke

事物 python 0332030500349 5083000 0.4917 hadoop apache-spark apache-spark-mllib sentiment-analysis

hadoop - 乔布斯 Spark 失败

当我想在R上启动一个spark作业时，我得到了这个错误:Erreur:java.lang.IllegalStateException:CannotcallmethodsonastoppedSparkContext.ThisstoppedSparkContextwascreatedat:org.apache.spark.SparkContext.(SparkContext.scala:82)....在spark日志(/opt/mapr/spark/spark-version/logs)中我发现了很多异常:ERRORFsHistoryProvider:Exceptionencountere

乔布 hadoop SparkContext section spark apache-spark hadoop-yarn

hadoop - 在 spark 集群模式下运行 zeppelin

我正在使用本教程sparkclusteronyarnmodeindockercontainer以yarn模式在spark集群中启动zeppelin。但是我卡在了第4步。我在我的docker容器中找不到conf/zeppelin-env.sh来进行进一步的配置。我尝试将这些conf文件夹放入zeppelin，但现在成功了。除此之外，zeppelinnotebook也没有在localhost:9001上运行。我是分布式系统的新手，如果有人能帮助我以yarn模式在spark集群上启动zeppelin，那就太好了。这是我的docker-compose文件，用于启用zeppelin与spark集

zeppelin hadoop spark 34 apache-spark docker hadoop-yarn apache-zeppelin

amazon-web-services - Spark/Hadoop 不支持 AWS S3 上的 SSE-KMS 加密

我正在尝试使用KMSkey(SSE-KMS)通过服务器端加密在S3上保存一个rdd，但出现以下异常:Exceptioninthread"main"com.amazonaws.services.s3.model.AmazonS3Exception:StatusCode:400,AWSService:AmazonS3,AWSRequestID:695E32175EBA568A,AWSErrorCode:InvalidArgument,AWSErrorMessage:Theencryptionmethodspecifiedisnotsupported,S3ExtendedRequestID:

不支 amazon-web-services 34 SSE-KMS hadoopConfiguration hadoop apache-spark encryption amazon-s3

scala - 使用 Spark 中的动态列将 RDD 数据写入 CSV - Scala

我正在从HDFS目录读取多个文件，并且对于每个文件，生成的数据使用以下方式打印:frequencies.foreach(x=>println(x._1+":"+x._2))打印的数据是(对于File1.txt):'text':45'data':100'push':150其他文件的key可能不同，例如(File2.txt):'data':45'lea':100'jmp':150key不一定在所有文件中都相同。我希望将所有文件数据写入以下格式的.csv文件:FilenametextdatapushleajmpFile1.txt4510015000File2.txt0450100150...

scala Spark section 34 code csv hadoop apache-spark

scala - 卡夫卡+ Spark 流: Multi topic processing in single job

Kafka中有40个主题和编写的SparkStreaming作业，每个主题处理5个表。sparkstreaming作业的唯一目标是读取5个kafka主题并将其写入相应的5个hdfs路径。大多数时候它工作正常，但有时它会将主题1数据写入其他hdfs路径。下面的代码试图归档一个sparkstreaming作业来处理5个主题并将其写入相应的hdfs，但是这个将主题1数据写入HDFS5而不是HDFS1。请提供您的建议:importjava.text.SimpleDateFormatimportorg.apache.kafka.common.serialization.StringDeseria

卡夫 processing 34 kafka section scala hadoop apache-spark apache-kafka spark-streaming