spark-ml

java - 在 map reduce spark 的设置键值对中插入一个 if 循环

如何在sparkmapreduce中设置键时插入if循环？我希望如果输入的单词是以大写字母开头的，则将其设置为键，否则不(字数统计示例示例输入-affaAgshsdjdDhh示例输出-Agshs1嗯1) 最佳答案你必须使用filter()sample_input.txtaffaAgshsdjdDhhsmallCapitalFirstbignotFirstBigSpark外壳valdata=sc.textFile("sample_input.txt")valfilteredData=data.flatMap(line=>line.s

scala - 无法在spark中使用reduceByKey((v1，v2)=> v1 + v2)scala函数计算单词

我刚开始学习spark。在独立模式下使用spark并尝试在scala中进行字数统计。我观察到的问题是reduceByKey()没有按预期对单词进行分组。打印NULL数组。我遵循的步骤如下...创建一个文本文件并包含一些由空格分隔的单词。在sparkshell中，我正在执行以下命令。scala>importorg.apache.spark.SparkContextimportorg.apache.spark.SparkContextscala>importorg.apache.spark.SparkContext._importorg.apache.spark.SparkContext.

数计 scala INFO scheduler 09 hadoop apache-spark bigdata

azure - 如何连接 Azure 机器学习和 Spark Streaming 或 Apache Storm

是否有可能将流从SparkStreaming或ApacheStorm获取到Azure机器学习中？在reader选项中有一个从Hive数据库读取数据的输入但是如何从Spark或Storm获取实时数据流，例如实时欺诈检测最佳答案我理解使用开源Storm或Spark来做到这一点的愿望。但我也想提供100%Azure解决方案，因为就我个人而言，我发现它是使用流数据快速完成许多“简单”事情的好方法。首先，我们有服务总线，它可以包含事件中心。事件中心是一个管理良好的队列，可以在其中将数据事件流式传输到云中。queue有暂停，rewind功能

Streaming Apache section strong Spark azure hadoop cortana-intelligence azure-machine-learning-studio

scala - Spark 中向量之间的平方距离

我正在尝试在spark中使用平方距离函数，但似乎没有任何效果。我尝试了Vector.sqdist但收到此错误“sqdist不是scala.collections的成员......”(但文档显示它是[org.apache.spark.mllib.linalg的成员。我导入的矢量](http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.mllib.linalg.Vector))./*SimpleApp.scala*/importorg.apache.spark.SparkContextimport

scala Spark apache code hadoop apache-spark

hadoop - Spark yarn-cluster 模式 - 读取通过 --files 传递的文件

我正在使用yarn-clustermaster运行我的spark应用程序。应用程序有什么作用？外部服务根据对RESTService的HTTP请求生成一个jsonFileSpark需要读取这个文件并在解析完json之后做一些工作想到的最简单的解决方案是使用--files加载该文件。在yarn-cluster模式下读取文件意味着它必须在hdfs上可用(如果我是对的？)并且我的文件正在被复制到这样的路径:/hadoop_user_path/.sparkStaging/spark_applicationId/myFile.json我当然可以在哪里阅读它，但是我找不到从任何配置/SparkEnv

yarn-cluster 传递 code spark section hadoop apache-spark hdfs hadoop-yarn

java - Spark DataFrame 聚合

我有以下代码:publicclassIPCCodes{publicstaticclassIPCCountimplementsSerializable{publicIPCCount(longpermid,intyear,intcount,Stringipc){this.permid=permid;this.year=year;this.count=count;this.ipc=ipc;}publiclongpermid;publicintyear;publicintcount;publicStringipc;}publicstaticvoidmain(String[]args){Spar

DataFrame Spark code 34 public java hadoop apache-spark apache-spark-sql

hadoop - 使用 Apache Spark 安装 Hive

我试图在Spark中执行以下查询:frompyspark.sqlimportHiveContextsqlContext=HiveContext(sc)sqlContext.sql("CREATETABLEIFNOTEXISTSsrc(keyINT,valueSTRING)")但这导致了错误:File"",line1,inFile"/home/hduser/Software/spark/python/pyspark/sql/context.py",line502,insqlreturnDataFrame(self._ssql_ctx.sql(sqlQuery),self)File"/ho

hadoop Apache DEBUG 16 01 apache-spark hive pyspark apache-spark-sql

hadoop - Spark RDD 持久化和分区

例如在Spark中创建某个RDD时:lines=sc.textFile("README.md")然后在这个RDD上调用一个转换:pythonLines=lines.filter(lambdaline:"Python"inline)如果你在这个转换后的过滤器RDD上调用一个Action(例如pythonlines.first)当他们说每次你运行一个Action时RDD将被重新计算是什么意思在他们身上？我认为在您对该原始RDD调用filter转换后，您使用textFile方法创建的原始RDD不会保留。那么它是否会重新计算最近转换的RDD，在这种情况下，它是我使用过滤器转换创建的RDD？如果

持久 hadoop code section RDD apache-spark bigdata

hadoop - Spark RDD 沿袭和存储

inputRDD=sc.textFile("log.txt")errorsRDD=inputRDD.filter(lambdax:"error"inx)warningsRDD=inputRDD.filter(lambdax:"warning"inx)badLinesRDD=errorsRDD.union(warningsRDD)badLinesCount=badLinesRDD.count()warningCount=warningsRDD.count()在上面的代码中，在倒数第二行代码执行之前，不会评估任何转换，您计算了badLinesRDD中的对象数量。因此，当运行此badLine

沿袭 hadoop code section warningsRDD apache-spark rdd

hadoop - spark sc.textfile 的详细工作原理是什么？

我想详细了解sc.textfile的工作原理。我在SparkContext.scala中找到了文本文件源代码，但它们包含很多关于调度程序、阶段和提交的任务的信息。我想要的是sc.textfile如何从hdfs中读取文件，以及sc.textfile如何使用通配符来匹配多个文件。在哪里可以找到源代码？最佳答案 ApacheSpark使用Hadoop客户端库读取文件。因此，您必须阅读hadoop-client源代码以了解更多信息:https://github.com/apache/hadoop/blob/release-2.7.1/ha

textfile hadoop mapreduce section apache-spark

199 200 201202203 204 205