spark-submit

java - Spark DataFrame 聚合

我有以下代码:publicclassIPCCodes{publicstaticclassIPCCountimplementsSerializable{publicIPCCount(longpermid,intyear,intcount,Stringipc){this.permid=permid;this.year=year;this.count=count;this.ipc=ipc;}publiclongpermid;publicintyear;publicintcount;publicStringipc;}publicstaticvoidmain(String[]args){Spar

DataFrame Spark code 34 public java hadoop apache-spark apache-spark-sql

hadoop - 使用 Apache Spark 安装 Hive

我试图在Spark中执行以下查询:frompyspark.sqlimportHiveContextsqlContext=HiveContext(sc)sqlContext.sql("CREATETABLEIFNOTEXISTSsrc(keyINT,valueSTRING)")但这导致了错误:File"",line1,inFile"/home/hduser/Software/spark/python/pyspark/sql/context.py",line502,insqlreturnDataFrame(self._ssql_ctx.sql(sqlQuery),self)File"/ho

hadoop Apache DEBUG 16 01 apache-spark hive pyspark apache-spark-sql

hadoop - Spark RDD 持久化和分区

例如在Spark中创建某个RDD时:lines=sc.textFile("README.md")然后在这个RDD上调用一个转换:pythonLines=lines.filter(lambdaline:"Python"inline)如果你在这个转换后的过滤器RDD上调用一个Action(例如pythonlines.first)当他们说每次你运行一个Action时RDD将被重新计算是什么意思在他们身上？我认为在您对该原始RDD调用filter转换后，您使用textFile方法创建的原始RDD不会保留。那么它是否会重新计算最近转换的RDD，在这种情况下，它是我使用过滤器转换创建的RDD？如果

持久 hadoop code section RDD apache-spark bigdata

hadoop - Spark RDD 沿袭和存储

inputRDD=sc.textFile("log.txt")errorsRDD=inputRDD.filter(lambdax:"error"inx)warningsRDD=inputRDD.filter(lambdax:"warning"inx)badLinesRDD=errorsRDD.union(warningsRDD)badLinesCount=badLinesRDD.count()warningCount=warningsRDD.count()在上面的代码中，在倒数第二行代码执行之前，不会评估任何转换，您计算了badLinesRDD中的对象数量。因此，当运行此badLine

沿袭 hadoop code section warningsRDD apache-spark rdd

hadoop - spark sc.textfile 的详细工作原理是什么？

我想详细了解sc.textfile的工作原理。我在SparkContext.scala中找到了文本文件源代码，但它们包含很多关于调度程序、阶段和提交的任务的信息。我想要的是sc.textfile如何从hdfs中读取文件，以及sc.textfile如何使用通配符来匹配多个文件。在哪里可以找到源代码？最佳答案 ApacheSpark使用Hadoop客户端库读取文件。因此，您必须阅读hadoop-client源代码以了解更多信息:https://github.com/apache/hadoop/blob/release-2.7.1/ha

textfile hadoop mapreduce section apache-spark

hadoop - 如何使用具有 ((key1,value),(key2,value)) 模式的 Apache Spark 查找键的所有值的总和

我有一个数据集如下-ABC(a,c,30)(a,b,20)(b,c,10)(c,d,1)现在我需要处理上述数据以获得如下输出-A列中的任何键都将乘以C的2倍B列中的任何键都将乘以C的3倍所以这里的预期输出将是-a100=30*2+20*2b80=20*3+10*2c122=30*3+10*3+1*2d3=1*3我可以像下面这样写-valx=sc.parallelize(List(("a","b",20),("b","c",10),("a","c",30),("c","d",1)))valmyVal=x.map({case(a,b,c)=>((a->2*c),(b->3*c))})myV

value key code section pre hadoop apache-spark pyspark

windows - 用于 winutils 和 hadoop/spark 的 Powershell chmod on/tmp/hive

我目前正在尝试将在测试堆栈上设置Spark/Hadoop的过程合并到我们的powershell脚本中。这是一个Windows环境，有些人正在抛出曲线球，但这是最糟糕的:)当我手动安装时，我可以从命令行运行%HADOOP_HOME%\bin\winutils.exechmod777/tmp/hive但我现在需要将其转换为Powershell脚本，这可能吗在所有？我已经搜索过但还没有找到解决方案。一篇文章建议使用icacls，但不允许/tmp/hive作为arg。感谢您的帮助! 最佳答案使用PowerShell环境变量语法($env:

Powershell winutils code section windows hadoop apache-spark

hadoop - 线程 "main"java.io.IOException : Incomplete HDFS URI, 中的异常没有主机:hdfs Spark RDD

我正在尝试使用Spark将文本文件的内容保存在hdfs中:importorg.apache.spark.{SparkContext,SparkConf}objectFormatTlfHdfs{defmain(args:Array[String]){valconf=newSparkConf().setAppName("Cleandata").setMaster("local").setSparkHome("/usr/lib/spark")valsc=newSparkContext(conf)varvertices=sc.textFile("hdfs:///user/cloudera/ds

IOException Incomplete cloudera section hdfs hadoop apache-spark

scala - 在 scala 中将 Spark Dataframe 转换为 RDD

我正在寻找更好的方法将Dataframe转换为RDD。现在我正在将数据帧转换为集合和循环集合以准备RDD。但我们知道循环不是好的做法。valrandomProduct=scala.collection.mutable.MutableList[Product]()valresults=hiveContext.sql("selectid,valuefromdetails");valcollection=results.collect();vari=0;results.collect.foreach(t=>{valproduct=newProduct(collection(i)(0).asI

scala Dataframe section Product results hadoop apache-spark apache-spark-sql

java - 如何使用 newAPIHadoopFile 在 spark 中读取 avro 文件？

我正在尝试在spark作业中读取Avro文件。我的spark版本是1.6.0(spark-core_2.10-1.6.0-cdh5.7.1)。这是我的java代码:JavaSparkContextsc=newJavaSparkContext(newSparkConf().setAppName("ReadAvro"));JavaPairRDDlines=sc.newAPIHadoopFile(args[0],AvroKeyValueInputFormat.class,AvroKey.class,AvroValue.class,newConfiguration());但是我得到一个编译时异

newAPIHadoopFile spark code class section java hadoop apache-spark

202 203 204205206 207 208