草庐IT

spark-ml

全部标签

hadoop - 如何使用具有 ((key1,value),(key2,value)) 模式的 Apache Spark 查找键的所有值的总和

我有一个数据集如下-ABC(a,c,30)(a,b,20)(b,c,10)(c,d,1)现在我需要处理上述数据以获得如下输出-A列中的任何键都将乘以C的2倍B列中的任何键都将乘以C的3倍所以这里的预期输出将是-a100=30*2+20*2b80=20*3+10*2c122=30*3+10*3+1*2d3=1*3我可以像下面这样写-valx=sc.parallelize(List(("a","b",20),("b","c",10),("a","c",30),("c","d",1)))valmyVal=x.map({case(a,b,c)=>((a->2*c),(b->3*c))})myV

windows - 用于 winutils 和 hadoop/spark 的 Powershell chmod on/tmp/hive

我目前正在尝试将在测试堆栈上设置Spark/Hadoop的过程合并到我们的powershell脚本中。这是一个Windows环境,有些人正在抛出曲线球,但这是最糟糕的:)当我手动安装时,我可以从命令行运行%HADOOP_HOME%\bin\winutils.exechmod777/tmp/hive但我现在需要将其转换为Powershell脚本,这可能吗在所有?我已经搜索过但还没有找到解决方案。一篇文章建议使用icacls,但不允许/tmp/hive作为arg。感谢您的帮助! 最佳答案 使用PowerShell环境变量语法($env:

hadoop - 线程 "main"java.io.IOException : Incomplete HDFS URI, 中的异常没有主机:hdfs Spark RDD

我正在尝试使用Spark将文本文件的内容保存在hdfs中:importorg.apache.spark.{SparkContext,SparkConf}objectFormatTlfHdfs{defmain(args:Array[String]){valconf=newSparkConf().setAppName("Cleandata").setMaster("local").setSparkHome("/usr/lib/spark")valsc=newSparkContext(conf)varvertices=sc.textFile("hdfs:///user/cloudera/ds

scala - 在 scala 中将 Spark Dataframe 转换为 RDD

我正在寻找更好的方法将Dataframe转换为RDD。现在我正在将数据帧转换为集合和循环集合以准备RDD。但我们知道循环不是好的做法。valrandomProduct=scala.collection.mutable.MutableList[Product]()valresults=hiveContext.sql("selectid,valuefromdetails");valcollection=results.collect();vari=0;results.collect.foreach(t=>{valproduct=newProduct(collection(i)(0).asI

java - 如何使用 newAPIHadoopFile 在 spark 中读取 avro 文件?

我正在尝试在spark作业中读取Avro文件。我的spark版本是1.6.0(spark-core_2.10-1.6.0-cdh5.7.1)。这是我的java代码:JavaSparkContextsc=newJavaSparkContext(newSparkConf().setAppName("ReadAvro"));JavaPairRDDlines=sc.newAPIHadoopFile(args[0],AvroKeyValueInputFormat.class,AvroKey.class,AvroValue.class,newConfiguration());但是我得到一个编译时异

shell - 在 yarn 客户端错误上运行 spark shell

我有Spark1.6.1并且我已经设置了exportHADOOP_CONF_DIR=/folder/location现在,如果我运行sparkshell:$./spark-shell--masteryarn--deploy-mode客户端我得到这种类型的错误(相关部分)$16/09/1815:49:18INFOimpl.TimelineClientImpl:Timelineserviceaddress:http://URL:PORT/ws/v1/timeline/16/09/1815:49:18INFOclient.RMProxy:ConnectingtoResourceManager

java - 在 Spark 中将数据集应用为广播

我有两个数据集,我需要在尝试注册时将一个数据集(较小的一个)注册为Broadcast,我才能使用广播功能。代码如下:JavaRDDmaps=ctx.textFile("C:\\Users\\sateesh\\Desktop\\country.txt");Broadcast>broadcastVar=ctx.broadcast(maps);//Broadcast>broadcastVar=ctx.broadcast(map);Listlist=newArrayList();list.add(1);list.add(2);list.add(9);JavaRDDlistrdd=ctx.par

regex - 在 Spark RDD 中使用正则表达式从字符串中提取时间戳

我有一个像这样的日志:[Pipeline]timestamps[Pipeline]{[Pipeline]echo20:33:050[Pipeline]echo我试图只在此处提取时间信息(20:33:05)。我已尝试执行以下操作:vallines=sc.textFile("/logs/log7.txt")valindividualLines=lines.flatMap(_.split("\n"))//Splittingfilecontentintoindividuallinesvaldates=individualLines.filter(value=>value.startsWith(

java - Windows 上的 Spark - 初始化 SparkContext 时出错,Spark URL 无效

我正在尝试在Windows8.1上运行ApacheSpark当我调用spark-shell命令时,我得到以下堆栈:C:\spark\spark-2.3.0-bin-hadoop2.7\bin>"C:\new\spark\spark-2.3.0-bin-hadoop2.7\bin\spark-submit2.cmd"--classorg.apache.spark.repl.Main--name"Sparkshell"2018-04-1720:30:21WARNNativeCodeLoader:62-Unabletoloadnative-hadooplibraryforyourplatfo

apache-spark - 无法在 hadoop 二进制文件中找到可执行文件 null\bin\winutils.exe

最近我在我的系统中安装了canopy和spark。当我在canopy命令提示符下的c:\spark路径中运行pyspark命令时,出现此错误,但该路径中存在winutils。我是新手,我不知道如何解决这个问题。我在网上搜索但未能理解。谁能帮我解决这个问题。 最佳答案 您需要执行以下步骤:1.Downloadwinutils.exe2.Createfolder,sayC:\winutils\bin3.Copywinutils.exeinsideC:\winutils\bin4.SetenvironmentvariableHADOOP_