$Spark

java - 使用旧版本运行 Apache Spark 最新版本的集群

我有ClouderaCDH5.2.2集群和ApacheSpark1.5.0。有什么方法可以使用ApacheSpark2.0和数据集API在此集群应用程序上运行？集群设置最好不要更改。我尝试使用maven-shade-plugin运行内置的JARSpark2.0.0，但它不起作用(NoSuchMethodException)。最佳答案如果您想使用Spark2.0.0功能，您的集群应该运行Spark2.0.0。我认为没有解决方法。抛出像NoSuchMethodExeception这样的异常是因为您正在使用的方法或方法的签名已从1.5

scala - 尝试从 UDF 执行 spark sql 查询

我正在尝试使用scala在spark框架中编写一个内联函数，它将接受一个字符串输入，执行一个sql语句并返回一个字符串值valtestfunc:(String=>String)=(arg1:String)=>{valk=sqlContext.sql("""selectc_codefromr_c_tblwherex_nm="something"""")k.head().getString(0)}我正在将此Scala函数注册为UDFvaltestFunc_test=udf(testFunc)我在配置单元表上有一个数据框valdf=sqlContext.table("some_table")

scala spark code section pre apache-spark dataframe hadoop apache-spark-sql

hadoop - 使用 spark 跨 hadoop 集群复制数据

我有一种情况，我必须将数据/文件从PROD复制到UAT(hadoop集群)。为此，我现在正在使用'distcp'。但它需要永远。由于distcp在引擎盖下使用map-reduce，有什么方法可以使用spark使过程更快？就像我们可以将hive执行引擎设置为'TEZ'(以替换map-reduce)，我们是否可以将执行引擎设置为sparkfordistcp？或者是否有任何其他'spark'跨集群复制数据的方法，甚至可能不关心distcp？这是我的第二个问题(假设我们可以将distcp执行引擎设置为spark而不是map-reduce，否则请不要费心回答这个问题):-据我所知，Spark比m

hadoop spark distcp code section apache-spark hdfs bigdata

scala - 将转换从 hive sql 查询移动到 Spark

valtemp=sqlContext.sql(s"SELECTA,B,C,(CASEWHEN(D)in(1,2,3)THEN((E)+0.000)/60ELSE0END)ASZfromTEST.TEST_TABLE")valtemp1=temp.map({temp=>((temp.getShort(0),temp.getString(1)),(USAGE_TEMP.getDouble(2),USAGE_TEMP.getDouble(3)))}).reduceByKey((x,y)=>((x._1+y._1),(x._2+y._2)))我希望在scala中完成转换，而不是上面在配置单

scala Spark temp section getDouble hadoop apache-spark hive

python - 创建 step spark python, amazon hadoop

我正在Amazon上使用Hadoop创建一个Spark步骤，但我一直在思考。不是因为我的代码不好或发送错误的判断，而是找不到出路。我传递代码spark-submit--deploy-modecluster--masteryarn--num-executors5--executor-cores5--executor-memory1gs3://URL-S3/scripts/test.py脚本:importboto3dynamodb=boto3.resource('dynamodb')table=dynamodb.Table('TestSpark')table.put_item(Item={

python amazon 1472106590712 Application hadoop hive pyspark amazon-emr

scala - 将不同类型的值作为 Spark/Scala 中的参数传递给单个函数

我是Scala的新手。我可以将不同类型的值作为spark/scala中的参数传递给单个函数吗？我的意思是可以访问每种类型的值作为参数(例如String、Int、Double等)的通用函数例。这里的波纹管函数将只接受Int值。defTest(firstColumn:Int,secondColumn:Int):(Int)={//MyCodehere}valFLAG:Int=Test(2,4)请给我一些建议。提前致谢最佳答案您可以使用类型参数并让Scala推断您的返回类型，而不是像这样指定返回类型:defTest[A,B](first

传递 scala section Int code hadoop apache-spark hive

hadoop - 在 Spark 中，如何在没有 RDD 的情况下在 Hadoop 上写入文件？

SparkRDD具有saveAsTxtFile函数。但是，我如何打开一个文件并将一个简单的字符串写入hadoop存储？valsparkConf:SparkConf=newSparkConf().setAppName("example")valsc:SparkContext=newSparkContext(sparkConf)sc.hadoopConfiguration.set("fs.s3n.awsAccessKeyId","...")sc.hadoopConfiguration.set("fs.s3n.awsSecretAccessKey","...")vallines:RDD[St

何在 hadoop 34 section your-output-bucket apache-spark hdfs

amazon-web-services - 如何使用 Hadoop 2.6 启动 Spark EC2 集群

我正在尝试使用Hadoop2.6在Spark1.6.1上运行SparkEC2集群-这是我尝试过的:./spark-ec2-i~/.ssh/***.pem\--instance-profile-name***\-k***\--region=us-east-1\--instance-type=m3.xlarge\-s2\--copy-aws-credentials\launchtest-cluster不过，这次安装的是Hadoop1.0。所以我在上面的命令中添加了以下选项:--hadoop-major-version=2\但是，我很快意识到，为了正确运行我的应用程序，我需要Hadoop2.

amazon-web-services services section Hadoop noreferrer apache-spark amazon-ec2

hadoop - 具有 6 到 7 个节点硬件配置的分布式 Spark 和 HDFS 集群

我计划旋转我的开发集群来为基础设施监控应用程序进行趋势分析，我计划使用Spark来分析故障趋势，并使用Cassandra来存储传入数据和分析数据。考虑从大约25000台机器/服务器(可能是不同服务器上的一组相同应用程序)收集性能矩阵。我期望每台机器的性能矩阵大小为2MB/秒，我计划将其插入具有时间戳、服务器作为主键和应用程序以及一些重要矩阵作为集群键的Cassandra表中。我将在此存储的信息之上运行Spark作业，以进行性能矩阵故障趋势分析。关于这个问题，考虑到上述情况，我需要多少个节点(机器)以及CPU和内存方面的什么配置来启动我的集群。最佳答案

hadoop Spark section Cassandra planning apache-spark matrix hardware-infrastructure

scala - Spark 内存限制超出问题

我有一份在spark上运行的工作，它是使用sparkRDD在scalaim中编写的。由于昂贵的分组操作我得到这个错误:容器因超出内存限制而被YARN终止。使用了22.4GB的22GB物理内存。考虑提升spark.yarn.executor.memoryOverhead。我增加了头顶的内存，但我得到了同样的结果。我使用10台r4.xlarge机器。我尝试使用r4.2xlarge甚至r4.4xlarge，但也出现同样的错误。我正在测试的数据是5GB压缩数据(将近50个解压缩数据和近600万条记录)。一些配置:spark.executor.memory:20480Mspark.driver.

scala Spark code section hadoop apache-spark

43 44 454647 48 49