草庐IT

spark-ml

全部标签

python - apache spark 加载内部文件夹

importfindsparkfindspark.init('C:\spark')frompyspark.sqlimportSparkSessionspark=SparkSession.builder.getOrCreate()a=[]i=1880whilei我运行代码但出现错误;dataset1=spark.read.format('csv').option('header','true').load('C://venq/uyh/'+a)类型错误:只能将str(不是“列表”)连接到str我有一个“C:\venq\uyh\1880\1880\verr.csv”格式的循环。我在嵌套文件夹

java - Spark wordcount 断言失败 : unsafe symbol Unstable

我已经使用HortonworksAmbari安装了HDFS、Yarn和Spark。我编写了简单的程序来读取/读取HDFS、Map-Reducewordcount,一切正常。然后我尝试测试Spark。我从官方Spark示例中复制了字数统计程序:publicfinalclassJavaWordCount{privatestaticfinalPatternSPACE=Pattern.compile("");publicstaticvoidmain(String[]args)throwsException{if(args.length");System.exit(1);}SparkSessio

apache-spark - DCOS 集群上的 Spark 提交失败,出现 java.net.UnknownHostException : hdfs

我正在DCOS集群上以集群/休息模式运行spark-submit:$./spark-submit--deploy-modecluster--mastermesos://localhost:7077--confspark.master.rest.enabled=true--confspark.mesos.uris=http://api.hdfs.marathon.l4lb.thisdcos.directory/v1/endpoints/hdfs-site.xml,http://api.hdfs.marathon.l4lb.thisdcos.directory/v1/endpoints/c

java - 如何在 Cloudera 中安排/触发 Spark 作业?

目前我们的项目在MR上,我们使用Oozie来编排我们的MR作业。现在我们正在转向Spark,并且想知道在CDH集群上调度/触发Spark作业的推荐方法。请注意,CDHOozie不支持Spark2作业。所以请为此提供一个替代方案。 最佳答案 我上次查看时,Hue在Worlflow编辑器中有一个Spark选项。如果Cloudera不支持它,我不确定它为什么会在那里......虽然CDHOozie确实支持纯shell脚本,但您需要确保所有NodeManager都将在本地服务器上提供可用的spark-submit命令。如果这不起作用,它还支

apache-spark - PySpark:如何在读取 Parquet 时读取分区列

我将数据存储在Parquet文件和按年、月、日分区的配置单元表中。因此,每个parquet文件都存储在/table_name/year/month/day/文件夹中。我只想读入部分分区的数据。我有如下各个分区的路径列表:paths_to_files=['hdfs://data/table_name/2018/10/29','hdfs://data/table_name/2018/10/30']然后尝试做类似的事情:df=sqlContext.read.format("parquet").load(paths_to_files)但是,我的数据不包含关于年月日的信息,因为这不是数据本身的一

apache-spark - 分发文件副本给执行者

我有一堆数据(在S3上)正在复制到本地HDFS(在亚马逊EMR上)。现在我正在使用org.apache.hadoop.fs.FileUtil.copy执行此操作,但尚不清楚这是否会将文件副本分发​​给执行程序。SparkHistory服务器中肯定没有显示任何内容。HadoopDistCp看起来很像(注意我在S3上,所以它实际上应该是s3-dist-cp构建在dist-cp)除了它是一个命令行工具。我正在寻找一种从Scala脚本(又名Java)调用它的方法。有什么想法/线索吗? 最佳答案 cloudcp是使用Spark做复制的例子;文

apache-spark - Azure HDInsight 的 SparkRunner 上的 Apache Beam 管道

我尝试让Beam管道在Azure的HDInsightSparkRunner上运行。我首先尝试使用基于Spark2.3.0/Hadoop2.7(HDI3.6)的集群,然后是2.3.1/Hadoop3.0(HDI4.0Preview)。我尝试使用ApacheBeam2.2.0和下一个2.10.0-SNAPSHOT。spark-submit命令是(对于Beam2.10.0):JARS="wasbs:///dependency/hadoop-azure-3.1.1.3.0.2.0-50.jar,wasbs:///dependency/azure-storage-7.0.0.jar,wasbs:

apache-spark - 在 rapidminer : error occurred during submitting or starting the spark job 上运行 Spark

我正在使用rapidminer从大型数据集中提取规则。Radoop是hadoop生态系统的扩展,而sparkRM运算符允许进行fp-growth,从从hive检索数据到探索分析。我正在尝试:-Windows8.1-hadoop6.2-Spark1.5-hive2.1我已将spark-default-conf配置如下:#spark.masteryarn#spark.eventLog.enabledtrue#spark.eventLog.dirhdfs://namenode:8021/directory#spark.serializerorg.apache.spark.serializer

apache-spark - Hadoop 最好的 spark 2.4 版本

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。关闭4年前。Improvethisquestion我是BIGDATA(spark)的初学者,现在已经安装了spark2.4,所以我想知道应该选择哪个版本最好。因为我想避免冲突,这太糟糕了。

apache-spark - 如何优化 Hadoop MapReduce 在 Google Datproc 中压缩 Spark 输出?

目标:需要尽可能快速高效地提取Cassandra中的数百万行并将其压缩到一个文件中(每天)。当前设置使用GoogleDataproc集群运行Spark作业,将数据直接提取到GoogleCloudStorage存储桶中。我尝试了两种方法:使用(现已弃用)FileUtil.copyMerge()将大约9000个Spark分区文件组合成一个未压缩的文件,然后提交一个HadoopMapReduce作业来压缩该单个文件。将大约9000个Spark分区文件保留为原始输出,并提交HadoopMapReduce作业以将这些文件合并并压缩成一个文件。一些工作细节:大约8亿行。Spark作业输出的Spar