sparking

Java 读写 Spark Vector 到 Hdfs

我写了Vector的(org.apache.spark.mllib.linalg.Vector)到HDFS如下publicvoidwritePointsToFile(Pathpath,FileSystemfs,Configurationconf,Listpoints)throwsIOException{SequenceFile.Writerwriter=SequenceFile.createWriter(conf,Writer.file(path),Writer.keyClass(LongWritable.class),Writer.valueClass(Vector.class));

windows - 在 yarn cluster (linux) : Error no sheme for Filesystem "C" 上从客户端 (windows) 执行 spark

我想将一个spark应用程序(只是一个简单的HelloWorld应用程序)部署到我的hadoop集群。在我的Windows机器上使用spark提交，我使用--masteryarn在客户端模式下执行应用程序。连接到hadoop集群是成功的，在集群上的日志文件中可以看到。(hadoopconf文件已经从集群下载下来，保存在客户端windows机器上，环境变量已经设置好)。使用hadoop2.7和spark1.6这是使用的spark-submit命令:>spark-submit--masteryarn--class"SimpleApp"..\..\SimpleApp\target\scala

windows Filesystem sensored 10 INFO hadoop apache-spark client hadoop-yarn

scala - 如何让 Spark slave 在 Hadoop+Spark 集群中使用 HDFS 输入文件 'local'？

我有一个由9台计算机组成的集群，上面安装了ApacheHadoop2.7.2和Spark2.0.0。每台计算机都运行一个HDFSdatanode和Sparkslave。其中一台计算机还运行HDFSnamenode和Sparkmaster。我已经在复制=2的HDFS中上传了几TB的gz存档。事实证明，某些文件已损坏。我想找到他们。看起来“gunzip-t”可以提供帮助。所以我试图找到一种在集群上运行Spark应用程序的方法，以便每个Spark执行程序测试存档“本地”(即，其中一个副本位于该执行程序运行的同一台计算机上)只要它是可能的。以下脚本运行，但有时Spark执行程序会处理HDFS中

amp Spark 34 scala hadoop apache-spark hdfs cluster-computing

scala - 使用 Spark Scala 将 HDFS 文件内容存储在 ArrayBuffer 中

我正在尝试搜索特定关键字并将与该词关联的整行放入数组缓冲区中。我正在使用下面的示例并尝试将所有HHH放入数组缓冲区。示例PID|1|5897450M|58974650M|58977650M|CSTO^TES||19320722|F|||745-81ST^^IAMIBEH^FL^341|||||||332165520ORC||5033220|503320||||||20150202|||1689659096^HAM^MISH^^^^PIOBR|1||64564|DFDEFAULT|||20150202|2015002||||||||16096^^^^^I|||||||||HHH|1|NM

ArrayBuffer scala section 20150202 strong hadoop apache-spark cloudera bigdata

hadoop - 创建 SPARK RDD(HDFS 上的文件)和调用 Action 时出错

scala>valmanager=sc.textFile("hdfs://localhost:54310/user/training/employee_dir/employeeManager")scala>manager.first错误:java.io.EOFException:EndofFileExceptionbetweenlocalhostis:"localhost.localdomain/127.0.0.1";destinationhostis:"localhost":54310;:java.io.EOFException;Formoredetailssee:http://wi

时出 hadoop section 34 localhost apache-spark

hadoop - map 转换性能 spark dataframe 与 RDD

我有一个四节点hadoop集群(mapr)，每个集群有40GB内存。我需要在大数据集(5亿行)的其中一个字段上“应用”一个函数。我的代码流程是，我从配置单元表中读取数据作为spark数据帧，并在其中一列上应用所需的函数，如下所示:schema=StructType([StructField("field1",IntegerType(),False),StructField("field2",StringType(),False),StructField("field3",FloatType(),False)])udfCos=udf(lambdarow:function_call(row

dataframe hadoop spark section code apache-spark pyspark mapr

scala - Apache Spark : how to cancel job in code and kill running tasks?

我在客户端模式下使用Yarn(版本2.6.0)在Hadoop集群上运行Spark应用程序(版本1.6.0)。我有一段运行长时间计算的代码，如果它花费的时间太长，我想终止它(然后运行一些其他函数)。这是一个例子:valconf=newSparkConf().setAppName("TIMEOUT_TEST")valsc=newSparkContext(conf)vallst=List(1,2,3)//settingupaninfiteactionvalfuture=sc.parallelize(lst).map(while(true)_).collectAsync()try{Await.

running Apache section val scala hadoop apache-spark hadoop-yarn

hadoop - 将 org.apache.spark.rdd.RDD[String] 转换为并行化集合

我的HDFS中有一个csv文件，其中包含一系列产品，例如:[56][85,66,73][57][8,16][25,96,22,17][83,61]我正在尝试在我的代码中应用关联规则算法。为此我需要运行这个:scala>valdata=sc.textFile("/user/cloudera/data")data:org.apache.spark.rdd.RDD[String]=/user/cloudera/dataMapPartitionsRDD[294]attextFileat:38scala>valdistData=sc.parallelize(data)但是当我提交这个时我得到了这

hadoop apache section code spark apache-spark sequence rdd

hadoop - 关于在 spark 上配置配置单元的问题

我已经下载了spark-2.0.0-bin-hadoop2.7。谁能建议如何在此配置配置单元并在scala控制台中使用？现在我可以使用Scala(spark-shell控制台)在文件上运行RDD。最佳答案遵循官方HiveonSpark文档:https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3A+Getting+Started您可以使用以下命令在Hive上设置Spark引擎:sethive.execution.engine=spark;或者通过将其添加到h

配置单 hadoop spark section apache-spark hive hdfs bigdata

python - Hadoop/Spark 读取许多 CSV 文件

许多 python level code section csv hadoop apache-spark hdfs

199 200 201202203 204 205