主键Spark_草庐IT

apache-spark - 为什么在 hadoop 上使用 H2O 时在 Yarn 中看不到具体的任务执行？

我按照官方要求在yarn上运行了H2O:http://h2o-release.s3.amazonaws.com/h2o/rel-wolpert/11/index.html这是我的命令:cd~/opt/h2o-3.18.0.8-hdp2.6hadoopjarh2odriver.jar-nodes1-mapperXmx6g-output/user/spark/h2o-3_output而且h2o集群运行成功。但是我在h2o-flow中运行exampleflow之后，并没有看到任何与GBM算法相关的计算，只有H2O本身。我想我会看到这样的东西。这是使用RapidMiner的决策树流程图的结果，

中看 apache-spark section image H2O hadoop hadoop-yarn

Java 序列化 vs Hadoop 序列化 vs Spark 序列化

我研究过Java的Serialization和Deserialization过程，并试图理解Hadoop和Spark还有。谁能告诉我Hadoop、Spark和Java的序列化过程之间的区别。最佳答案 Hadoop有自己的序列化接口(interface)(Writable)，旨在让产生的垃圾尽可能少。当mapper或reducer运行时，实现它的对象是可变的和重用的，从而进一步减少了垃圾量。此外，经过适当设计的Writable可以由不同版本的代码编写，解决了Serializable的固有问题。Spark没有自己的序列化，默认使用原生

Hadoop Spark code section java apache-spark serialization deserialization

java - Spark Java API，数据集操作？

我是新的sparkJavaAPI。我的数据集包含两列(account,Lib)。我想显示具有不同库的帐户。事实上我的数据集是这样的。ds1+---------+------------+|account|Lib|+---------+------------+|222222|bbbb||222222|bbbb||222222|bbbb|||||333333|aaaa||333333|bbbb||333333|cccc|||||444444|dddd||444444|dddd||444444|dddd|||||555555|vvvv||555555|hhhh||555555|vvvv|我

Spark java section 34 account apache-spark hadoop hdfs

apache-spark - 使用 Apache Spark 获取大量时间范围的最快方法是什么？

我在Hadoop中有大约100GB的时间序列数据。我想使用Spark从1000个不同的时间范围内抓取所有数据。我已经尝试使用ApacheHive来创建一个非常长的SQL语句，其中包含大约1000个'ORBETWEENXANDYORBETWEENQANDR'语句。我也尝试过使用Spark。在这种技术中，我创建了一个具有相关时间范围的数据框，并将其加载到spark中:spark_session.CreateDataFrame()和df.registerTempTable()有了这个，我正在与新创建的时间戳数据框和更大的时间戳数据集进行连接。此查询需要很长时间，我想知道是否有更有效的方法来执

apache-spark 最快 section code pre hadoop bigdata

scala - 如何从 Spark Executor 获取或创建 Hadoop 客户端

在对SparkDataframe执行mapPartitions操作时，是否有任何方法可以从SparkExecutor获取Hadoop文件系统？如果没有，至少有什么方法可以获取Hadoop配置以生成新的Hadoop文件系统？考虑到HDFS是基于Kerberos的。用例类似于(伪代码):spark.sql("SELECT*FROMcities").mapPartitions{iter=>iter.groupedBy(some-variable).foreach{rows=>hadoopFS.write(rows)}TaskContext.getPartitionId}

Executor Hadoop section scala spark apache-spark apache-spark-sql hdfs

java - Spark App 参数编码

Spark似乎为应用程序参数使用了平台编码参数，但具体是哪一个呢？我用这样的参数启动一个spark应用程序:finalListparams=createParamList(...)sparkLauncher.addAppArgs(params.toArray(newString[params.size()]));似乎是平台相关的，在某些平台上，编码是错误的:INFOS:childArgs[[...]---user=Syst??me]用户应该是“Système”我尝试将javaoptsfile.encoding参数设置为驱动程序和执行程序，但我没有更改任何内容。有没有人有想法？谢谢

Spark java section code params apache-spark hadoop encoding hdfs

java - 尝试使用 spark shell 计算托管在本地 HDFS 上的文件中的行数时出现 HadoopRDD 错误

我是ApacheSpark、Scala和Hadoop工具的新手。我已经设置了一个新的本地单节点Hadoop集群，如前所述here并且还设置了spark以提供对此Hadoop环境的引用，如前所述here.我能够验证spark-shell、sparkUI已启动并正在运行。此外，我可以使用localhost查看HDFS。.为了更进一步，我将示例文件上传到HDFS，并使用Hadooplocalhost验证它是否可用。现在，我尝试使用Java和spark-shell(Scala)来计算文件中的行数，但是这两个调用都因该堆栈跟踪而失败。Exceptioninthread"dag-scheduler

时出 HadoopRDD spark apache Hadoop java scala apache-spark bigdata

apache-spark - 由于 java.io.FileNotFoundException :/hadoop/yarn/nm-local-dir/usercache/root/appcache/，Google Dataproc 上的 Spark 失败

几个月来，我一直在通过Zeppelin和Dataproc控制台在Dataproc上使用Spark/Hadoop，但最近我遇到了以下错误。Causedby:java.io.FileNotFoundException:/hadoop/yarn/nm-local-dir/usercache/root/appcache/application_1530998908050_0001/blockmgr-9d6a2308-0d52-40f5-8ef3-0abce2083a9c/21/temp_shuffle_3f65e1ca-ba48-4cb0-a2ae-7a81dcdcf466(Nosuchfil

FileNotFoundException apache-spark java 抢占 DiskBlockObjectWriter hadoop google-cloud-storage google-cloud-dataproc

MongoDB 和 Spark : difference between mongo-hadoop and mongo-spark

mongo-hadoop和mongo-spark连接器有什么区别，pymongo是否只能与mango-hadoop一起使用？pymongo是否只能与mongo-hadoop一起使用？最佳答案 MongoDBConnectorforHadoop是一个库，它允许MongoDB(或其数据格式的备份文件，BSON)用作HadoopMapReduce任务的输入源或输出目标。它旨在提供更大的灵active和性能，并使MongoDB中的数据与Hadoop生态系统的其他部分(包括以下部分)轻松集成:pigSparkmap化简Hadoop流媒体hi

mongo mongo-hadoop section strong MongoDB apache-spark hadoop pymongo

apache-spark - 无法使用 pyspark 写入 hdfs

我正在尝试使用pyspark将数据写入hdfs，如下所示:importpysparkfrompyspark.sqlimportSparkSessionsparkSession=SparkSession.builder.appName("example-pyspark-read-and-write").getOrCreate()data=[('First',1),('Second',2),('Third',3),('Fourth',4),('Fifth',5)]df=sparkSession.createDataFrame(data)df.write.csv("hdfs://:9000/

apache-spark pyspark code section hdfs hadoop