草庐IT

apache-spark-2.3

全部标签

apache-spark - 提供者 org.apache.hadoop.fs.s3a.S3AFileSystem 无法实例化

我正在尝试将模型学习从我的SparkStandalone集群保存到S3。但是我有这个错误:java.util.ServiceConfigurationError:org.apache.hadoop.fs.FileSystem:Providerorg.apache.hadoop.fs.s3a.S3AFileSystemcouldnotbeinstantiatedatjava.util.ServiceLoader.fail(ServiceLoader.java:232)atjava.util.ServiceLoader.access$100(ServiceLoader.java:185)a

apache-spark - Apache Yarn - 分配比物理内存或 RAM 更多的内存

我正在考虑将yarn.nodemanager.resource.memory-mb更改为高于我机器上可用RAM的值。快速搜索发现没有多少人这样做。许多在yarn上长期存在的应用程序,必然会有一个jvm堆空间分配,其中一些内存被更频繁地使用,而另一些则很少被使用。在这种情况下,对于此类应用程序来说,将一些不常用的内存部分交换到磁盘并将可用的物理内存重新分配给需要它的其他应用程序将是非常有意义的。鉴于上述背景,有人可以证实我的推理或提供另一种观点吗?另外,能否请您说明参数yarn.nodemanager.vmem-pmem-ratio在上述情况下的工作原理? 最

hadoop - Apache hadoop 中节点之间的距离是什么意思?

我正在阅读Hadoop中的一个采访问题,它说:如何获取ApacheHadoop中两个节点之间的距离?有一个解决方案,但我不太理解两个节点之间的距离这个术语。这是什么意思? 最佳答案 这是一个很好的答案:https://qr.ae/pGRAyl您可以在此处找到更多实现细节:https://hadoop.apache.org/docs/r2.10.0/hadoop-project-dist/hadoop-common/RackAwareness.html 关于hadoop-Apachehad

hadoop - 失败 : Execution Error, 在配置单元中的连接操作期间从 org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask​​ 返回代码 2

我正尝试在配置单元中对以下两个表运行连接查询-selectb.locationfromuser_activity_ruleainnerjoinuser_info_rulebwherea.uid=b.uidanda.cancellation=true;QueryID=username_20180530154141_0a187506-7aca-442a-8310-582d335ad78dTotaljobs=1OpenJDK64-BitServerVMwarning:ignoringoptionMaxPermSize=512M;supportwasremovedin8.0Executionl

apache-spark - 为什么在 hadoop 上使用 H2O 时在 Yarn 中看不到具体的任务执行?

我按照官方要求在yarn上运行了H2O:http://h2o-release.s3.amazonaws.com/h2o/rel-wolpert/11/index.html这是我的命令:cd~/opt/h2o-3.18.0.8-hdp2.6hadoopjarh2odriver.jar-nodes1-mapperXmx6g-output/user/spark/h2o-3_output而且h2o集群运行成功。但是我在h2o-flow中运行exampleflow之后,并没有看到任何与GBM算法相关的计算,只有H2O本身。我想我会看到这样的东西。这是使用RapidMiner的决策树流程图的结果,

Java 序列化 vs Hadoop 序列化 vs Spark 序列化

我研究过Java的Serialization和Deserialization过程,并试图理解Hadoop和Spark还有。谁能告诉我Hadoop、Spark和Java的序列化过程之间的区别。 最佳答案 Hadoop有自己的序列化接口(interface)(Writable),旨在让产生的垃圾尽可能少。当mapper或reducer运行时,实现它的对象是可变的和重用的,从而进一步减少了垃圾量。此外,经过适当设计的Writable可以由不同版本的代码编写,解决了Serializable的固有问题。Spark没有自己的序列化,默认使用原生

java - Spark Java API,数据集操作?

我是新的sparkJavaAPI。我的数据集包含两列(account,Lib)。我想显示具有不同库的帐户。事实上我的数据集是这样的。ds1+---------+------------+|account|Lib|+---------+------------+|222222|bbbb||222222|bbbb||222222|bbbb|||||333333|aaaa||333333|bbbb||333333|cccc|||||444444|dddd||444444|dddd||444444|dddd|||||555555|vvvv||555555|hhhh||555555|vvvv|我

apache-spark - 使用 Apache Spark 获取大量时间范围的最快方法是什么?

我在Hadoop中有大约100GB的时间序列数据。我想使用Spark从1000个不同的时间范围内抓取所有数据。我已经尝试使用ApacheHive来创建一个非常长的SQL语句,其中包含大约1000个'ORBETWEENXANDYORBETWEENQANDR'语句。我也尝试过使用Spark。在这种技术中,我创建了一个具有相关时间范围的数据框,并将其加载到spark中:spark_session.CreateDataFrame()和df.registerTempTable()有了这个,我正在与新创建的时间戳数据框和更大的时间戳数据集进行连接。此查询需要很长时间,我想知道是否有更有效的方法来执

scala - 如何从 Spark Executor 获取或创建 Hadoop 客户端

在对SparkDataframe执行mapPartitions操作时,是否有任何方法可以从SparkExecutor获取Hadoop文件系统?如果没有,至少有什么方法可以获取Hadoop配置以生成新的Hadoop文件系统?考虑到HDFS是基于Kerberos的。用例类似于(伪代码):spark.sql("SELECT*FROMcities").mapPartitions{iter=>iter.groupedBy(some-variable).foreach{rows=>hadoopFS.write(rows)}TaskContext.getPartitionId}

hadoop - Apache Kylin 的 Hibernate 方言

我想尝试ApacheKylin构建的OLAP多维数据集的Jpa实现。有没有我可以用于ApacheKylin的休眠方言? 最佳答案 据我所知,麒麟没有休眠方言。Kylin的SQL是ANSI-SQL的子集(仅查询)。大多数Kylin用户都在使用Tableau、Superset等工具,或者他们开发了自己的查询工具将SQL发送到Kylin。Hibernate在OLTP中被广泛使用,在OLAP中我没有看到很多案例。只是我的两分钱。 关于hadoop-ApacheKylin的Hibernate方言,