$Spark

hadoop - docker 中的 yarn - __spark_libs__.zip 不存在

我浏览了thisStackOverflow帖子，但它们对我帮助不大。我正在尝试让Yarn在现有集群上运行。到目前为止，我们一直在使用sparkstandalonemanger作为我们的资源分配器，它一直按预期工作。这是我们架构的基本概述。白框中的所有内容都在docker容器中运行。从master-machine我可以从yarn资源管理器容器中运行以下命令并运行一个使用yarn的spark-shell:./pyspark--masteryarn--驱动程序内存1G--executor-memory1G--executor-cores1--conf"spark.yarn.am.memory

spark_libs hadoop gt lt property apache-spark docker hdfs hadoop-yarn

oracle - 如何在 Spark 中使用 Hadoop Credential provider 连接到 Oracle 数据库？

我正在尝试在Spark和Oracle以及Sqoop和Oracle之间建立安全连接。经过研究，我发现了两种不同设置的两种不同选择。将Spark连接到使用spark.jdbc.b64password加密密码的Oracle，并进一步在spark代码中解密并在jdbcurl中使用它。使用Hadoop凭据提供程序创建密码文件，并进一步在Sqoop中使用它连接到Oracle。现在将密码保存在两个不同的文件中似乎不是一个好习惯。我的问题是我们可以在spark中使用Hadoop凭据提供程序来使用为Sqoop创建的相同凭据配置文件吗？如果您有任何其他选择可以使它变得更好，请提供帮助。

何在 Credential section Oracle 凭据 hadoop apache-spark jdbc sqoop

hadoop - 在 Spark SQL 中使用正则表达式函数从字符串中提取特定数字

我在mysql中有一个表，它有POST_ID和相应的INTEREST:我使用以下正则表达式查询来选择包含1,2,3的兴趣。SELECT*FROMINTEREST_POSTwhereINTERESTREGEXP'(?=.*[[::]])(?=.*[[::]])(?=.*[[::]])';我在HDFS中导入了表。但是，当我在SparkSQL中使用相同的查询时，它显示空记录。如何在spark中使用这里的REGEXP函数来选择包含1,2,3的兴趣？最佳答案您正在使用的正则表达式需要稍微更改一下。您可以执行以下操作。scala>valmy

hadoop Spark INTEREST section POST apache-spark-sql

hadoop - Hadoop-3.0.0 与旧版本的 Hive、Pig、Sqoop 和 Spark 的兼容性如何

我们目前在10节点集群上使用hadoop-2.8.0，并计划升级到最新的hadoop-3.0.0。我想知道如果我们将hadoop-3.0.0与旧版本的Spark和其他组件(如Hive、Pig和Sqoop)一起使用，是否会出现任何问题。最佳答案最新的Hive版本不支持Hadoop3.0，看来以后Hive可能会建立在Spark或者其他计算引擎上。关于hadoop-Hadoop-3.0.0与旧版本的Hive、Pig、Sqoop和Spark的兼容性如何，我们在StackOverflow上找

hadoop section code apache-spark hive apache-pig sqoop

hadoop - 实例化 HiveSessionState 时的 Spark2 数据加载问题

在集群模式下使用Spark2读取数据期间出现以下问题。“java.lang.IllegalArgumentException:实例化‘org.apache.spark.sql.hive.HiveSessionState’时出错:”在谷歌搜索了很多之后，我对这个问题一无所知。请帮忙。我运行的代码spark=SparkSession.builder.getOrCreate();vallines:Dataset[String]=spark.read.textFile("/data/sample/abc.csv").异常来自上面的行。异常全栈跟踪:ERRORyarn.ApplicationMa

HiveSessionState hadoop apache spark java apache-spark-2.0

hadoop - 如何在写入 hive orc 表时合并 spark 中的小文件

我正在从s3读取csv文件并作为orc写入配置单元表。在写入时，它正在写入很多小文件。我需要合并所有这些文件。我设置了以下属性:spark.sql("SEThive.merge.sparkfiles=true")spark.sql("SEThive.merge.mapredfiles=true")spark.sql("SEThive.merge.mapfiles=true")spark.sql("sethive.merge.smallfiles.avgsize=128000000")spark.sql("sethive.merge.size.per.task=128000000")除了

何在 hadoop code section repartition apache-spark merge hive

hadoop - Spark 独立模式 : Worker not starting properly in cloudera

我是spark的新手，在使用cloudera管理器中提供的包裹安装spark之后。我已经配置了以下来自clouderaenterprise的链接中所示的文件:http://www.cloudera.com/content/cloudera-content/cloudera-docs/CM4Ent/4.8.1/Cloudera-Manager-Installation-Guide/cmig_spark_installation_standalone.html完成此设置后，我通过运行/opt/cloudera/parcels/SPARK/lib/spark/sbin/start-all.s

cloudera starting spark localhost localdomain hadoop bigdata apache-spark cloudera-manager

hadoop - 安装 Spark Cluster，Hive 的问题

我正在尝试启动Spark/Shark集群，但一直遇到同样的问题。我已按照https://github.com/amplab/shark/wiki/Running-Shark-on-a-Cluster上的说明进行操作并按照说明处理Hive。我认为SharkDriver正在使用另一个版本的Hadoopjar，但不确定原因。这是详细信息，任何帮助都会很棒。星火/鲨鱼0.9.0ApacheHadoop2.3.0Amplabshive0.11斯卡拉2.10.3Java7我已经安装了所有东西，但我收到了一些弃用警告，然后是一个异常:14/03/1411:24:47信息Configuration.d

Cluster hadoop java apache apache-spark shark-sql

exception - AWS EC2 上的 Spark 在开始我的工作时抛出 EOFException

我正在尝试在我使用他们提供的Spark-ec2脚本创建的Spark集群上运行我的Spark作业。我能够运行SparkPi示例，但每当我运行我的工作时，我都会收到此异常:Exceptioninthread"main"java.io.IOException:Calltoec2-XXXXXXXXXX.compute-1.amazonaws.com/10.XXX.YYY.ZZZZ:9000failedonlocalexception:java.io.EOFExceptionatorg.apache.hadoop.ipc.Client.wrapException(Client.java:1107

EOFException exception java apache cloudera hadoop amazon-web-services apache-spark

scala - Spark - 使用 BytesWritable 类型按键排序

我想使用hadoop示例RandomWriter进行基准测试并生成文件。键和值的类型都是BytesWritable。那么我该如何使用Spark对这个文件进行排序呢？看来我不能直接调用sortByKey()。最佳答案您要做的是在RDD中使用.sortBy方法。，正确的？这就是为什么您找不到OrderedRDDFunctions的.sortByKey方法的原因。正如@JustinPihony指出的那样，这需要对key进行隐式排序，在本例中(AFAIK)将定义为:implicitvalrandomWriterOrdering=newO

BytesWritable 按键 code section RandomWriter scala hadoop apache-spark

49 50 515253 54 55