apache-spark-1.3

hadoop - 将 LD_PRELOAD 与 Apache Spark(或 YARN)结合使用

我们在ApacheHadoopYARN上运行Spark作业。我特别需要在这些作业上使用“LD_PRELOAD技巧”。(在任何人panic之前，它不是用于生产运行；这是自动化作业测试的一部分)。我知道如何在作业中提交额外的文件，我知道如何在节点上设置环境变量，所以将这些设置添加到spark-defaults.conf几乎提供了一个解决方案:spark.files=/home/todd/pwn_connect.sospark.yarn.appMasterEnv.LD_PRELOAD=pwn_connect.sospark.executorEnv.LD_PRELOAD=pwn_connect

java - 与 csv 文件相比，将 mysql 表转换为 spark 数据集非常慢

我在Amazons3中有一个大小为62mb(114000行)的csv文件。我正在将它转换为spark数据集，并从中获取前500行。代码如下；DataFrameReaderdf=newDataFrameReader(spark).format("csv").option("header",true);Datasetset=df.load("s3n://"+this.accessId.replace("\"","")+":"+this.accessToken.replace("\"","")+"@"+this.bucketName.replace("\"","")+"/"+this.fil

mysql spark 34 code java apache-spark jdbc amazon-s3

java - 如何更新 "Practical Graph Analytics with Apache Giraph"示例以在当前 Cloudera Quickstart VM 上运行

我是Hadoop/Giraph和Java的新手。作为任务的一部分，我在其上下载了ClouderaQuickstartVM和Giraph。我正在使用这本书，名为“使用ApacheGiraph进行实用图形分析；作者:Shaposhnik、Roman、Martella、Claudio、Logothetis、Dionysios”，我尝试从中运行第111页上的第一个示例(TwitterFollowershipGraph)。编辑:显然，书中的示例(2015年出版)所依赖的Hadoop版本比当前(2017年)版本的ClouderaQuickstartVM提供的版本要旧得多。如何让示例运行？原帖:运行

Quickstart amp gt lt apache java maven hadoop cloudera-quickstart-vm giraph

hadoop - docker 中的 yarn - __spark_libs__.zip 不存在

我浏览了thisStackOverflow帖子，但它们对我帮助不大。我正在尝试让Yarn在现有集群上运行。到目前为止，我们一直在使用sparkstandalonemanger作为我们的资源分配器，它一直按预期工作。这是我们架构的基本概述。白框中的所有内容都在docker容器中运行。从master-machine我可以从yarn资源管理器容器中运行以下命令并运行一个使用yarn的spark-shell:./pyspark--masteryarn--驱动程序内存1G--executor-memory1G--executor-cores1--conf"spark.yarn.am.memory

spark_libs hadoop gt lt property apache-spark docker hdfs hadoop-yarn

oracle - 如何在 Spark 中使用 Hadoop Credential provider 连接到 Oracle 数据库？

我正在尝试在Spark和Oracle以及Sqoop和Oracle之间建立安全连接。经过研究，我发现了两种不同设置的两种不同选择。将Spark连接到使用spark.jdbc.b64password加密密码的Oracle，并进一步在spark代码中解密并在jdbcurl中使用它。使用Hadoop凭据提供程序创建密码文件，并进一步在Sqoop中使用它连接到Oracle。现在将密码保存在两个不同的文件中似乎不是一个好习惯。我的问题是我们可以在spark中使用Hadoop凭据提供程序来使用为Sqoop创建的相同凭据配置文件吗？如果您有任何其他选择可以使它变得更好，请提供帮助。

何在 Credential section Oracle 凭据 hadoop apache-spark jdbc sqoop

hadoop - 在 Spark SQL 中使用正则表达式函数从字符串中提取特定数字

我在mysql中有一个表，它有POST_ID和相应的INTEREST:我使用以下正则表达式查询来选择包含1,2,3的兴趣。SELECT*FROMINTEREST_POSTwhereINTERESTREGEXP'(?=.*[[::]])(?=.*[[::]])(?=.*[[::]])';我在HDFS中导入了表。但是，当我在SparkSQL中使用相同的查询时，它显示空记录。如何在spark中使用这里的REGEXP函数来选择包含1,2,3的兴趣？最佳答案您正在使用的正则表达式需要稍微更改一下。您可以执行以下操作。scala>valmy

hadoop Spark INTEREST section POST apache-spark-sql

hadoop - 以不同用户身份运行 Apache Zeppelin

如何以与启动该过程的用户不同的用户身份运行Zeppelin解释器？我想以“root”身份运行Zeppelin，然后以“admin”用户身份启动spark应用程序最佳答案您可以像当前一样继续运行Zeppelin，但以该管理员用户身份单独启动Spark进程。Spark解释器可以指向外部主机。打开Zeppelin解释器配置并更改spark主配置key的值，将其指向由管理员用户启动的实例。换句话说，你有一个spark进程:#Firstrunsparkasadmin:$/path/to/spark/sbin/start-all.sh#Th

Zeppelin hadoop section spark apache-spark apache-zeppelin

hadoop - Hadoop-3.0.0 与旧版本的 Hive、Pig、Sqoop 和 Spark 的兼容性如何

我们目前在10节点集群上使用hadoop-2.8.0，并计划升级到最新的hadoop-3.0.0。我想知道如果我们将hadoop-3.0.0与旧版本的Spark和其他组件(如Hive、Pig和Sqoop)一起使用，是否会出现任何问题。最佳答案最新的Hive版本不支持Hadoop3.0，看来以后Hive可能会建立在Spark或者其他计算引擎上。关于hadoop-Hadoop-3.0.0与旧版本的Hive、Pig、Sqoop和Spark的兼容性如何，我们在StackOverflow上找

hadoop section code apache-spark hive apache-pig sqoop

apache - Hbase ipc.RpcServer responseTooSlow 问题和区域服务器关闭

我已经使用Hadoop2.7.4配置了Hbase1.2.6。我已经在上面配置了Nutch。以下是两个Hbase站点属性hbase.rpc.timeout1200000Changedto20minuteshbase.client.scanner.timeout.period1200000Changedto10minutes当我开始工作时。警告开始一段时间后，区域服务器关闭。这就是为什么Job也失败了。2017-12-2217:39:25,660WARN[B.defaultRpcServer.handler=18,queue=0,port=16020]ipc.RpcServer:(resp

responseTooSlow RpcServer 34 section client apache hadoop timeout hbase nutch

hadoop - 实例化 HiveSessionState 时的 Spark2 数据加载问题

在集群模式下使用Spark2读取数据期间出现以下问题。“java.lang.IllegalArgumentException:实例化‘org.apache.spark.sql.hive.HiveSessionState’时出错:”在谷歌搜索了很多之后，我对这个问题一无所知。请帮忙。我运行的代码spark=SparkSession.builder.getOrCreate();vallines:Dataset[String]=spark.read.textFile("/data/sample/abc.csv").异常来自上面的行。异常全栈跟踪:ERRORyarn.ApplicationMa

HiveSessionState hadoop apache spark java apache-spark-2.0