草庐IT

SPARK_HOME

全部标签

linux - 无法创建目录/home/hadoop/.ssh : permission denied?

我正在Ubuntu操作系统上配置hadoop。我需要创建RSAkey对以允许hadoop与其节点交互,所以我运行此命令:hadoop@ubuntu:~$ssh-keygen-trsa-P""然后我明白了:Generatingpublic/privatersakeypair.Enterfileinwhichtosavethekey(/home/hadoop/.ssh/id_rsa):Couldnotcreatedirectory'/home/hadoop/.ssh':permissiondenied.Enterpassphrase(emptyfornopassphrase):Enters

hadoop - 问题 : Scala code in Spark shell to retrieve data from Hbase

我们正在尝试在Sparkshell中执行一个简单的Scala代码以从Hbase检索数据。Hadoop环境启用了Kerberos,我们已确保执行kinit。调用SparkShell的步骤:MASTER=yarn-clientDRIVER_CLASSPATH="/opt/cloudera/parcels/CDH/lib/hbase/lib/*"DRIVER_LIBRARY_PATH="/opt/cloudera/parcels/CDH/lib/hadoop/lib/native"spark-shell--driver-class-path"$DRIVER_CLASSPATH"--drive

ubuntu - 在 Ubuntu : $HADOOP_HOME or $HADOOP_PREFIX must be set or hadoop must be in the 上安装 Hive 的问题

我已经在我的UbuntuEC2实例上安装了Hadoop,并按照本教程完成了安装hive的所有步骤:http://www.tutorialspoint.com/hive/hive_installation.htm但是,当我启动配置单元时,我收到以下错误消息:“找不到hadoop安装:必须设置$HADOOP_HOME或$HADOOP_PREFIX或者hadoop必须在路径中”我的bashrc文件是这样写的:exportJAVA_HOME=/usrexportPATH=$PATH:$JAVA_HOME/binexportHADOOP_HOME=/usr/local/hadoop-2.7.1e

hadoop - 如何在cloudera quickstartVM -5.7.0中获取默认的HIVE_HOME?

如何在cloudera-quickstartVM-5.7中获取环境变量$HIVE_HOME的值?试图通过printenv查看存在的环境变量,它不存在。 最佳答案 HIVE_HOME在调用hiveshell时设置。以下是找到HIVE_HOME的三种方法从hive命令行:[cloudera@quickstart~]$hive-e'!env'|grepHIVE_HOMEHIVE_HOME=/usr/lib/hive来自hiveshell-这将打印与上面相同的变量但是你不能在这里使用grep,所以你必须从所有变量的列表中找到HIVE_HOM

scala - 从自定义数据格式创建 spark 数据框

我有一个文本文件,其中StringREC作为记录分隔符,换行符作为列分隔符,每个数据都附加了列名,以逗号作为分隔符,下面是示例数据格式录音编号,19048学期,牛奶排名,1录音编号,19049术语,Jade米排名,5使用REC作为记录分隔符。现在,我想创建带有列名ID、Term和Rank的spark数据框。请协助我。 最佳答案 这是工作代码importorg.apache.hadoop.conf.Configurationimportorg.apache.hadoop.io.{LongWritable,Text}importorg.

java - 如何解析数据集apache spark java中的多行json

有没有办法使用数据集解析多行json文件这是示例代码publicstaticvoidmain(String[]args){//creatingsparksessionSparkSessionspark=SparkSession.builder().appName("JavaSparkSQLbasicexample").config("spark.some.config.option","some-value").getOrCreate();Datasetdf=spark.read().json("D:/sparktestio/input.json");df.show();}如果json

scala - 如何使用 Spark 独立集群在工作节点上管理多个执行程序?

到目前为止,我只在Hadoop集群上使用Spark,并将YARN作为资源管理器。在那种类型的集群中,我确切地知道要运行多少个执行程序以及资源管理是如何工作的。但是,知道我正在尝试使用独立的SparkCluster,我有点困惑。纠正我错误的地方。来自thisarticle,默认情况下,一个工作节点使用该节点的所有内存减去1GB。但我知道通过使用SPARK_WORKER_MEMORY,我们可以使用更少的内存。例如,如果节点的总内存为32GB,但我指定为16GB,那么Sparkworker不会在该节点上使用超过16GB的内存吗?但是执行者呢?假设我想在每个节点上运行2个执行程序,我可以通过在

scala - Spark 会使用此 sortByKey/map/collect 序列保留键顺序吗?

让我们说,我们有这个。valsx=sc.parallelize(Array((0,39),(4,47),(3,51),(1,98),(2,61)))我们后来称之为。valsy=sx.sortByKey(true)这会让sy=RDD[(0,39),(1,98),(2,61),(3,51),(4,47)]然后我们做collected=sy.map(x=>(x._2/10,x._2)).collect我们会一直得到以下信息吗?我的意思是,尽管更改了键值,是否会保留原始键顺序?collected=[(3,39),(9,98),(6,61),(5,51),(4,47)]

python - 在 Zeppelin 上增加 Spark Executors

我正在使用Hortnworks(HDP2.4)设置集群。我有一个4节点集群,每个节点都有(16Gb-RAM,8-CPU)。为了使用python(pyspark),我还在ZeppelinNotebook上安装了Spark。我的问题是:我从3个节点的配置开始,后来我添加了另一个新节点(如前所述总共4个),无论如何Spark上的执行者数量仍然是“3”。我在网上看到执行者的数量可以在SPARK_EXECUTOR_INSTANCES中设置,但是这个参数只存在于Spark的配置页面的spark-envtemplate中安巴里用户界面。似乎它需要YARN来决定执行者,但在YARN中我还没有找到任何关

java - SPARK 分区和 Worker Core 之间有什么区别?

我使用StandaloneSparkCluster来处理多个文件。当我执行驱动程序时,数据在使用它的核心的每个工作人员上进行处理。现在,我已经阅读了有关Partitions的内容,但我不知道它是否与WorkerCores不同。设置核心数和分区数有区别吗? 最佳答案 简单View:分区与内核数当您调用RDD的操作时,为其创建了一个“工作”。因此,Job是提交给spark的工作。作业根据洗牌边界分为“STAGE”!!!每个阶段根据RDD上的分区数进一步划分为任务。所以Task是spark的最小工作单元。现在,这些任务中有多少可以同时执行