spark_libs

hadoop - 如何将注册为 Spark 表的表放入数据框中

我已经使用spark-thriftserverjdbc连接将表从PostgreSQL数据库导入到spark-sql中，现在我可以从直线上看到这些表。有什么方法可以将这些表转换为spark数据框。最佳答案这适用于Spark>2.0:df=spark.table('表格') 关于hadoop-如何将注册为Spark表的表放入数据框中，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/

放入 hadoop section spark stackoverflow apache-spark apache-spark-sql bigdata

hadoop - 问题 : Scala code in Spark shell to retrieve data from Hbase

我们正在尝试在Sparkshell中执行一个简单的Scala代码以从Hbase检索数据。Hadoop环境启用了Kerberos，我们已确保执行kinit。调用SparkShell的步骤:MASTER=yarn-clientDRIVER_CLASSPATH="/opt/cloudera/parcels/CDH/lib/hbase/lib/*"DRIVER_LIBRARY_PATH="/opt/cloudera/parcels/CDH/lib/hadoop/lib/native"spark-shell--driver-class-path"$DRIVER_CLASSPATH"--drive

retrieve hadoop apache java apache-spark hbase kerberos

scala - 从自定义数据格式创建 spark 数据框

我有一个文本文件，其中StringREC作为记录分隔符，换行符作为列分隔符，每个数据都附加了列名，以逗号作为分隔符，下面是示例数据格式录音编号，19048学期，牛奶排名,1录音编号,19049术语，Jade米排名,5使用REC作为记录分隔符。现在，我想创建带有列名ID、Term和Rank的spark数据框。请协助我。最佳答案这是工作代码importorg.apache.hadoop.conf.Configurationimportorg.apache.hadoop.io.{LongWritable,Text}importorg.

自定 scala 34 section String hadoop apache-spark spark-dataframe

java - 如何解析数据集apache spark java中的多行json

有没有办法使用数据集解析多行json文件这是示例代码publicstaticvoidmain(String[]args){//creatingsparksessionSparkSessionspark=SparkSession.builder().appName("JavaSparkSQLbasicexample").config("spark.some.config.option","some-value").getOrCreate();Datasetdf=spark.read().json("D:/sparktestio/input.json");df.show();}如果json

多行 java 34 section json hadoop apache-spark apache-spark-dataset

scala - 如何使用 Spark 独立集群在工作节点上管理多个执行程序？

到目前为止，我只在Hadoop集群上使用Spark，并将YARN作为资源管理器。在那种类型的集群中，我确切地知道要运行多少个执行程序以及资源管理是如何工作的。但是，知道我正在尝试使用独立的SparkCluster，我有点困惑。纠正我错误的地方。来自thisarticle，默认情况下，一个工作节点使用该节点的所有内存减去1GB。但我知道通过使用SPARK_WORKER_MEMORY，我们可以使用更少的内存。例如，如果节点的总内存为32GB，但我指定为16GB，那么Sparkworker不会在该节点上使用超过16GB的内存吗？但是执行者呢？假设我想在每个节点上运行2个执行程序，我可以通过在

scala Spark code 心数 section apache-spark hadoop cluster-computing apache-spark-standalone

hadoop - java.sql.SQLException : Failed to start database '/var/lib/hive/metastore/metastore_db' in hive 异常

我是hive的初学者。当我尝试执行任何配置单元命令时:hive>显示表格；它显示以下错误:FAILED:Errorinmetadata:javax.jdo.JDOFatalDataStoreException:Failedtostartdatabase'/var/lib/hive/metastore/metastore_db',seethenextexceptionfordetails.NestedThrowables:java.sql.SQLException:Failedtostartdatabase'/var/lib/hive/metastore/metastore_db',se

metastore hive section hadoop

scala - Spark 会使用此 sortByKey/map/collect 序列保留键顺序吗？

让我们说，我们有这个。valsx=sc.parallelize(Array((0,39),(4,47),(3,51),(1,98),(2,61)))我们后来称之为。valsy=sx.sortByKey(true)这会让sy=RDD[(0,39),(1,98),(2,61),(3,51),(4,47)]然后我们做collected=sy.map(x=>(x._2/10,x._2)).collect我们会一直得到以下信息吗？我的意思是，尽管更改了键值，是否会保留原始键顺序？collected=[(3,39),(9,98),(6,61),(5,51),(4,47)]

sortByKey collect code section scala hadoop apache-spark bigdata

python - 在 Zeppelin 上增加 Spark Executors

我正在使用Hortnworks(HDP2.4)设置集群。我有一个4节点集群，每个节点都有(16Gb-RAM，8-CPU)。为了使用python(pyspark)，我还在ZeppelinNotebook上安装了Spark。我的问题是:我从3个节点的配置开始，后来我添加了另一个新节点(如前所述总共4个)，无论如何Spark上的执行者数量仍然是“3”。我在网上看到执行者的数量可以在SPARK_EXECUTOR_INSTANCES中设置，但是这个参数只存在于Spark的配置页面的spark-envtemplate中安巴里用户界面。似乎它需要YARN来决定执行者，但在YARN中我还没有找到任何关

Executors Zeppelin section Spark python hadoop apache-spark hadoop-yarn apache-zeppelin

java - SPARK 分区和 Worker Core 之间有什么区别？

我使用StandaloneSparkCluster来处理多个文件。当我执行驱动程序时，数据在使用它的核心的每个工作人员上进行处理。现在，我已经阅读了有关Partitions的内容，但我不知道它是否与WorkerCores不同。设置核心数和分区数有区别吗？最佳答案简单View:分区与内核数当您调用RDD的操作时，为其创建了一个“工作”。因此，Job是提交给spark的工作。作业根据洗牌边界分为“STAGE”!!!每个阶段根据RDD上的分区数进一步划分为任务。所以Task是spark的最小工作单元。现在，这些任务中有多少可以同时执行

Worker SPARK section code 心数 java hadoop apache-spark

scala - 将 RDD[String] 转换为 RDD[Row] 到 Dataframe Spark Scala

我正在读取一个有很多空格的文件，需要过滤掉空格。之后我们需要将其转换为数据框。下面的示例输入。2017123¦¦10¦running¦00000¦111¦-EXAMPLE我的解决方案是使用以下函数来解析所有空格并修剪文件。deftruncateRDD(fileName:String):RDD[String]={valexample=sc.textFile(fileName)example.map(lines=>lines.replaceAll("""[\t\p{Zs}]+""",""))}但是，我不确定如何将它放入数据框中。sc.textFile返回一个RDD[String]。我尝试了

RDD Dataframe code section String scala hadoop apache-spark spark-dataframe

86 87 888990 91 92