spark_libs

hadoop - 如何使用 hive/spark-sql 生成大数据集？

例如生成序号在1到1G之间的1G记录。最佳答案创建分区种子表createtableseed(iint)partitionedby(pint)用序列号在0到999之间的1K记录填充种子表。每条记录都被插入到不同的分区中，因此位于不同的HDFS目录中，更重要的是-在不同的文件中。附言需要以下集合sethive.exec.dynamic.partition.mode=nonstrict;sethive.exec.max.dynamic.partitions.pernode=1000;sethive.hadoop.supports.sp

大数 spark-sql strong section code hadoop apache-spark hive apache-spark-sql hiveql

hadoop - 使用 Ambari 2.4.2.0 安装 spark 2.1.0

我对Spark和Ambari的集群安装还比较陌生。最近，我接到一个任务，要在一个集群上安装Spark2.1.0，该集群预装了带有Spark1.6.2和HDFS&YARN2.7.3的Ambari。我的任务是安装Spark2.1.0，因为它是最新版本，与RSpark等具有更好的兼容性。我在互联网上搜索了几天，只在AWS或Spark2.1.0上找到了一些安装指南。例如:http://data-flair.training/blogs/install-deploy-run-spark-2-x-multi-node-cluster-step-by-step-guide/和http://spark

hadoop Ambari Spark section apache-spark cluster-computing hortonworks-data-platform

hadoop - Spark 上的错误 'neither present in the group by, nor is it an aggregate function'

关闭。这个问题需要debuggingdetails.它目前不接受答案。编辑问题以包含desiredbehavior,aspecificproblemorerror,andtheshortestcodenecessarytoreproducetheproblem.这将有助于其他人回答问题。关闭5年前。Improvethisquestion表格:id|val|category----------------a1|10|Aa1|30|Ba1|20|Ca2|5|Aa2|7|Ba2|2|Ca3|50|Ca3|60|Ba3|90|A查询:SELECTmax(val),id,categoryFROM

amp aggregate section code Spark hadoop apache-spark relational-database apache-spark-sql non-relational-database

hadoop - 在单节点上运行 Spark on YARN

我正在学习一些数据科学，我正在尝试发现和理解与之相关的各种工具。到目前为止，我已经在MacOS上成功安装了Hadoop2.8.0，现在我想让Spark2.1.1也能正常工作。我知道Spark不一定需要Hadoop环境才能工作，但我也知道让它在YARN上运行对于与其他应用程序共享数据很有用。在网上阅读了不同的指南和建议后，这就是我所做的:在Hadoop配置文件中，我在yarn-site.xml中添加:yarn.nodemanager.aux-servicesmapreduce_shuffleyarn.nodemanager.aux-services.mapreduce.shuffle.c

hadoop Spark scala apache at apache-spark hadoop-yarn

scala - 为什么我的 Spark 应用程序无法使用 "object SparkSession is not a member of package"进行编译，但 spark-core 是依赖项？

我是spark开发的新手，正在尝试在redhatlinux环境中使用sbt构建我的第一个spark2(scala)应用程序。以下是环境详细信息。CDHVersion:5.11.0ApacheSpark2:2.1.0.cloudera1ScalaVersion:2.11.11JavaVersion:1.7.0_101申请代码:importorg.apache.spark.sqlimportorg.apache.spark.sql.SparkSessionimportorg.apache.spark.sql.types._importorg.apache.spark.sqlobjectMy

SparkSession spark-core spark 34 error scala hadoop apache-spark sbt apache-spark-sql

hadoop - 使用大型数据集在 Spark 上训练 BloomFilter

我正在尝试为数据帧中的大量字符串创建布隆过滤器-约1.2亿。每个字符串平均有20-25个字符，总数据大小超过我们默认的spark.driver.maxResultSize1GB。我不想更改maxResultSize，因为将来输入数据的大小增加时我将不得不再次更改它。在Spark中，我是否可以通过调用BloomFilter.putString()以小块流式传输数据帧中的数据并训练BloomFilter？我也尝试过使用Dataset.toLocalIterator()但由于源数据集的性质，我不得不将它合并为100个大分区，使得这100个分区中的每一个都太大而无法容纳在驱动程序内存中。作为最

BloomFilter 训练 code section hadoop apache-spark spark-dataframe bloom-filter

hadoop - 确定 Apache Spark 作业中的当前 Kerberos 用户

我在支持Kerberos的集群(Cloudera)上运行Spark作业，并希望能够为作业的任何给定运行记录用户的Kerberos身份。(注意这里不是启动job的本地linux用户身份，因为我们使用keytab文件，jaas.conf文件，调用kinit启动脚本。我们可以在启动脚本中记录一个身份，因为我们知道与key表一起传递给kinit的主体，但是能够在实际的Spark作业本身中登录会很好，这样即使一个作业是手动启动的，我们也能可靠地知道它在什么身份下运行)。一些答案表明如下:importjava.security.{AccessController,Principal}impor

Kerberos hadoop code section UserGroupInformation apache-spark jaas

scala - ClassNotFoundException : com. 数据 block .spark.csv.DefaultSource

我正在尝试使用sparkscala从Hive导出数据。但我收到以下错误。Causedby:java.lang.ClassNotFoundException:com.databricks.spark.csv.DefaultSource我的scala脚本如下所示。importorg.apache.spark.sql.hive.HiveContextvalsqlContext=newHiveContext(sc)valdf=sqlContext.sql("SELECT*FROMsparksdata")df.write.format("com.databricks.spark.csv").sa

ClassNotFoundException DefaultSource code spark section scala hadoop apache-spark hive

mongodb - Spark with Mongo DB : java. lang.IncompatibleClassChangeError:实现类

我正在尝试使用Scala将示例MongoDB集合加载到Spark，然后将RDD保存到文本文件。以下是我的代码:valsc=newSparkContext(conf)valmongoConfig=newConfiguration()mongoConfig.set("mongo.input.uri","mongodb://localhost:27017/myDB.myCollectionData")valsparkConf=newSparkConf()valdocuments=sc.newAPIHadoopRDD(mongoConfig,//ConfigurationclassOf[Mon

IncompatibleClassChangeError mongodb compile INFO jar scala hadoop apache-spark

Hadoop:/usr/lib/hadoop-0.20.2/conf/slaves: 没有那个文件或目录

我完全按照hadoop官网上的步骤操作，但是总是报如下错误:startingnamenode,loggingto/home/videni/Tools/hadoop-1.0.3/libexec/../logs/hadoop-videni-namenode-videni-Latitude-E6400.outcat:/usr/lib/hadoop-0.20.2/conf/slaves:Nosuchfileordirectorycat:/usr/lib/hadoop-0.20.2/conf/masters:Nosuchfileordirectorystartingjobtracker,logg

Hadoop section videni

70 71 727374 75 76