草庐IT

spark-ec

全部标签

spark.driver.maxResultSize限制 Spark 驱动程序(driver)在向客户端返回结果时的最大大小

org.apache.kyuubi.KyuubiSQLException:org.apache.kyuubi.KyuubiSQLException:ErroroperatingExecuteStatement:org.apache.spark.SparkException:Jobabortedduetostagefailure:Totalsizeofserializedresultsof3tasks(1290.4MiB)isbiggerthanspark.driver.maxResultSize(1024.0MiB)atorg.apache.spark.scheduler.DAGSchedul

hadoop - 将 Dataframe 存储到 spark 中的配置单元分区表

我正在尝试将从kafka主题传入的数据流存储到配置单元分区表中。我能够将dstream转换为数据帧并创建一个配置单元上下文。我的代码看起来像这样valhiveContext=newHiveContext(sc)hiveContext.setConf("hive.exec.dynamic.partition","true")hiveContext.setConf("hive.exec.dynamic.partition.mode","nonstrict")newdf.registerTempTable("temp")//newdfismydataframenewdf.write.mode

hadoop - 如何使用 Spark SQL 创建分区表

我知道我们可以通过以下方式创建一个自动分区发现表CREATETABLEmy_tableUSINGcom.databricks.spark.avroOPTIONS(path"/path/to/table");但这需要将数据路径更改为partition_key=partition_value格式/path/to/table/dt=2016-10-09/path/to/table/dt=2016-10-10/path/to/table/dt=2016-10-11但是数据结构是这样的:/path/to/table/2016-10-09/path/to/table/2016-10-10/path

亚马逊EC2服务器链接方式

亚马逊EC2服务器(linux、centos系统)使用Xshell链接工具进行链接登陆用户名(ec2-user)、使用PublicKey登录方式,选择创建实例时用的密钥对文件登录成功后可使用 (sudo-s)命令切换至  Root账户,进行操作只有切换为root账户后,方可安装宝塔面板等 使用PHPstorm链接亚马逊服务器使用非root账号登录(只读)默认使用ec2-user登录,选择Keypair方式检验登录使用root账号登录(可读可写)先设置root账号(参考AWSEC2启动Centos实例以及设置root密码登录_hhhzua的专栏-CSDN博客_awscentosroot密码一、在

maven - Guava 的 Spark 1.3 和 Cassandra 3.0 问题

我正在尝试从Spark1.3连接到Cassandra3.0。我知道spark中每个版本都有Cassandra连接器,但是spark-cassandra-connector-java_2.10:1.3.0连接器依赖于cassandra-driver-core:2.1.5,这就是为什么我使用最新的cassandra连接器,它依赖于最新的核心驱动程序。无论如何,到目前为止这不是问题所在。我想问题是com.google.guava包。我的pom看起来像这样:...com.datastax.sparkspark-cassandra-connector-java_2.101.5.0-M3com.d

amazon-web-services - 具有重叠 EC2 实例的集群

我有以下具有重叠EC2实例的集群,例如:Yarn集群和Memcached集群使用相同的实例2、3、4;此外,每个实例都有不同的RAM、CPU、内核大小,这会不会有潜在的类(class)问题?还是集群自己做平衡?谢谢!Spark集群:EC2实例2、3、5Yarn集群:EC2实例1、2、3、4、5Memcached数据库集群:EC2实例2、3、4、6instance1:512GBRAM,2vCPU,2coresinstance2:1TBRAM,8vCPU,4coresinstance3:2TBRAM,6vCPU,6coresinstance4:256GBRAM,2vCPU,2coresin

hadoop - 使用 Hive TableView 映射与 Hbase 表 : java. lang.NoSuchMethodError : org. apache.hadoop.hive.serde2.lazy 在 spark 上运行 Hive 的问题

我正在尝试通过Spark引擎从配置单元映射来访问Hbase表。来自hive:当我在使用Hbase映射的HiveView上运行查询时,我可以获得所有想要的结果。来自星火:当我运行查询以从配置单元表中获取数据时,我可以得到它,但是当我对hbase映射的配置单元表执行相同的操作时,出现以下错误。Error:java.lang.NoSuchMethodError:org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe.initSerdeParams(Lorg/apache/hadoop/conf/Configuration;Ljava/util/P

scala - 使用正则表达式时 Spark S3 访问被拒绝

我想知道为什么尝试使用正则表达式从S3使用Spark读取数据时会有所不同?我在“测试”桶中有一些文件:/test/logs/2016-07-01/a.gz/test/logs/2016-07-02/a.gz/test/logs/2016-07-03/a.gz这两部作品:vallogRDD=sqlContext.read.json("s3a://test/logs/2016-07-01/*.gz")orvallogRDD=sqlContext.read.json("s3n://test/logs/2016-07-01/*.gz")但是当我这样做的时候:vallogRDD=sqlConte

java - Apache Spark 作业因 FileNotFoundExceptoin 而失败

我有一个由5个节点组成的spark集群,我有一个用Java编写的spark作业,它从目录中读取一组文件并将内容发送到Kafka。当我在本地测试作业时,一切正常。当我尝试将作业提交到集群时,作业失败并显示FileNoTFoundException需要处理的文件存在于所有5个节点上挂载的目录中,所以我确定异常中出现的文件路径存在。这里是提交作业时出现的异常java.io.FileNotFoundException:Filefile:/home/me/shared/input_1.txtdoesnotexistatorg.apache.hadoop.fs.RawLocalFileSystem

hadoop - Talend 和 Apache Spark?

我对Talend和ApacheSpark在大数据生态系统中的位置感到困惑,因为ApacheSpark和Talend都可以用于ETL。谁能举个例子解释一下? 最佳答案 Talend是一种基于工具的大数据方法,支持所有具有内置组件的大数据应用程序。spark是基于代码的方法,您需要为用例编写代码。 关于hadoop-Talend和ApacheSpark?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/q