spark-graphx_草庐IT

hadoop - 如何使用 Spark SQL 创建分区表

我知道我们可以通过以下方式创建一个自动分区发现表CREATETABLEmy_tableUSINGcom.databricks.spark.avroOPTIONS(path"/path/to/table");但这需要将数据路径更改为partition_key=partition_value格式/path/to/table/dt=2016-10-09/path/to/table/dt=2016-10-10/path/to/table/dt=2016-10-11但是数据结构是这样的:/path/to/table/2016-10-09/path/to/table/2016-10-10/path

maven - Guava 的 Spark 1.3 和 Cassandra 3.0 问题

我正在尝试从Spark1.3连接到Cassandra3.0。我知道spark中每个版本都有Cassandra连接器，但是spark-cassandra-connector-java_2.10:1.3.0连接器依赖于cassandra-driver-core:2.1.5，这就是为什么我使用最新的cassandra连接器，它依赖于最新的核心驱动程序。无论如何，到目前为止这不是问题所在。我想问题是com.google.guava包。我的pom看起来像这样:...com.datastax.sparkspark-cassandra-connector-java_2.101.5.0-M3com.d

Cassandra maven 34 spark com hadoop apache-spark guava

hadoop - 使用 Hive TableView 映射与 Hbase 表 : java. lang.NoSuchMethodError : org. apache.hadoop.hive.serde2.lazy 在 spark 上运行 Hive 的问题

我正在尝试通过Spark引擎从配置单元映射来访问Hbase表。来自hive:当我在使用Hbase映射的HiveView上运行查询时，我可以获得所有想要的结果。来自星火:当我运行查询以从配置单元表中获取数据时，我可以得到它，但是当我对hbase映射的配置单元表执行相同的操作时，出现以下错误。Error:java.lang.NoSuchMethodError:org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe.initSerdeParams(Lorg/apache/hadoop/conf/Configuration;Ljava/util/P

hadoop NoSuchMethodError section hive 配置单 apache-spark hbase hiveql

scala - 使用正则表达式时 Spark S3 访问被拒绝

我想知道为什么尝试使用正则表达式从S3使用Spark读取数据时会有所不同？我在“测试”桶中有一些文件:/test/logs/2016-07-01/a.gz/test/logs/2016-07-02/a.gz/test/logs/2016-07-03/a.gz这两部作品:vallogRDD=sqlContext.read.json("s3a://test/logs/2016-07-01/*.gz")orvallogRDD=sqlContext.read.json("s3n://test/logs/2016-07-01/*.gz")但是当我这样做的时候:vallogRDD=sqlConte

scala Spark apache org hadoop apache-spark amazon-s3

java - Apache Spark 作业因 FileNotFoundExceptoin 而失败

我有一个由5个节点组成的spark集群，我有一个用Java编写的spark作业，它从目录中读取一组文件并将内容发送到Kafka。当我在本地测试作业时，一切正常。当我尝试将作业提交到集群时，作业失败并显示FileNoTFoundException需要处理的文件存在于所有5个节点上挂载的目录中，所以我确定异常中出现的文件路径存在。这里是提交作业时出现的异常java.io.FileNotFoundException:Filefile:/home/me/shared/input_1.txtdoesnotexistatorg.apache.hadoop.fs.RawLocalFileSystem

FileNotFoundExceptoin Apache spark org java hadoop apache-spark

hadoop - Talend 和 Apache Spark？

我对Talend和ApacheSpark在大数据生态系统中的位置感到困惑，因为ApacheSpark和Talend都可以用于ETL。谁能举个例子解释一下？最佳答案 Talend是一种基于工具的大数据方法，支持所有具有内置组件的大数据应用程序。spark是基于代码的方法，您需要为用例编写代码。关于hadoop-Talend和ApacheSpark？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/q

hadoop Talend section 大数 apache-spark etl data-integration

amazon-web-services - 使用 Scala 读取 .aws/credentials 文件以获取来自 spark 的 hadoop conf 设置

我如何才能读取位于.aws目录下的credentials文件中的不同aws配置文件？只想让我的应用程序读取访问key和secret，如下所示，但不确定如何将这一点指向凭证文件。objectS3KeyStoreextendsSerializable{privatevalkeyMap=Map(String,S3Key)defload(key:String)(implicitsc:SparkContext)=keyMap.get(key)match{caseSome(k)=>valhc=sc.hadoopConfigurationhc.set("fs.s3a.awsAccessKeyId",

amazon-web-services credentials section 中设凭据 hadoop apache-spark amazon-s3

hadoop - 为具有多个 spark 客户端的 yarn 集群计算 yarn.nodemanager.resource.cpu-vcores

如果我有3个spark应用程序都使用同一个yarncluster，我应该如何设置yarn.nodemanager.resource.cpu-vcores在3个yarn-site.xml中的每一个？(每个spark应用程序都需要在类路径上有自己的yarn-site.xml)这个值在客户端yarn-site.xml中是否重要？如果是:假设集群有16个核心。每个yarn-site.xml中的值是否应该为5(总共15，为系统进程留下1个核心)？或者我应该将每个设置为15吗？(注意:Cloudera表示此处应为系统进程保留一个核心:http://blog.cloudera.com/blog/20

yarn nodemanager section spark hadoop apache-spark hadoop-yarn

hadoop - 我可以使用 spark 数据帧创建序列文件吗？

我有一个要求，我需要在其中创建一个序列文件。现在我们已经在hadoopapi之上编写了自定义api，但是由于我们在spark中移动，我们必须使用spark来实现相同的目标。这可以实现吗使用spark数据帧？最佳答案据我所知，DataFrame中没有直接可用的nativeapi除了下面的方法请在下面的示例中尝试/思考类似的东西(这是DataFrame样式的RDD，受SequenceFileRDDFunctions.scala和方法saveAsSequenceFile启发):ExtrafunctionsavailableonRDDs

hadoop spark section SequenceFileRDDFunctions apache-spark spark-dataframe sequencefile outputformat

hadoop - "Delegation Token can be issued only with kerberos or web authentication"空闲后重启 spark context

我尝试将spark应用程序部署到由YARN控制的kerberizedhadoop集群。Spark版本为1.5.0-cdh5.5.2。在超过10秒的空闲时间后停止SparkContext并初始化一个新的时，我遇到了一个奇怪的异常。我尝试做一些类似于this的事情开发人员，并明确指定了hdfs名称节点地址，但没有帮助。更令人困惑的是，如果我根本不重置SparkContext或在此spark上下文中执行最后一个命令后不到10秒内重置它，一切都会正常工作。我该如何解决？这是遇到问题的最小化情况:packagedemo;importorg.apache.spark.SparkConf;impor

authentication Delegation section spark strong hadoop apache-spark hadoop-yarn kerberos gssapi