spark-hive

scala - 使用正则表达式时 Spark S3 访问被拒绝

我想知道为什么尝试使用正则表达式从S3使用Spark读取数据时会有所不同？我在“测试”桶中有一些文件:/test/logs/2016-07-01/a.gz/test/logs/2016-07-02/a.gz/test/logs/2016-07-03/a.gz这两部作品:vallogRDD=sqlContext.read.json("s3a://test/logs/2016-07-01/*.gz")orvallogRDD=sqlContext.read.json("s3n://test/logs/2016-07-01/*.gz")但是当我这样做的时候:vallogRDD=sqlConte

hadoop - 我们如何在 Hive 中实现货币转换？

我想将所有员工的工资转换成美元假设我有一个Hive表'emp'idnamecurrency_codesalary_as_per_currency_code100SurenderEUR10101RajaINR100102AjayUSD5我需要写一个选择查询来得到下面的结果我的预期输出是idnamecurrency_codesalary_as_per_currency_codesalary_in_USD100SurenderEUR10$10.92101RajaINR100$1.496102AjayUSD5$5我的表格有更多Currency_code，例如NZD、CAD、JPY等等。hive

何在 hadoop code currency section hive udf

java - Apache Spark 作业因 FileNotFoundExceptoin 而失败

我有一个由5个节点组成的spark集群，我有一个用Java编写的spark作业，它从目录中读取一组文件并将内容发送到Kafka。当我在本地测试作业时，一切正常。当我尝试将作业提交到集群时，作业失败并显示FileNoTFoundException需要处理的文件存在于所有5个节点上挂载的目录中，所以我确定异常中出现的文件路径存在。这里是提交作业时出现的异常java.io.FileNotFoundException:Filefile:/home/me/shared/input_1.txtdoesnotexistatorg.apache.hadoop.fs.RawLocalFileSystem

FileNotFoundExceptoin Apache spark org java hadoop apache-spark

hadoop - Talend 和 Apache Spark？

我对Talend和ApacheSpark在大数据生态系统中的位置感到困惑，因为ApacheSpark和Talend都可以用于ETL。谁能举个例子解释一下？最佳答案 Talend是一种基于工具的大数据方法，支持所有具有内置组件的大数据应用程序。spark是基于代码的方法，您需要为用例编写代码。关于hadoop-Talend和ApacheSpark？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/q

hadoop Talend section 大数 apache-spark etl data-integration

amazon-web-services - 使用 Scala 读取 .aws/credentials 文件以获取来自 spark 的 hadoop conf 设置

我如何才能读取位于.aws目录下的credentials文件中的不同aws配置文件？只想让我的应用程序读取访问key和secret，如下所示，但不确定如何将这一点指向凭证文件。objectS3KeyStoreextendsSerializable{privatevalkeyMap=Map(String,S3Key)defload(key:String)(implicitsc:SparkContext)=keyMap.get(key)match{caseSome(k)=>valhc=sc.hadoopConfigurationhc.set("fs.s3a.awsAccessKeyId",

amazon-web-services credentials section 中设凭据 hadoop apache-spark amazon-s3

Hadoop 3.0.0的集群搭建和Hive 3.1.3的安装

Hi,朋友们，我们又见面了，这一次我给大家带来的是Hadoop集群搭建及Hive的安装。说明一下，网上有很多的教程，为什么我还要水？第一，大多数的安装都是很顺利的，没有疑难解答。第二，版本问题，网上的搭建在3以前的比较多。第三，我想给出一个更简洁的安装教程，把道理说明白，让读者就算在安装的过程中遇到问题也知道问题出在哪，应该朝哪个方向去要解决方案。Hadoop-3.0.0的集群搭建hadoop集群的安装，关键在主节点，主节点配置好以后，将主节点复制到其他做数据节点的服务器上就不用管了。我有三台服务器，ip分别是192.168.12.71,192.168.12.200，192.168.12.20

集群搭建 span class token hadoop hive 大数据 linux hdfs

hadoop - 为具有多个 spark 客户端的 yarn 集群计算 yarn.nodemanager.resource.cpu-vcores

如果我有3个spark应用程序都使用同一个yarncluster，我应该如何设置yarn.nodemanager.resource.cpu-vcores在3个yarn-site.xml中的每一个？(每个spark应用程序都需要在类路径上有自己的yarn-site.xml)这个值在客户端yarn-site.xml中是否重要？如果是:假设集群有16个核心。每个yarn-site.xml中的值是否应该为5(总共15，为系统进程留下1个核心)？或者我应该将每个设置为15吗？(注意:Cloudera表示此处应为系统进程保留一个核心:http://blog.cloudera.com/blog/20

yarn nodemanager section spark hadoop apache-spark hadoop-yarn

hadoop - 我可以使用 spark 数据帧创建序列文件吗？

我有一个要求，我需要在其中创建一个序列文件。现在我们已经在hadoopapi之上编写了自定义api，但是由于我们在spark中移动，我们必须使用spark来实现相同的目标。这可以实现吗使用spark数据帧？最佳答案据我所知，DataFrame中没有直接可用的nativeapi除了下面的方法请在下面的示例中尝试/思考类似的东西(这是DataFrame样式的RDD，受SequenceFileRDDFunctions.scala和方法saveAsSequenceFile启发):ExtrafunctionsavailableonRDDs

hadoop spark section SequenceFileRDDFunctions apache-spark spark-dataframe sequencefile outputformat

hadoop - "Delegation Token can be issued only with kerberos or web authentication"空闲后重启 spark context

我尝试将spark应用程序部署到由YARN控制的kerberizedhadoop集群。Spark版本为1.5.0-cdh5.5.2。在超过10秒的空闲时间后停止SparkContext并初始化一个新的时，我遇到了一个奇怪的异常。我尝试做一些类似于this的事情开发人员，并明确指定了hdfs名称节点地址，但没有帮助。更令人困惑的是，如果我根本不重置SparkContext或在此spark上下文中执行最后一个命令后不到10秒内重置它，一切都会正常工作。我该如何解决？这是遇到问题的最小化情况:packagedemo;importorg.apache.spark.SparkConf;impor

authentication Delegation section spark strong hadoop apache-spark hadoop-yarn kerberos gssapi

performance - 使用 Hive 日期函数而不是硬编码日期字符串时，Hive 查询性能很慢？

我有一个每天更新的事务表table_A。每天我都会使用file_date字段从外部table_B将新数据插入table_A以从外部table_B过滤必要的数据>插入到table_A。但是，如果我使用硬编码日期与使用Hive日期函数，则性能会有很大差异:--Fastversion(~20minutes)SETdate_ingest='2016-12-07';SEThive.exec.dynamic.partition.mode=nonstrict;SEThive.exec.dynamic.partition=TRUE;INSERTINTOTABLEtable_APARTITION(FIL

Hive performance code date date_ingest hadoop query-optimization hiveql

131 132 133134135 136 137