草庐IT

spark-hive

全部标签

hadoop - Apache Spark S3 错误

我正在尝试将amazons3连接到Sparkstreaming。我在本地机器上运行代码并尝试从s3流式传输到Spark,但出现以下错误:java.io.IOException:NoFileSystemforscheme:s3n你能帮我解决同样的问题吗? 最佳答案 您可以通过在您的spark上下文的hadoop配置中指定s3n方案的实现来解决它:sparkContext.hadoopConfiguration.set("fs.s3.impl","org.apache.hadoop.fs.s3native.NativeS3FileSys

scala - 如何在现有的 Hadoop 2.x 中使用 spark

我们已经在服务器上安装了Hadoop2.5。是不是可以用那个Hadoop来部署Spark程序呢?我希望Spark使用现有的Yarn来调度任务,并能够读写现有的HDFS。我怎样才能做到这一点? 最佳答案 您可以尝试使用可用的ApacheSpark预构建下载https://spark.apache.org/downloads.html如果那没有解决,那么你需要通过添加你的hadoopjar来构建sparkhttps://spark.apache.org/docs/latest/building-spark.html很简单然后您的Spar

apache - 缺少依赖项 hive-builtins 导致构建失败,错误代码为 Oozie 410

我尝试从源代码构建oozie但安装失败。我想安装oozie并急切地等待使用它。我在这个阶段失败了:当我从oozie-3.3.3目录中给出cmd时:bin/mkdistro.sh-DskipTests我遇到了这个错误:[INFO]BUILDFAILURE[INFO]------------------------------------------------------------------------[INFO]Totaltime:06:55min[INFO]Finishedat:2015-07-05T14:05:27+05:30[INFO]FinalMemory:39M/372M

hadoop - 具有 Hive 操作的 Oozie 工作流因权限问题而失败

我们有一个运行HDP2.2.0.0的Hadoop集群。我们有另一个运行HDP2.2.4.2的Hadoop集群。我们有一个带有Hive操作的Oozie工作流,它在第一个带有HDP2.2.0.0的集群上运行良好。但是在运行HDP2.2.4.2的第二个集群中,完全相同的工作流程失败,并出现以下错误:38098[main]INFOorg.apache.hadoop.hive.ql.Driver-Startingtask[Stage-4:MOVE]inserialmode2015-07-1516:23:22,810INFO[main]ql.Driver(Driver.java:launchTas

hadoop - 启动 Spark REPL 时出错

我有预构建的Spark1.4.1,我正在运行HDP2.6。当我尝试运行spark-shell时,它会给我一条错误消息,如下所示。Exceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/hadoop/fs/FSDataInputStreamatorg.apache.spark.deploy.SparkSubmitArguments$$anonfun$mergeDefaultSparkProperties$1.apply(SparkSubmitArguments.scala:111)atorg.apache.spar

hadoop - HBase 和 Hive 需要放在同一台机器上吗?

我们目前正在构建一个新的hbase集群。架构如下:现在我想添加一个新的Hive集群。但是不知道要不要和hbase在同一个hadoop集群上搭建hive。还是应该为hive构建一个新的hadoop集群?如果我为hive新建一个hadoop集群,执行sql聚合hbase的数据时,hive和hbase之间的流量会不会太大(AFAIK,hive需要将hbase上的数据导入到自己的hdfs存储中)? 最佳答案 让我们首先定义HBase和Hive之间的流量是多少。在每个Hive查询中,您将:使用Hive直接查询HBase使用Hive执行Ware

hadoop - 如何使用 hive/spark-sql 生成大数据集?

例如生成序号在1到1G之间的1G记录。 最佳答案 创建分区种子表createtableseed(iint)partitionedby(pint)用序列号在0到999之间的1K记录填充种子表。每条记录都被插入到不同的分区中,因此位于不同的HDFS目录中,更重要的是-在不同的文件中。附言需要以下集合sethive.exec.dynamic.partition.mode=nonstrict;sethive.exec.max.dynamic.partitions.pernode=1000;sethive.hadoop.supports.sp

hadoop - 使用 Ambari 2.4.2.0 安装 spark 2.1.0

我对Spark和Ambari的集群安装还比较陌生。最近,我接到一个任务,要在一个集群上安装Spark2.1.0,该集群预装了带有Spark1.6.2和HDFS&YARN2.7.3的Ambari。我的任务是安装Spark2.1.0,因为它是最新版本,与RSpark等具有更好的兼容性。我在互联网上搜索了几天,只在AWS或Spark2.1.0上找到了一些安装指南。例如:http://data-flair.training/blogs/install-deploy-run-spark-2-x-multi-node-cluster-step-by-step-guide/和http://spark

apache - 大数据 hive 查询

我有以下数据Policy_NameIssueYearExpiryYearA20012003B20032006我需要如下输出:Policy_NameActiveYearA2001A2002A2003B2003B2004B2005B2006 最佳答案 selectt.Policy_Name,t.IssueYear+pe.iasActiveYearfrommytabletlateralviewposexplode(split(space(ExpiryYear-IssueYear),''))peasi,x;+---------------+

hadoop - Spark 上的错误 'neither present in the group by, nor is it an aggregate function'

关闭。这个问题需要debuggingdetails.它目前不接受答案。编辑问题以包含desiredbehavior,aspecificproblemorerror,andtheshortestcodenecessarytoreproducetheproblem.这将有助于其他人回答问题。关闭5年前。Improvethisquestion表格:id|val|category----------------a1|10|Aa1|30|Ba1|20|Ca2|5|Aa2|7|Ba2|2|Ca3|50|Ca3|60|Ba3|90|A查询:SELECTmax(val),id,categoryFROM