草庐IT

spark-hive

全部标签

hadoop - 使用 Spark 读取 S3 文件时出现 NullPointerException

我正在尝试使用Spark读取S3文件并出现以下异常:java.lang.NullPointerExceptionatorg.apache.hadoop.fs.s3native.NativeS3FileSystem.getFileStatus(NativeS3FileSystem.java:433)atorg.apache.hadoop.fs.Globber.getFileStatus(Globber.java:57)atorg.apache.hadoop.fs.Globber.glob(Globber.java:248)atorg.apache.hadoop.fs.FileSystem

hadoop - Spark : Out Of Memory Error when I save to HDFS

我在保存大数据到hdfs时出现OOMEvalaccumulableCollection=sc.accumulableCollection(ArrayBuffer[String]())valrdd=textfile.filter(row=>{if(row.endsWith(",")){accumulableCollection+=rowfalse}elseif(row.length{varvalid=truefor((k,v)我在spark-submit中使用这个:--num-executors2--driver-memory1G--executor-memory1G--executor

java - Hadoop的Hive/Pig、HDFS和MapReduce的关系

我对ApacheHive的理解是它是一个类似SQL的工具层,用于查询Hadoop集群。我的理解ApachePig是它是一种用于查询Hadoop集群的过程语言。因此,如果我的理解是正确的,Hive和Pig似乎是解决同一问题的两种不同方法。但是,我的问题是,我不理解他们首先要解决的问题!假设我们有一个DB(关系型、NoSQL,无关紧要)将数据馈送到HDFS,以便可以针对该输入数据运行特定的MapReduce作业:我对Hive/Pig正在查询的系统感到困惑!他们在查询数据库吗?他们是否查询存储在HDFS上DataNode中的原始输入数据?他们是否正在运行一些临时的、即时的MR作业并报告他们的

hadoop - Cassandra/HDFS 和 Spark 中的数据移动

在设计分布式存储和分析架构时,在与数据节点相同的机器上运行分析引擎是否是一种常见的使用模式?具体来说,直接在Cassandra/HDFS节点上运行Spark/Storm是否有意义?我知道自accordingtoHortonworks以来HDFS上的MapReduce具有这种使用模式,YARN最小化数据移动。我不知道这些其他系统是否也是如此。我想这是因为它们似乎可以相互插入,但我似乎无法在网上找到有关此的任何信息。我是这个主题的新手,因此非常感谢任何资源或答案。谢谢 最佳答案 是的,在Cassandra节点上运行Spark以最大限度地

java - Hive 添加文件/jar 说不存在

所以我想尝试使用HiveMAP和REDUCE自定义mapperreducer查询。我已经编写自定义映射器和缩减器并将其导出到jar文件,并尝试从HiveCLI添加它。无论我在哪里复制jar,我都会收到“不存在”错误。我尝试了以下方法。我将文件复制到/usr/local/hive/lib/、/usr/local/hive/conf/和/tmp/然后在hdfs中我也将它复制到/、/user/hive/和/user/hive/仓库/我尝试提供完整路径然后我得到URL语法异常hive>addjar'hdfs://srimanthpc:9000/SpaceTravel.jar';Illegalc

hadoop - Apache Spark 与 Hadoop 方法有何不同?

每个人都说Spark正在使用内存,因此它比Hadoop快得多。我没有从Spark文档中理解真正的区别是什么。Spark将数据存储在内存中的什么位置,而Hadoop不存储数据?如果数据对内存来说太大了怎么办?在那种情况下,它与Hadoop有多相似? 最佳答案 Spark尝试将内容保存在内存中,而MapReduce不断将内容混入和移出磁盘。中间输出存储在主内存中,而hadoop将中间结果存储在辅助内存中。MapReduce插入了barrier,把东西写到磁盘再读回来需要很长时间。因此MapReduce可能是缓慢而费力的。消除此限制使Sp

hadoop - Spark 应用程序卡在 ACCEPTED 状态

我在一台Ubuntu14.04服务器上安装了Cloudera5.4的新实例,并希望运行其中一个spark应用程序。这是命令:sudo-uhdfsspark-submit--classorg.apache.spark.examples.SparkPi--deploy-modecluster--masteryarn/opt/cloudera/parcels/CDH-5.4.5-1.cdh5.4.5.p0.7/jars/spark-examples-1.3.0-cdh5.4.5-hadoop2.6.0-cdh5.4.5.jar这是输出:SLF4J:Classpathcontainsmulti

hadoop - spark.dynamicAllocation 的 EMR 配置与 Spark 官方文档不匹配

根据官方Spark文档(http://spark.apache.org/docs/latest/job-scheduling.html#configuration-and-setup),在YARN中使用“spark.dynamicAllocation”选项时,您需要:Intheyarn-site.xmloneachnode,addspark_shuffletoyarn.nodemanager.aux-services...setyarn.nodemanager.aux-services.spark_shuffle.classtoorg.apache.spark.network.yarn

hadoop - Mahout Hive 集成

我想将基于Hadoop的Mahout推荐系统与ApacheHive相结合。这样我生成的推荐将直接存储到我的Hive表中。有人知道这方面的类似教程吗? 最佳答案 基于Hadoop的Mahout推荐器可以将结果直接存储在HDFS中。Hive还允许您使用CREATEEXTERNALTABLErecommend_table在任何数据之上创建表模式它还指定了数据的位置(LOCATION'/home/admin/userdata';)。这样您就可以确保在将新数据写入该位置时-/home/admin/userdata那么它已经对Hive可用并且可

hadoop - Hive:创建表和分区依据

我有一个加载数据的表,如下所示:createtablexyzlogTable(dateCstring,hoursstring,minutesstring,secondsstring,TimeTakenstring,Methodstring,UriQuerystring,ProtocolStatusstring)rowformatserde'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'withserdeproperties("input.regex"="(\\S+)\\t(\\d+):(\\d+):(\\d+)\\t(\\S+)\\t