草庐IT

apache-spark-1.3

全部标签

apache - 我的 Yarn Map-Reduce 作业花费了大量时间

输入文件大小:75GB映射器数量:2273reducer数量:1(如网页界面所示)分割数:2273输入文件数:867集群:ApacheHadoop2.4.05个节点集群,每个1TB。1个主节点和4个数据节点。已经4小时了。现在仍然只完成了12%的map。只是想知道我的集群配置是否有意义,或者配置有什么问题吗?Yarn-site.xmlyarn.nodemanager.aux-servicesmapreduce_shuffleyarn.nodemanager.aux-services.mapreduce.shuffle.classorg.apache.hadoop.mapred.Shuf

apache - 什么是 Apache Kylin 用例?

我最近遇到了ApacheKylin,并且很好奇它的用例是什么。据我所知,它似乎是一种旨在解决与超过10+十亿行、聚合、缓存和查询来自其他来源(HBase、Hadoop、Hive)的数据相关的非常具体的问题的工具。我的这个假设是否正确? 最佳答案 ApacheKylin的用例是Hadoop上的交互式大数据分析。它允许您通过3个简单的步骤以亚秒级延迟查询大型Hive表。识别星型模式中的一组Hive表。在离线批处理过程中根据Hive表构建多维数据集。使用SQL查询Hive表并通过RestAPI、ODBC或JDBC在亚秒级内获得结果。用例非

hadoop - RuntimeException MetaException(消息 :org. apache.hadoop.hive.serde2.SerDeException org.apache.hadoop.hive.hbase.HBaseSerDe

在HDP集群上,我正在尝试创建Hive表并将其与现有Hbase表集成。它创建配置单元表。但是当我尝试查询配置单元表时,它会抛出以下异常尤其是当列数超过200时。我检查了hbase和hive中的列数相同。没有得到适当的解决方案来调试它。hive>select*fromhbase_hive.lead;FAILED:RuntimeExceptionMetaException(message:org.apache.hadoop.hive.serde2.SerDeExceptionorg.apache.hadoop.hive.hbase.HBaseSerDe:columnshas273eleme

hadoop - 使用 Hive TableView 映射与 Hbase 表 : java. lang.NoSuchMethodError : org. apache.hadoop.hive.serde2.lazy 在 spark 上运行 Hive 的问题

我正在尝试通过Spark引擎从配置单元映射来访问Hbase表。来自hive:当我在使用Hbase映射的HiveView上运行查询时,我可以获得所有想要的结果。来自星火:当我运行查询以从配置单元表中获取数据时,我可以得到它,但是当我对hbase映射的配置单元表执行相同的操作时,出现以下错误。Error:java.lang.NoSuchMethodError:org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe.initSerdeParams(Lorg/apache/hadoop/conf/Configuration;Ljava/util/P

scala - 使用正则表达式时 Spark S3 访问被拒绝

我想知道为什么尝试使用正则表达式从S3使用Spark读取数据时会有所不同?我在“测试”桶中有一些文件:/test/logs/2016-07-01/a.gz/test/logs/2016-07-02/a.gz/test/logs/2016-07-03/a.gz这两部作品:vallogRDD=sqlContext.read.json("s3a://test/logs/2016-07-01/*.gz")orvallogRDD=sqlContext.read.json("s3n://test/logs/2016-07-01/*.gz")但是当我这样做的时候:vallogRDD=sqlConte

java - Apache Spark 作业因 FileNotFoundExceptoin 而失败

我有一个由5个节点组成的spark集群,我有一个用Java编写的spark作业,它从目录中读取一组文件并将内容发送到Kafka。当我在本地测试作业时,一切正常。当我尝试将作业提交到集群时,作业失败并显示FileNoTFoundException需要处理的文件存在于所有5个节点上挂载的目录中,所以我确定异常中出现的文件路径存在。这里是提交作业时出现的异常java.io.FileNotFoundException:Filefile:/home/me/shared/input_1.txtdoesnotexistatorg.apache.hadoop.fs.RawLocalFileSystem

hadoop - Talend 和 Apache Spark?

我对Talend和ApacheSpark在大数据生态系统中的位置感到困惑,因为ApacheSpark和Talend都可以用于ETL。谁能举个例子解释一下? 最佳答案 Talend是一种基于工具的大数据方法,支持所有具有内置组件的大数据应用程序。spark是基于代码的方法,您需要为用例编写代码。 关于hadoop-Talend和ApacheSpark?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/q

amazon-web-services - 使用 Scala 读取 .aws/credentials 文件以获取来自 spark 的 hadoop conf 设置

我如何才能读取位于.aws目录下的credentials文件中的不同aws配置文件?只想让我的应用程序读取访问key和secret,如下所示,但不确定如何将这一点指向凭证文件。objectS3KeyStoreextendsSerializable{privatevalkeyMap=Map(String,S3Key)defload(key:String)(implicitsc:SparkContext)=keyMap.get(key)match{caseSome(k)=>valhc=sc.hadoopConfigurationhc.set("fs.s3a.awsAccessKeyId",

hadoop - 为具有多个 spark 客户端的 yarn 集群计算 yarn.nodemanager.resource.cpu-vcores

如果我有3个spark应用程序都使用同一个yarncluster,我应该如何设置yarn.nodemanager.resource.cpu-vcores在3个yarn-site.xml中的每一个?(每个spark应用程序都需要在类路径上有自己的yarn-site.xml)这个值在客户端yarn-site.xml中是否重要?如果是:假设集群有16个核心。每个yarn-site.xml中的值是否应该为5(总共15,为系统进程留下1个核心)?或者我应该将每个设置为15吗?(注意:Cloudera表示此处应为系统进程保留一个核心:http://blog.cloudera.com/blog/20

hadoop - 我可以使用 spark 数据帧创建序列文件吗?

我有一个要求,我需要在其中创建一个序列文件。现在我们已经在hadoopapi之上编写了自定义api,但是由于我们在spark中移动,我们必须使用spark来实现相同的目标。这可以实现吗使用spark数据帧? 最佳答案 据我所知,DataFrame中没有直接可用的nativeapi除了下面的方法请在下面的示例中尝试/思考类似的东西(这是DataFrame样式的RDD,受SequenceFileRDDFunctions.scala和方法saveAsSequenceFile启发):ExtrafunctionsavailableonRDDs