草庐IT

apache-spark-1.6

全部标签

hadoop - Apache kylin cube 失败 "no counters for job"

使用kylin1.5.4,当我构建立方体时,它在第3步失败,日志显示“没有工作计数器”。它也没有获取配置单元表的基数。当我创建一个模型或多维数据集时,它会抛出无法采取行动的错误,但是当我关闭json页面时,它们就会被创建。它不获取日期分区列,抛出在日志中找不到的列。非常感谢任何帮助或见解。 最佳答案 这有点晚了,但我在当前项目中也遇到了这个问题,我得到了“没有工作计数器”错误。问题是我们在Hive中使用ORC表。我们只是将数据从ORC表移至新的TEXTFILE表,并使用新表在Kylin多维数据集中设置所有内容,一切正常。

hadoop - 在 Spark 中,如何在没有 RDD 的情况下在 Hadoop 上写入文件?

SparkRDD具有saveAsTxtFile函数。但是,我如何打开一个文件并将一个简单的字符串写入hadoop存储?valsparkConf:SparkConf=newSparkConf().setAppName("example")valsc:SparkContext=newSparkContext(sparkConf)sc.hadoopConfiguration.set("fs.s3n.awsAccessKeyId","...")sc.hadoopConfiguration.set("fs.s3n.awsSecretAccessKey","...")vallines:RDD[St

amazon-web-services - 如何使用 Hadoop 2.6 启动 Spark EC2 集群

我正在尝试使用Hadoop2.6在Spark1.6.1上运行SparkEC2集群-这是我尝试过的:./spark-ec2-i~/.ssh/***.pem\--instance-profile-name***\-k***\--region=us-east-1\--instance-type=m3.xlarge\-s2\--copy-aws-credentials\launchtest-cluster不过,这次安装的是Hadoop1.0。所以我在上面的命令中添加了以下选项:--hadoop-major-version=2\但是,我很快意识到,为了正确运行我的应用程序,我需要Hadoop2.

java.lang.ClassNotFoundException : org. apache.hive.service.cli.HiveSQLException 异常

为了通过spring应用程序连接配置单元,我在pom.xml中添加了以下依赖项。org.apache.hivehive-jdbc2.1.1org.apache.thriftlibfb3030.9.3org.apache.hivehive-commonorg.apache.hivehive-service-rpc2.1.1Butstilliamfacingthebelowexception::Causedby:java.lang.NoClassDefFoundError:org/apache/hive/service/cli/HiveSQLExceptionatorg.apache.hi

hadoop - 具有 6 到 7 个节点硬件配置的分布式 Spark 和 HDFS 集群

我计划旋转我的开发集群来为基础设施监控应用程序进行趋势分析,我计划使用Spark来分析故障趋势,并使用Cassandra来存储传入数据和分析数据。考虑从大约25000台机器/服务器(可能是不同服务器上的一组相同应用程序)收集性能矩阵。我期望每台机器的性能矩阵大小为2MB/秒,我计划将其插入具有时间戳、服务器作为主键和应用程序以及一些重要矩阵作为集群键的Cassandra表中。我将在此存储的信息之上运行Spark作业,以进行性能矩阵故障趋势分析。关于这个问题,考虑到上述情况,我需要多少个节点(机器)以及CPU和内存方面的什么配置来启动我的集群。 最佳答案

scala - Spark 内存限制超出问题

我有一份在spark上运行的工作,它是使用sparkRDD在scalaim中编写的。由于昂贵的分组操作我得到这个错误:容器因超出内存限制而被YARN终止。使用了22.4GB的22GB物理内存。考虑提升spark.yarn.executor.memoryOverhead。我增加了头顶的内存,但我得到了同样的结果。我使用10台r4.xlarge机器。我尝试使用r4.2xlarge甚至r4.4xlarge,但也出现同样的错误。我正在测试的数据是5GB压缩数据(将近50个解压缩数据和近600万条记录)。一些配置:spark.executor.memory:20480Mspark.driver.

xml - 如何在使用 spark 解析 xml 时将标题信息添加到行信息

我有一个像这样的xml结构1232314973233asd123book1124book2456book4789我知道我可以像这样解析books:valxml=sqlContext.read.format("com.databricks.spark.xml").option("rowTag","book").load("FILENAME")但我想在每一行中添加标题信息,如supplier。有没有一种方法可以将这个“headerinfo”添加到带有spark的所有行,而无需加载文件两次并将信息存储在全局变量/值中?提前致谢! 最佳答案

hadoop - Apache Airflow 分布式处理

我对ApacheAirflow的架构感到困惑。如果我知道,当您在oozie中执行hql或sqoop语句时,oozie会将请求定向到数据节点。我想在ApacheAirflow中实现同样的目标。我想执行shell脚本、hql或sqoop命令,并且我想确保我的命令正在由数据节点分布式执行。Airflow有不同的执行器类型。我应该怎么做才能同时在不同的数据节点上运行命令? 最佳答案 您似乎想在分布式工作人员上执行您的任务。在这种情况下,请考虑使用CeleryExecutor。CeleryExecutorisoneofthewaysyouca

apache nutch提取和更新阶段

我有一个疑问,关于Nutch获得链接以更新CrawldB的方式。有问题的命令是bin/nutchupdatedbcrawl/crawldb$s1我需要编写一个自定义解析器,在此之前,我已经检查了Nutch的源代码,就我而言,我负责通过从文档中提取并将其放入ASOutlink来提供更新CRAWLDB的链接来更新CRAWLDB[]在Parsedata中。至少这就是我从中了解的这个.如果我错了,请纠正我,因为我不希望我的爬行者在第一次迭代后停下来,因为它不会有更新crawldb的链接。看答案纽约都使用parse-html或者parse-tika为了解析您的爬行URL(通常是HTML)在此阶段,提取和

hadoop - Apache Spark - Python - 如何在 Pyspark 中使用范围函数

我有几行空格分隔的输入数据:NameCompanyStart_DateEnd_DateNareshHDFC2017-01-012017-03-31AnoopICICI2017-05-012017-07-30我需要输出为:NareshHDFC201701NareshHDFC201702NareshHDFC201703AnoopICICI201705AnoopICICI201706AnoopICICI201707我已经为这些数据制作了一个文本文件,并将其放在我的Hadoop集群上,我已经编写了代码,但在获取输出时遇到了一些问题。请帮忙。我不知道如何从条目中提取月份并将它们放入范围函数中,所