草庐IT

spark-hive

全部标签

apache-spark - Spark : is using wrong network interface

我在docker容器中使用hadoop集群(我正在使用覆盖网络)我在同一个主机上有2个容器(master和slave2)另一个在不同的主机(slave1)容器可以访问仅由它们使用的本地网络10.0.0.0master和slave2容器还可以访问与主机172.18.0.0共享的另一个网络Slave1可以访问与其主机共享的不同网络172.18.0.0两台主机中的网络172.18.0.0是独立的。所以恢复每个容器都有两个ip地址master:10.0.0.2和172.18.0.2salve2:10.0.0.3和172.18.0.3药膏3;10.0.0.4和172.18.0.2树容器必须通过1

scala - 在 OSX 上安装本地 spark

我试图在我的本地机器(MacBookproosx10.13.3)上运行我的Scala作业,但我在运行时遇到错误。我的版本:scala:2.11.12Spark:2.3.0hadoop:3.0.0我通过brew安装了所有东西。异常(exception)是:引起:java.lang.StringIndexOutOfBoundsException:开始0,结束3,长度2发生在那些行:valconf=newSparkConf().setAppName(getName).setMaster("local[2]")valcontext=newSparkContext(conf)最后一行是抛出异常的

apache-spark - Spark Interpreter 在 Zeppelin 中不起作用

我正在使用Zeppelin0.7.0来运行Spark作业。我的Zeppelin是独立安装的,而Spark是使用Hortonworks/Ambari(版本2.6)安装的。当我在Ambari中检查Spark的状态时,它全是绿色的。对于许多解释器来说,Zeppelin也运行良好。但是Spark解释器不起作用。我尝试做的任何事情,甚至像sc.version这样简单的事情都会给出完全相同的错误:java.lang.NullPointerExceptionatorg.apache.zeppelin.spark.Utils.invokeMethod(Utils.java:38)atorg.apach

apache-spark - 从 Kafka 读取消息并写入 HDFS

我正在寻找从Kafka读取消息(大量消息,每天大约100B)的最佳方式,在读取消息后我需要对数据进行操作并将其写入HDFS。如果我需要以最佳性能执行此操作,那么从Kafka读取消息并将文件写入HDFS的最佳方式是什么?哪种编程语言最适合?我是否需要考虑为此使用Spark等解决方案? 最佳答案 您应该为此使用Spark流(参见here),它提供了Kafka分区和Spark分区之间的简单对应关系。或者您可以使用UseKafkaStreams(参见more)。KafkaStreams是用于构建应用程序和微服务的客户端库,其中输入和输出数据

hadoop - 无法将数据从 CSV 文件加载到 HIVE

我在将数据从CSV文件加载到配置单元外部表时得到“无”值。我的CSV文件结构是这样的:creation_month,accts_created7/1/2018,408476/1/2018,672165/1/2018,760094/1/2018,876113/1/2018,996872/1/2018,926311/1/2018,11195112/1/2017,107717'creation_month'和'accts_created'是我的列标题。createexternaltablemonthly_creation(creation_monthDATE,accts_createdINT

apache-spark - Spark Streaming 创建许多小文件

我已经实现了一个SparkStreaming作业,它将过去6个月收到的事件流式传输到HDFS。它在HDFS中创建许多小文件,我希望它们的每个文件大小为HDFS的128MB(block大小)。如果我使用追加模式,所有数据都将写入一个parquet文件。如何配置Spark为每128MB数据创建一个新的HDFSparquet文件? 最佳答案 Spark会在写入之前在对象上写入与分区一样多的文件。这可能真的很低效。要减少部分文件的总数,试试这个,它会检查对象的总字节大小并将其重新调整为+1最佳大小。importorg.apache.spar

hadoop - Hadoop 集群上的 Hive/Map-Reduce 作业 : How to (roughly) calculate the diskspace needed?

以下用例:我对.gz压缩大小约为500GB的数据运行配置单元查询:selectcount(distinctc1),c2fromt1groupbyc2;此查询产生约2800个映射作业和约400个缩减作业。在设置具有20个实例(每个160GB实例存储)的Hadoop集群时,该工作将停止在97%map和21%reduceprogress,然后回落到94%map和19%reduceprogress,然后就没有任何进展了。我认为这是因为HDFS的磁盘空间已达到使用限制。也许我可以在当天晚些时候提供异常消息。如何:有没有办法根据正在处理的数据的输入大小粗略地预先计算所需的HDFS磁盘空间?请记住,

hadoop - 得到错误的 FS : file while running hive query

在hive上运行一个简单的选择查询时我遇到了这个奇怪的错误java.lang.IllegalArgumentException:WrongFS:file://usr/lib/hive/lib/CustomUDFint.jar,expected:file:///atorg.apache.hadoop.fs.FileSystem.checkPath(FileSystem.java:410)atorg.apache.hadoop.fs.RawLocalFileSystem.pathToFile(RawLocalFileSystem.java:56)atorg.apache.hadoop.fs

hadoop - hive 选择列做一个案例陈述

这会将数据从dynamodb动态导出到s3。--LoadS3TablewithdatafromDynamoDBINSERTOVERWRITETABLEs3_tableSELECT*FROMdynamodb_table;问题是它留下了一堆\N。我可以手写它看起来像--LoadS3TablewithdatafromDynamoDBINSERTOVERWRITETABLEs3_tableSELECTDCS_ID,CASEWHENMAKEISNULLTHEN""ELSEMAKEEND,CASEWHENMODELISNULLTHEN""ELSEMODELENDFROMdynamodb_table

hadoop - 如何使用flume创建任务自动定时从HDFS加载数据到HIVE?

我需要将数据从hadoop自动加载到hive,但我不想设置其他服务来执行此操作。我已经使用flume来收集我的日志了……那我该怎么办呢?flume是否可以执行命令(查询hive就像LOAD.....)? 最佳答案 抱歉,我来晚了一点,但实际上我已经整理了一个非常完整的示例,说明如何执行此操作并公开了所有细节。也许,它会帮助别人http://www.lopakalogic.com/articles/hadoop-articles/log-files-flume-hive/祝你好运! 关于h