草庐IT

spark-hive

全部标签

java - 尝试使用 spark shell 计算托管在本地 HDFS 上的文件中的行数时出现 HadoopRDD 错误

我是ApacheSpark、Scala和Hadoop工具的新手。我已经设置了一个新的本地单节点Hadoop集群,如前所述here并且还设置了spark以提供对此Hadoop环境的引用,如前所述here.我能够验证spark-shell、sparkUI已启动并正在运行。此外,我可以使用localhost查看HDFS。.为了更进一步,我将示例文件上传到HDFS,并使用Hadooplocalhost验证它是否可用。现在,我尝试使用Java和spark-shell(Scala)来计算文件中的行数,但是这两个调用都因该堆栈跟踪而失败。Exceptioninthread"dag-scheduler

apache-spark - 由于 java.io.FileNotFoundException :/hadoop/yarn/nm-local-dir/usercache/root/appcache/,Google Dataproc 上的 Spark 失败

几个月来,我一直在通过Zeppelin和Dataproc控制台在Dataproc上使用Spark/Hadoop,但最近我遇到了以下错误。Causedby:java.io.FileNotFoundException:/hadoop/yarn/nm-local-dir/usercache/root/appcache/application_1530998908050_0001/blockmgr-9d6a2308-0d52-40f5-8ef3-0abce2083a9c/21/temp_shuffle_3f65e1ca-ba48-4cb0-a2ae-7a81dcdcf466(Nosuchfil

MongoDB 和 Spark : difference between mongo-hadoop and mongo-spark

mongo-hadoop和mongo-spark连接器有什么区别,pymongo是否只能与mango-hadoop一起使用?pymongo是否只能与mongo-hadoop一起使用? 最佳答案 MongoDBConnectorforHadoop是一个库,它允许MongoDB(或其数据格式的备份文件,BSON)用作HadoopMapReduce任务的输入源或输出目标。它旨在提供更大的灵active和性能,并使MongoDB中的数据与Hadoop生态系统的其他部分(包括以下部分)轻松集成:pigSparkmap化简Hadoop流媒体hi

sql - 在 Hive 的 LOCATION 字段中明确指定之前,不会创建数据库目录

我使用以下查询在我的首选位置(/user/hive/)创建了一个数据库。createdatabasetestlocation"/user/hive/";创建数据库后,我使用命令hadoopdfs-ls/user/在位置/user/hive/中检查了test.db目录hive。它不可用。后来我使用下面的查询创建了一个默认位置的数据库。createdatabasetest2;对于数据库test2,可以在默认仓库目录/user/hive/warehouse/下看到test2.db目录/user/hive/test.db目录是在我在LOCATION文件中明确指定它时创建的,如下所示。creat

hadoop - 如何创建 hive 仓库目录?

我已经安装了hadoop和hive。我正在尝试按如下方式配置配置单元:hadoopfs-mkdir/data/hive/warehouse我一直收到这个错误:mkdir:'/data/hive/warehouse':Nosuchfileordirectory在发出hadoopfs命令之前,我是否需要使用os命令创建目录?有什么想法吗? 最佳答案 您缺少类似于UNIX/Linux的-p选项。$hadoopfs-mkdir-p/data/hive/warehouse此外,如果您为多个用户设置此目录,您还应该chmod1777这个目录,如

hadoop - 既然 HDFS 已经提供了数据存储,为什么还要 Hive?

我已经开始学习Hadoop。我知道HDFS提供分布式存储系统,而Mapreduce用于数据处理。现在我正在阅读Hadoop生态系统。从Hive的定义来看,它是一个建立在hadoop之上,提供类SQL接口(interface)的数据仓库。我的问题是当hadoop提供容错的分布式HDFS时,为什么要配置单元?Hive会取代HDFS吗?hive是只提供sql接口(interface)还是也提供存储? 最佳答案 Hive不会取代HDFS。Hive为存储在HDFS中的数据提供了sql类型的接口(interface)。它主要用于查询和分析存储的

apache-spark - 无法使用 pyspark 写入 hdfs

我正在尝试使用pyspark将数据写入hdfs,如下所示:importpysparkfrompyspark.sqlimportSparkSessionsparkSession=SparkSession.builder.appName("example-pyspark-read-and-write").getOrCreate()data=[('First',1),('Second',2),('Third',3),('Fourth',4),('Fifth',5)]df=sparkSession.createDataFrame(data)df.write.csv("hdfs://:9000/

hadoop - Hive转HBase的问题

我看到一个外部Hive表存储了HBase的数据:CREATEEXTERNALTABLEIFNOTEXISTSods.demo_table(rowkeyStringCOMMENT'rowkeyofhbase',....)STOREDBY'org.apache.hadoop.hive.hbase.HBaseStorageHandler'WITHSERDEPROPERTIES("hbase.columns.mapping"="info:...")TBLPROPERTIES("hbase.table.name"="...","hbase.mapred.output.outputtable"="

apache-spark - 来自边缘节点 Jupyter 笔记本的 spark jdbc 连接

我需要使用jdbc连接到Oracle数据库来创建数据框。我正在使用edgenode的Jupyternotebook来进行此连接。Spark在Jupyternotebook中以客户端模式运行。数据库主机和端口没有来自边缘节点的连接,但它是从数据节点打开的。但是当我尝试创建数据框时,由于“连接超时”错误而失败。正常吗?我认为它正在尝试从无法建立连接的边缘节点建立连接?我怎样才能确保连接是从执行者那里发生的(据我所知,这在理论上应该是这样的)。 最佳答案 这是“正常”的。一般来说,驱动程序节点(在您的情况下是边缘节点)必须具有与任何工作节

hadoop - 在创建需要动态配对的 Hive 表时,是否有任何列顺序?

我正在尝试将RDBMS表加载到Hive中。我需要根据列数据对表进行动态分区。我有如下所示的Greenplum表架构:forecast_id:bigintperiod_year:numeric(15,0)period_num:numeric(15,0)period_name:charactervarying(15)drm_org:charactervarying(10)ledger_id:bigintcurrency_code:charactervarying(15)source_system_name:charactervarying(30)source_record_type:cha