草庐IT

docker-spark

全部标签

apache-spark - 使用 spark-xml 从 pyspark 数据框中选择嵌套列

我正在尝试从PysparkDataframe中选择嵌套的ArrayType。我只想从此数据框中选择项目列。我不知道我在这里做错了什么。XML:ABCXYZ305,RamCHowkPuneINClothingBrand:CKSize:L6208数据框架构。root|--_orderid:string(nullable=true)|--items:struct(nullable=true)||--item:array(nullable=true)|||--element:struct(containsNull=true)||||--notes:struct(nullable=true)||

docker - Hadoop用docker运行 "hdfs dfs -put"错误

我有一个hadoop的docker镜像。(在我的例子中是https://github.com/kiwenlau/hadoop-cluster-docker)我是按照这个博客一步步做的。而且我可以成功运行docker和Hadoop。但是,当我尝试将一些文件放入hostmachine以测试Hadoop中的WordCount测试时。当我运行时root@hadoop-master:~#hdfsdfs-put/home/ke/code/input它返回一个错误:put:`/home/ke/code':Nosuchfileordirectory但是这个目录确实存在,因为我可以使用cd/home/k

Java Spark 禁用 Hadoop 发现

我目前正在运行一个使用Spark的Java应用程序。一切正常,除了SparkContext的初始化。此时,Spark尝试在我的系统上发现Hadoop,并抛出错误,因为我没有并且我不想安装Hadoop:2018-06-2010:00:27.496ERROR4432---[main]org.apache.hadoop.util.Shell:Failedtolocatethewinutilsbinaryinthehadoopbinarypathjava.io.IOException:Couldnotlocateexecutablenull\bin\winutils.exeintheHadoo

apache-spark - Snappydata 和外部 Hive 兼容性

我正在尝试使用Snappydata1.0.1从Hadoop(HDP2.6.3)读取和处理数据。当指向Hivemetastore(通过Snappydata配置中的hive-site.xml)时,来自Snappydata发行版的Spark可以读取数据库列表,但不能在Snappydata中创建表。它告诉“找不到表”。此外,Snappydata集群UI显示该表,但Snappydata无法进一步使用它-使用此表的INSERT、SELECT、DROP命令会抛出表未找到错误,随后的CREATETABLE会提示“表已存在”。在不指定Hive元存储的情况下,它运行良好。hive-site.xml中的配置

apache-spark - 查找事件的 Hadoop 镜像

这个问题在这里已经有了答案:FindingtheclosestApacheSoftwareFoundationmirrorprogramatically(3个答案)关闭4年前。我目前正在使用启动EC2实例并从二进制文件安装Hadoop/Spark的设置脚本。作者目前已经硬编码了来自this的镜像。列表,但任何镜像都可以随时更改/删除。是否有更“有原则”的方式来获取Apache项目的镜像/下载位置?

apache-spark - Spark 独立集群 :Configuring Distributed File System

我刚刚从Spark本地设置迁移到Spark独立集群。显然,加载和保存文件不再有效。我了解我需要使用Hadoop来保存和加载文件。我的Spark安装是spark-2.2.1-bin-hadoop2.7问题1:我仍然需要单独下载、安装和配置Hadoop以与我的独立Spark集群一起工作,我是否正确?问题2:使用Hadoop运行和使用Yarn运行有什么区别?...哪个更容易安装和配置(假设数据负载相当轻)? 最佳答案 A1。正确的。你提到的包只是打包了指定版本的hadoop客户端,如果你想使用hdfs,你仍然需要安装hadoop。A2。使

apache-spark - spark 谓词下推不适用于 phoenix hbase 表

我正在处理spark-hive-hbase集成。这里使用phoenixhbase表进行集成。Phoenix:**apache-phoenix-4.14**HBase:**hbase-1.4**spark:**spark-2.3**hive:**1.2.1**我正在使用sparkthrift服务器并使用jdbc访问表。我测试的几乎所有基本功能都运行良好。但是当我从spark提交查询时,它会在没有where条件的情况下提交给phoenix并且所有过滤都发生在spark端。如果表有数十亿的数据,我们就不能这样做。示例:Input-query:select*fromhive_hbasewher

docker - 使用 Docker 容器设置数据科学前端的简单方法是什么?

我想使用Docker容器设置数据科学前端测试环境。该平台应提供一个用户友好的界面,并能够管理巨大的CSV文件。我的第一种方法是使用Anaconda发行版,以利用Python和JupyterNotebook的灵active。不幸的是,考虑到我的团队主要使用带有Python的数据科学库(例如Pandas),这个解决方案在处理巨大的CSV文件时速度太慢。我考虑过使用像Hue这样的前端迁移到HDFS,以便在导出数据之前使用SQL处理数据并使用其他工具对其进行数据科学处理。但是,这种方法过于复杂(需要设置Hadoop和许多其他东西才能使用Hue)。而且,据我所知,官方并没有提供Hadoop的容器

amazon-web-services - spark aws S3a ARN(亚马逊资源名称)IAM 角色

我正在使用spark2.3.0和Hadoop2.7(但如果需要我可以升级)我想访问具有ARN(亚马逊资源名称)IAM角色的S3文件https://docs.aws.amazon.com/cli/latest/userguide/cli-multiple-profiles.html我已经看过这个Howtoaccesss3a://filesfromApacheSpark?但是没有关于IAM访问的问题publicclasstest{publicstaticvoidmain(String[]args){SparkSessionsc=newSparkSession.Builder().appNa

apache-spark - 如何在没有 Hadoop 的情况下让 Spark 在 Windows 10 上运行?

我试图让Spark在Windows10上运行,但我总是遇到错误。我已经彻底研究过,但仍然遇到问题,这是我所做的:已安装JDK1.8。(工作正常)已安装Anaconda3(工作正常)解压Spark2.3.1从here下载了winutils.exe并将它放在.\Hadoop\bin\中(除了这个文件之外,Hadoop文件夹的其余部分是空的——有人告诉我我不需要Hadoop)设置环境变量如下:用户变量:PATH=.\Continuum\anaconda3系统变量:JAVA_HOME=.\Java\jdk1.8.0_161HADOOP_HOME=.\HadoopPYSPARK_DRIVER_P