草庐IT

Sparklyr

全部标签

使用 sparklyr 中的 spark_apply 在 Hadoop 中运行系统命令

我想对存储在Hadoop集群中的数据运行Java工具。我正在尝试使用sparklyr中的spark_apply函数来执行此操作,但我对语法有点困惑。在运行spark代码之前,我已经按照此处的说明设置了一个conda环境:http://blog.cloudera.com/blog/2017/09/how-to-distribute-your-r-code-with-sparklyr-and-cdsw/.我无权访问包裹,因此我需要使用文章中描述的第二个选项。conda环境也包含了我要使用的Java工具。让我们以虹膜数据为例:library(sparklyr)library(tidyvers

r - 使用 sparklyr 指定列类

我正在尝试使用“spark_read_csv()”函数的“列”参数。我正在尝试使用sparklyr从hdfs导入一个csv文件,我想知道如何指定单个变量类或所有变量类。require(sparklyr)named_vct_colclassescsv已正确导入,但我无法强加列类。我尝试过使用命名向量,但效果不佳。这是我想使用spark_read_csv()重现的常用read.csv命令read.csv("path_to_file",colClasses=c("character",rep("integer",2))或read.csv("path_to_file",colClasses=c

r - Sparklyr - 无法实例化 SessionHiveMetaStoreClient

当尝试使用sparklyr(0.5.3)库(云中的同一台机器)从RStudio连接到Spark集群(Spark2.0.1)时,出现如下错误。看起来需要一个md_metastore,它无法实例化。我没有hive-site.xml配置文件(不确定这是否是个问题)。spark.sql.warehouse.dir=file:///usr/lib/spark/spark-2.0.1-bin-hadoop2.6/warehouse任何想法可能是错误的?谢谢,米哈尔library(sparklyr)#SetupenvironmentvariablesSys.setenv(SPARK_HOME="/u

r - 使用 sparklyr 删除/更新分区

这个问题在这里已经有了答案:OverwriteonlysomepartitionsinapartitionedsparkDataset(3个答案)关闭4年前。我正在使用sparklyr的spark_write_table函数将表写入HDFS,使用partition_by参数定义如何存储它们:R>my_table%>%spark_write_table(.,path="mytable",mode="append",partition_by=c("col1","col2"))但是,现在我只想通过更改一个分区来更新表,而不是重新写入整个表。在Hadoop-SQL中我会做类似的事情:INSER

r - Sparklyr copy_to 失败

我正在使用Sparklyr库从R读取数据并将数据写入HDFS。读取数据按预期工作,但写入会出现问题。为了能够使用spark_write_csv函数,我需要将我的Rdata.frames转换为Spark对象。我为此使用了sparklyrsdf_copy_to函数(也尝试使用copy_to)。但是,我总是出错代码:table1错误:Error:org.apache.hadoop.mapred.InvalidInputException:Inputpathdoesnotexist:hdfs://iacchadoopdev01.dap:8020/tmp/Rtmp2gpelH/spark_ser

r - sparklyr 看不到在 Hive 中创建的数据库,反之亦然

我在本地安装了ApacheHive,并尝试通过Rstudio/sparklyr读取表格。我使用Hive创建了一个数据库:hive>CREATEDATABASEtest;我尝试使用以下R脚本读取该数据库:library(sparklyr)library(dplyr)library(DBI)spark_disconnect_all()Sys.setenv(SPARK_HOME="/home/alessandro/spark-2.1.0-bin-hadoop2.7")config仍然,dbGetQuery(sc,"showdatabases")不显示创建的数据库,这很尴尬,因为数据库文件夹t

hadoop - 在 Sparklyr 中创建新的 Spark 表或数据框的最有效方法是什么?

在Hadoop集群(不是VM)上使用sparklyr包,我正在处理需要连接、过滤等的几种类型的表...我正在尝试确定使用dplyr命令以及sparklyr中的数据管理功能来运行处理、将其存储在缓存中并使用中间层的最有效方法数据对象以生成保留在缓存中的下游对象。上面提出的这个问题很肤浅,但我希望获得比纯粹效率更多的信息,所以如果你想编辑我的问题,我可以接受......我在Hive中有一些表,我们称它们为Activity2016、Accounts2016和Accounts2017。“帐户”表还包括地址历史记录。我想从2016年的数据开始,合并关于姓名和当前地址的两个表,过滤一些事件和帐户详

r - 在 Windows 上为 sparklyr 安装 Spark

我尝试了几个关于在Windows环境中设置Spark和Hadoop的教程,尤其是与R一起使用时。Thisone当我点击图9时导致此错误:ThistutorialfromRstudio也给我带来了问题。当我到达时sc步骤,我遇到了这个熟悉的错误:Errorinforce(code):Failedwhileconnectingtosparklyrtoport(8880)forsessionid(1652):Gatewayinport(8880)didnotrespond.Path:C:\Users\jvangeete\spark-2.0.2-bin-hadoop2.7\bin\spark-
12