草庐IT

sparking

全部标签

hadoop - 数据格式和数据库选择 Spark/hadoop

我正在处理结构化数据(每个字段一个值,每行相同的字段),我必须使用Spark(作为分析工具)和Hadoop将其放入NoSql环境中。虽然,我想知道使用什么格式。我在考虑json或csv,但我不确定。你怎么看,为什么?我在这个领域没有足够的经验来做出正确的决定。第二个问题:我必须分析这些数据(存储在HDFS中)。因此,据我所知,我有两种可能性来查询它们(在分析之前):直接读取和过滤。我的意思是它可以用Spark来完成,例如:data=sqlCtxt.read.json(path_data)使用Hbase/Hive正确查询,然后处理数据。所以,我不知道做这一切的标准方法是什么,最重要的是,

python - 无法从 cmd 表单 spark 目录运行 pyspark

我已经在我的windows10系统中安装了spark1.6(prebuiltforhadoop2.6)版本并且我已经正确设置了环境变量。当我运行pyspark时,我得到这个errormessage.但是我可以从spark目录运行“python”命令并返回正确的版本。谁能帮我解决这个问题? 最佳答案 当您运行python时,它会直接进入python命令行,但对于pyspark,您必须执行此位置不存在的pyspark可执行文件。您正在尝试进入C:\spark但pyspark文件存在于此位置C:\spark\bin\pyspark因此您需

hadoop - 从 Spark 调用 distcp

谁能告诉我在Pyspark中将文件从HDFS复制到S3的最可靠方法是什么?我正在考虑2个选项:我。直接调用distcp,如下所示:distcp_arglist=['/usr/lib/hadoop/bin/hadoop','distcp',...,'-overwrite',src_path,dest_path]二。使用s3-distcp-这似乎有点复杂。https://gist.github.com/okomestudio/699edbb8e095f07bafcc欢迎提出任何建议。谢谢。 最佳答案 我将向您指出一点我的代码,cloud

hadoop - 我在哪里可以找到 spark.hadoop.yarn.* 属性?

我试图运行spark(1.6.0)应用程序,该应用程序使用com.databricks.spark.csvjar从eclipse在yarn客户端模式下加载csv文件。它在throw未找到CSVRelatio$annonfunc$func异常。这是通过设置解决的spark.hadoop.yarn.application.classpathSparkConf中的属性。我的问题是spark.hadoop.yarn.application.classpathproperty不是在任何spark官方文件中列出。那么我在哪里可以找到所有这些特性?我知道这是愚蠢的问题,但有很多初学者引用官方文件(h

scala - Spark-rdd 操作数据

我有如下示例数据:UserId,ProductId,Category,Action1,111,Electronics,Browse2,112,Fashion,Click3,113,Kids,AddtoCart4,114,Food,Purchase5,115,Books,Logout6,114,Food,Click7,113,Kids,AddtoCart8,115,Books,Purchase9,111,Electronics,Click10,112,Fashion,Purchase3,112,Fashion,Click我需要生成对“时尚”类别或“电子产品”类别感兴趣但对这两个类别都不感

apache-spark - 无法使用 PySpark 从 Elasticsearch 读取

也许外面有人可以帮助我。我正在尝试使用PySpark从ES读取数据。我的JupyterNotebook代码非常简单:importpysparkconf=pyspark.SparkConf().setAppName('Test').setMaster('spark://spark-master:7077')sc=pyspark.SparkContext(conf=conf)es_rdd=sc.newAPIHadoopRDD(inputFormatClass="org.elasticsearch.hadoop.mr.EsInputFormat",keyClass="org.apache.h

使用 sparklyr 中的 spark_apply 在 Hadoop 中运行系统命令

我想对存储在Hadoop集群中的数据运行Java工具。我正在尝试使用sparklyr中的spark_apply函数来执行此操作,但我对语法有点困惑。在运行spark代码之前,我已经按照此处的说明设置了一个conda环境:http://blog.cloudera.com/blog/2017/09/how-to-distribute-your-r-code-with-sparklyr-and-cdsw/.我无权访问包裹,因此我需要使用文章中描述的第二个选项。conda环境也包含了我要使用的Java工具。让我们以虹膜数据为例:library(sparklyr)library(tidyvers

scala - Spark 读取 HBase 与 java.lang.NoSuchMethodError : org. apache.hadoop.mapreduce.InputSplit.getLocationInfo 错误

我想用scala读取HbasebySpark,但是我得到了错误:线程“dag-scheduler-event-loop”java.lang.NoSuchMethodError中的异常:org.apache.hadoop.mapreduce.InputSplit.getLocationInfo()[Lorg/apache/hadoop/mapred/SplitLocationInfo;但是我已经添加了依赖项,这个问题困扰着我。我的环境如下:scala:2.11.12星火:2.3.1HBase:可能是2.1.0(我不知道)Hadoop:2.7.2.4而我的build.sbt是:librar

scala - 将结构传递给 spark 中的 UDAF

我有以下架构-root|--id:string(nullable=false)|--age:long(nullable=true)|--cars:struct(nullable=true)||--car1:string(nullable=true)||--car2:string(nullable=true)||--car3:string(nullable=true)|--name:string(nullable=true)如何将结构“汽车”传递给udaf?如果我只想传递cars子结构,inputSchema应该是什么。 最佳答案 可

apache-spark - 如何修复 oozie spark yarn 提交中的 '' java.lang.NoSuchMethodError"?

我已经启动并运行了裸机hadoop3.1.2集群,我还安装了Oozie5.1.0并成功运行了shell示例。但是当我运行Spark示例(FileCopy)时,它在oozie中指示“成功”,而文件并未真正复制,并且YARNstderr包含:Exceptioninthread"main"java.lang.NoSuchMethodError:org.apache.hadoop.yarn.api.protocolrecords.RegisterApplicationMasterResponse.getResourceProfiles()Ljava/util/Map;atorg.apache.