sparking

hadoop - 数据格式和数据库选择 Spark/hadoop

我正在处理结构化数据(每个字段一个值，每行相同的字段)，我必须使用Spark(作为分析工具)和Hadoop将其放入NoSql环境中。虽然，我想知道使用什么格式。我在考虑json或csv，但我不确定。你怎么看，为什么？我在这个领域没有足够的经验来做出正确的决定。第二个问题:我必须分析这些数据(存储在HDFS中)。因此，据我所知，我有两种可能性来查询它们(在分析之前):直接读取和过滤。我的意思是它可以用Spark来完成，例如:data=sqlCtxt.read.json(path_data)使用Hbase/Hive正确查询，然后处理数据。所以，我不知道做这一切的标准方法是什么，最重要的是，

python - 无法从 cmd 表单 spark 目录运行 pyspark

我已经在我的windows10系统中安装了spark1.6(prebuiltforhadoop2.6)版本并且我已经正确设置了环境变量。当我运行pyspark时，我得到这个errormessage.但是我可以从spark目录运行“python”命令并返回正确的版本。谁能帮我解决这个问题？最佳答案当您运行python时，它会直接进入python命令行，但对于pyspark，您必须执行此位置不存在的pyspark可执行文件。您正在尝试进入C:\spark但pyspark文件存在于此位置C:\spark\bin\pyspark因此您需

pyspark python section spark hadoop apache-spark

hadoop - 从 Spark 调用 distcp

谁能告诉我在Pyspark中将文件从HDFS复制到S3的最可靠方法是什么？我正在考虑2个选项:我。直接调用distcp，如下所示:distcp_arglist=['/usr/lib/hadoop/bin/hadoop','distcp',...,'-overwrite',src_path,dest_path]二。使用s3-distcp-这似乎有点复杂。https://gist.github.com/okomestudio/699edbb8e095f07bafcc欢迎提出任何建议。谢谢。最佳答案我将向您指出一点我的代码，cloud

hadoop distcp section spark apache-spark amazon-s3 pyspark

hadoop - 我在哪里可以找到 spark.hadoop.yarn.* 属性？

我试图运行spark(1.6.0)应用程序，该应用程序使用com.databricks.spark.csvjar从eclipse在yarn客户端模式下加载csv文件。它在throw未找到CSVRelatio$annonfunc$func异常。这是通过设置解决的spark.hadoop.yarn.application.classpathSparkConf中的属性。我的问题是spark.hadoop.yarn.application.classpathproperty不是在任何spark官方文件中列出。那么我在哪里可以找到所有这些特性？我知道这是愚蠢的问题，但有很多初学者引用官方文件(h

hadoop spark code apache-spark hadoop-yarn databricks

scala - Spark-rdd 操作数据

我有如下示例数据:UserId,ProductId,Category,Action1,111,Electronics,Browse2,112,Fashion,Click3,113,Kids,AddtoCart4,114,Food,Purchase5,115,Books,Logout6,114,Food,Click7,113,Kids,AddtoCart8,115,Books,Purchase9,111,Electronics,Click10,112,Fashion,Purchase3,112,Fashion,Click我需要生成对“时尚”类别或“电子产品”类别感兴趣但对这两个类别都不感

Spark-rdd scala 34 Fashion val apache-spark hadoop hive apache-spark-sql

apache-spark - 无法使用 PySpark 从 Elasticsearch 读取

也许外面有人可以帮助我。我正在尝试使用PySpark从ES读取数据。我的JupyterNotebook代码非常简单:importpysparkconf=pyspark.SparkConf().setAppName('Test').setMaster('spark://spark-master:7077')sc=pyspark.SparkContext(conf=conf)es_rdd=sc.newAPIHadoopRDD(inputFormatClass="org.elasticsearch.hadoop.mr.EsInputFormat",keyClass="org.apache.h

Elasticsearch apache-spark java spark 34 hadoop pyspark jupyter-notebook

使用 sparklyr 中的 spark_apply 在 Hadoop 中运行系统命令

我想对存储在Hadoop集群中的数据运行Java工具。我正在尝试使用sparklyr中的spark_apply函数来执行此操作，但我对语法有点困惑。在运行spark代码之前，我已经按照此处的说明设置了一个conda环境:http://blog.cloudera.com/blog/2017/09/how-to-distribute-your-r-code-with-sparklyr-and-cdsw/.我无权访问包裹，因此我需要使用文章中描述的第二个选项。conda环境也包含了我要使用的Java工具。让我们以虹膜数据为例:library(sparklyr)library(tidyvers

中运 spark_apply 34 sparklyr spark r apache-spark hadoop hadoop-yarn

scala - Spark 读取 HBase 与 java.lang.NoSuchMethodError : org. apache.hadoop.mapreduce.InputSplit.getLocationInfo 错误

我想用scala读取HbasebySpark，但是我得到了错误:线程“dag-scheduler-event-loop”java.lang.NoSuchMethodError中的异常:org.apache.hadoop.mapreduce.InputSplit.getLocationInfo()[Lorg/apache/hadoop/mapred/SplitLocationInfo;但是我已经添加了依赖项，这个问题困扰着我。我的环境如下:scala:2.11.12星火:2.3.1HBase:可能是2.1.0(我不知道)Hadoop:2.7.2.4而我的build.sbt是:librar

NoSuchMethodError getLocationInfo 34 apache hadoop scala apache-spark hbase

scala - 将结构传递给 spark 中的 UDAF

我有以下架构-root|--id:string(nullable=false)|--age:long(nullable=true)|--cars:struct(nullable=true)||--car1:string(nullable=true)||--car2:string(nullable=true)||--car3:string(nullable=true)|--name:string(nullable=true)如何将结构“汽车”传递给udaf？如果我只想传递cars子结构，inputSchema应该是什么。最佳答案可

传递 scala nullable car code apache-spark hadoop apache-spark-sql user-defined-functions

apache-spark - 如何修复 oozie spark yarn 提交中的 '' java.lang.NoSuchMethodError"？

我已经启动并运行了裸机hadoop3.1.2集群，我还安装了Oozie5.1.0并成功运行了shell示例。但是当我运行Spark示例(FileCopy)时，它在oozie中指示“成功”，而文件并未真正复制，并且YARNstderr包含:Exceptioninthread"main"java.lang.NoSuchMethodError:org.apache.hadoop.yarn.api.protocolrecords.RegisterApplicationMasterResponse.getResourceProfiles()Ljava/util/Map;atorg.apache.

amp spark apache section registerApplicationMaster apache-spark hadoop oozie

225 226 227228229 230 231