spark-graphx

hadoop - 提交后Spark如何获取输入

我正在设计一个应用程序，它需要非常快的响应，并且需要从hadoop文件系统中检索和处理大量数据(>40G)，给定一个输入(命令)。我在想，有没有可能用spark在分布式内存中抓到这么大的数据量，让应用程序一直运行。如果我给应用程序一个命令，它就可以开始根据输入处理数据。我觉得抓这么大的数据不是问题。但是，我怎样才能让应用程序运行并接受输入呢？据我所知，在“spark-submit”命令之后什么也做不了... 最佳答案你可以试试sparkjobserver和NamedObjects在分布式内存中缓存数据集，并在各种输入命令中使用它。

hadoop - Spark 中的 part-r-xxxxx 文件

如果我使用Spark将数据写出到S3(或HDFS)，我会得到一堆零件文件part-r-xxxxx-uuid.snappy.parquet我理解xxxxx是map/reduce任务编号，通常从零开始向上计数。有没有part-r-00001输出文件但没有part-r-00000输出文件的任何有效、无错误的情况？或者有part-r-00002输出文件但没有part-r-00001文件？我有一个Spark作业，它对S3/HDFS目录进行多次追加写入。我可以看到两个part-r-00002文件，但只能看到一个part-r-00001文件。这是否意味着有错误？或者这可能是一个完全有效的场景吗？一种

part-r-xxxxx hadoop part-r pqt_test parquet apache-spark

python - Spark/Hadoop 在 AWS EMR 上找不到文件

我正在尝试使用pythonspark库读取AmazonEMR上的文本文件。该文件在主目录(/home/hadoop/wet0)中，但spark似乎无法找到它。有问题的行:lines=spark.read.text(sys.argv[1]).rdd.map(lambdar:r[0])错误:pyspark.sql.utils.AnalysisException:u'Pathdoesnotexist:hdfs://ip-172-31-19-121.us-west-2.compute.internal:8020/user/hadoop/wet0;'文件是否必须在特定目录中？我在AWS网站上找不

python Hadoop section spark amazon-web-services apache-spark

python - Spark 使用自定义 InputFormat 读取 WARC 文件

我需要通过Spark处理一个.warc文件，但我似乎无法找到一种直接的方法。我宁愿使用Python而不是通过wholeTextFiles()将整个文件读入RDD(因为整个文件将在单个节点处理(？))因此它似乎是唯一的/最好的方法是通过在Python中与.hadoopFile()一起使用的自定义HadoopInputFormat。但是，我找不到执行此操作的简单方法。将.warc文件拆分为条目就像拆分\n\n\n一样简单；那么我怎样才能做到这一点，而不用像各种在线“教程”中所示那样编写大量额外的(无用的)代码呢？可以全部用Python完成吗？即，如何在不使用wholeTextFiles读取

自定 InputFormat code section python hadoop apache-spark

hadoop - Hadoop/Spark 中的多线程

我大致了解多线程，但不确定它在Hadoop中的使用方式。据我所知，Yarn负责管理/控制Spark/Mapreduce作业资源，这里想不到Multi-threading。不确定它是否可以在Hadoop生态系统的其他任何地方使用。如果有人能提供一些这方面的信息，我将不胜感激。非常感谢，最佳答案实际上，YARN负责管理ApplicationMaster(MR-AppMaster或Spark-Driver)请求的容器的资源分配和释放。所以它们之间的RPC都是关于资源协议(protocol)的协商，它不考虑任务在MapReduce和Sp

多线 hadoop section Spark apache-spark hadoop-streaming

hadoop - 从 Apache Spark 查询外部配置单元中存在的表

这个问题在这里已经有了答案:HowtoconnectSparkSQLtoremoteHivemetastore(viathriftprotocol)withnohive-site.xml?(11个答案)关闭2年前。我对hadoop生态系统比较陌生。我的目标是使用ApacheSpark读取配置单元表并对其进行处理。Hive在EC2实例中运行。而Spark在我的本地机器上运行。为了制作原型(prototype)，我按照here上的步骤安装了ApacheHadoop。.我也添加了所需的环境变量。我已经使用$HADOOP_HOME/sbin/start-dfs.sh启动了dfs我已经按照her

配置单 hadoop section code gt apache-spark amazon-ec2 hive apache-spark-sql

hadoop - java.io.NotSerializableException : org. apache.spark.InterruptibleIterator 在 spark java 中执行 mapPartition() 时

我正在尝试对示例数据执行简单的SparkRDD转换mapPartition()。但在这个过程中，我得到了java.io.NotSerializableException:org.apache.spark.InterruptibleIterator异常。这是我的异常(exception):java.io.NotSerializableException:org.apache.spark.InterruptibleIteratorSerializationstack:-objectnotserializable(class:org.apache.spark.InterruptibleIte

spark NotSerializableException scala apache hadoop apache-spark iterator rdd partitioning

hadoop - 使用 Spark Sql 查询 hdfs

我在hdfs中有一个csv文件，我如何用sparkSQL查询这个文件？例如我想对特殊列进行选择请求并将结果再次存储到Hadoop分布式文件系统谢谢最佳答案可以通过创建Dataframe来实现。valdataFrame=spark.sparkContext.textFile("examples/src/main/resources/people.csv").map(_.split(",")).map(attributes=>Person(attributes(0),attributes(1).trim.toInt)).toDF()

hadoop Spark section attributes stackoverflow apache-spark hdfs apache-spark-sql

hadoop - 如何使用 Yarn 在 Cloudera 上添加 Spark 工作节点

我们有cloudera5.2，用户希望开始使用Spark的全部潜力(在分布式模式下，它可以利用HDFS的数据局部性)，该服务已经安装并且可以在cloudera管理器状态(在home页面)但是当单击服务然后单击“实例”时，它只显示历史服务器角色，而在其他节点中显示网关服务器角色。根据我对Spark架构的理解，你有一个主节点和工作节点(与HDFS数据节点一起生活)所以在cloudera管理器中我尝试了“添加角色实例”，但只有“网关”角色可用。如何将Sparks工作节点(或执行程序)角色添加到具有HDFS数据节点的主机？还是没有必要(我认为由于yarn，yarn负责创建执行程序和应用程序主机

Cloudera hadoop Spark section Standalone apache-spark cloudera-cdh cloudera-manager

hadoop - 边缘节点上的 Spark 提交

我正在通过我的边缘节点提交我的spark-submit命令。为此，我使用客户端模式，现在我通过我的笔记本电脑访问我的边缘节点(与我的集群在同一个网络上)。我知道驱动程序在我的边缘节点上运行，我想知道的是为什么当我关闭与边缘节点的sshsession时我的spark-job会自动挂起？通过VPN/无线互联网打开EdgeNodeputty连接是否对spark作业有任何影响，而不是使用网络内的以太网电缆？目前，即使集群非常强大，spark提交作业也很慢!请帮忙!谢谢! 最佳答案您正在使用--masteryarn提交作业，但您可能没有指定

hadoop Spark code section apache-spark hdfs hadoop-yarn

66 67 686970 71 72