spark_libs

hadoop - 使用 Spark Sql 查询 hdfs

我在hdfs中有一个csv文件，我如何用sparkSQL查询这个文件？例如我想对特殊列进行选择请求并将结果再次存储到Hadoop分布式文件系统谢谢最佳答案可以通过创建Dataframe来实现。valdataFrame=spark.sparkContext.textFile("examples/src/main/resources/people.csv").map(_.split(",")).map(attributes=>Person(attributes(0),attributes(1).trim.toInt)).toDF()

hadoop - 如何使用 Yarn 在 Cloudera 上添加 Spark 工作节点

我们有cloudera5.2，用户希望开始使用Spark的全部潜力(在分布式模式下，它可以利用HDFS的数据局部性)，该服务已经安装并且可以在cloudera管理器状态(在home页面)但是当单击服务然后单击“实例”时，它只显示历史服务器角色，而在其他节点中显示网关服务器角色。根据我对Spark架构的理解，你有一个主节点和工作节点(与HDFS数据节点一起生活)所以在cloudera管理器中我尝试了“添加角色实例”，但只有“网关”角色可用。如何将Sparks工作节点(或执行程序)角色添加到具有HDFS数据节点的主机？还是没有必要(我认为由于yarn，yarn负责创建执行程序和应用程序主机

Cloudera hadoop Spark section Standalone apache-spark cloudera-cdh cloudera-manager

hadoop - 边缘节点上的 Spark 提交

我正在通过我的边缘节点提交我的spark-submit命令。为此，我使用客户端模式，现在我通过我的笔记本电脑访问我的边缘节点(与我的集群在同一个网络上)。我知道驱动程序在我的边缘节点上运行，我想知道的是为什么当我关闭与边缘节点的sshsession时我的spark-job会自动挂起？通过VPN/无线互联网打开EdgeNodeputty连接是否对spark作业有任何影响，而不是使用网络内的以太网电缆？目前，即使集群非常强大，spark提交作业也很慢!请帮忙!谢谢! 最佳答案您正在使用--masteryarn提交作业，但您可能没有指定

hadoop Spark code section apache-spark hdfs hadoop-yarn

java - Java 中的 Spark 提交(SparkLauncher)

我制作了spark+hadoopyarn环境并且spark-submit命令运行良好。所以我在我的应用程序jar中制作了SparkLauncherjava代码来执行此操作，但不知何故它不起作用(实际上电脑风扇一开始是在旋转，但不像我使用spark-submit那样长。)它似乎运行不佳(与spark-submit不同，hadoopwebui中没有应用程序登录)。当我使用“SparkLauncher”时，我看不到任何错误日志。没有日志消息，我无法用它做任何事情。到目前为止，这是我如何做到的。publicclassMain{publicstaticvoidmain(String[]args)

SparkLauncher Spark section java hadoop apache-spark

hadoop - 简单的基于 Java 的 Spark 程序没有完成

我创建了一个非常简单的“字数统计”基于Java的Spark程序，我在YARN上运行的集群中运行它，详细信息如下:Hadoop详细信息:主节点(NN、SNN、RM)-192.168.0.100从节点(DN,NM)-192.168.0.105,192.168.0.108Spark详情:Master运行于:192.168.0.100worker运行在:192.168.0.105、192.168.0.108我已经从提交Spark作业的地方创建了一个客户端机器(客户端机器的IP地址是-->192.168.0.240)。我用来将作业提交到Spark的以下命令:spark-submit--class

hadoop Spark code yarn application apache-spark hadoop-yarn hadoop2

r - sparklyr - rsparkling as_h2o_frame() 错误 java.lang.IllegalArgumentException : Unsupported argument: (spark. dynamicAllocation.enabled,true)

我正在尝试在sparklyrsession期间通过H2o(使用库rsparkling)使用一些机器学习功能。我正在运行hadoop集群。考虑以下示例:library(dplyr)library(sparklyr)library(rsparkling)library(h2o)#configurethesparksessionandconnectsc=spark_connect(master='yarn-client',spark_home='/usr/hdp/current/spark-client',app_name='sparklyr',config=list("sparklyr.s

IllegalArgumentException dynamicAllocation AbstractChannelHandlerContext java netty r hadoop h2o sparklyr

hadoop - Hadoop/Spark 生态系统中的数据移动

我有一个基本问题，我希望能更好地理解它:背景假设我有一个巨大的CSV文件(50GB)，我想将其提供给数据科学团队进行分析。理想情况下，团队中的每个成员都能够使用他们选择的语言与数据进行交互，数据不需要经常移动(考虑到它的大小)并且所有人都可以灵活地访问计算资源。建议的解决方案ApacheSpark似乎是满足上述要求的解决方案的当前领先者。Scala、Python、SQL和R都能够在灵活的计算资源之上(如果利用DataBricks、Azure、AWS、Cloudera等云提供商)访问其所在位置的数据。问题以MicrosoftAzure/HDInsight域为例。假设我们要将这个大型CSV

hadoop hdinsight strong section apache-spark cloudera azure-hdinsight databricks

hadoop - Spark parquet 数据帧分区数

我有一个HDFS文件夹，其中包含两个250MB的Parquet文件。hadoopdfblock大小设置为128MB。具有以下代码:JavaSparkContextsparkContext=newJavaSparkContext();SQLContextsqlContext=newSQLContext(sparkContext);DataFramedataFrame=sqlContext.read().parquet("hdfs:////user/test/parquet-folder");LOGGER.info("Nr.ofrddpartitions:{}",dataFrame.rdd

parquet hadoop section strong apache-spark spark-dataframe

hadoop - 如何修复 Spark Streaming 中的数据局部性？

Spark版本:1.6.2Spark配置:执行者:18每个执行器的内存:30g核心x执行器:2卡夫卡配置:分区:18上下文:我有一个Spark流管道，它使用Kafka的新直接方法而不是接收器。此管道从kafka接收数据，转换数据并插入到Hive。我们宣布用作插入数据操作的触发器的位置级别等于RACK_LOCAL，而不是PROCESS_LOCAL或NODE_LOCAL。此外，输入大小列显示网络信息而不是内存。我已经设置了配置变量spark.locality.wait=30s来测试spark是否等待足够长的时间来选择最佳的局部模式，但没有显示任何改进。考虑到kafkapartitions=

Streaming hadoop strong code section apache-spark spark-streaming

hadoop - 使用 Hive on spark 将数据从 gzip 格式转换为 sequenceFile 格式

I'mtryingtoreadalargegzipfileintohivethroughsparkruntimetoconvertintoSequenceFileformat而且，我想高效地做到这一点。据我所知，Spark只支持每个gzip文件一个映射器，就像它对文本文件一样。有没有办法改变正在读取的gzip文件的映射器数量？还是我应该选择另一种格式，如Parquet？我现在卡住了。问题是我的日志文件是类似json的数据，保存为txt格式，然后进行gzip压缩，所以为了阅读，我使用了org.apache.spark.sql.json。我看到的示例显示-将数据转换为SequenceFil

sequenceFile hadoop 射器 section table apache-spark hive pyspark

92 93 949596 97 98