草庐IT

spark-ui

全部标签

scala - 如何使用 spark 生成大量随机整数?

我需要很多随机数,每行一个。结果应该是这样的:24324243244234234423423413103131310313...所以我写了这个spark代码(对不起,我是Spark和scala的新手):importutil.Randomimportorg.apache.spark.SparkConfimportorg.apache.spark.SparkContextimportorg.apache.spark.SparkContext._objectRandomIntegerWriter{defmain(args:Array[String]){if(args.length")Syst

hadoop - 在 HDP (2.2) 平台上使用 Yarn-Client 上的 PySpark 将 Hbase 表读取到 Spark(1.2.0.2.2.0.0-82) RDD 时出现异常 "unread block data"

在HDP(2.2)上使用Yarn-Client(2.6.0)上的PySpark将Hbase(0.98.4.2.2.0.0)表读取到Spark(1.2.0.2.2.0.0-82)RDD时出现奇怪的异常)植物形态:2015-04-1419:05:11,295WARN[task-result-getter-0]scheduler.TaskSetManager(Logging.scala:logWarning(71))-Losttask0.0instage0.0(TID0,hadoop-node05.mathartsys.com):java.lang.IllegalStateException

hadoop - 如何使用 hadoop 自定义输入格式调整 Spark 应用程序

我的spark应用程序使用自定义hadoop输入格式处理文件(平均大小为20MB),并将结果存储在HDFS中。以下是代码片段。Configurationconf=newConfiguration();JavaPairRDDbaseRDD=ctx.newAPIHadoopFile(input,CustomInputFormat.class,Text.class,Text.class,conf);JavaRDDmapPartitionsRDD=baseRDD.mapPartitions(newFlatMapFunction>,myClass>(){//mylogicgoeshere}//f

鸿蒙 Ark Ui UIAbility组件生命周期

前言:各位同学有段时间没有见面因为一直很忙所以就没有去更新博客。最近有在学习这个鸿蒙的arkui开发因为鸿蒙不是发布了一个鸿蒙next的测试版本明年会启动纯血鸿蒙应用所以我就想提前给大家写一些博客文章今天要讲的是生命周期:效果图:我们写了一个简单的demo然后我在各个生命周期里面去打印日志importLoggerfrom'./Logger';@Entry@ComponentstructIndex{@StylescustomMargin(){.margin({left:20,right:20})}@Statemessage:string='HelloWorld'privatecontroller

hadoop - Apache Spark JavaSchemaRDD 是空的,即使它的输入 RDD 有数据

我有大量超过40列的制表符分隔文件。我想对其应用聚合,只选择几列。我认为ApacheSpark是最好的选择,因为我的文件存储在Hadoop中。我有以下程序publicclassMyPOJO{intfield1;Stringfield2;etc}JavaSparkContextsc;JavaRDDdata=sc.textFile("path/input.csv");JavaSQLContextsqlContext=newJavaSQLContext(sc);JavaRDDrdd_records=sc.textFile(data).map(newFunction(){publicRecor

scala - Spark 流式传输多个套接字源

我是Spark的新手。对于我的项目,我需要合并来自不同端口上不同流的数据。为了测试我做了一个练习,目的是打印来自不同端口的流的数据。下面你可以看到代码:objecthello{defmain(args:Array[String]){valssc=newStreamingContext(newSparkConf(),Seconds(2))vallines9=ssc.socketTextStream("localhost",9999)vallines8=ssc.socketTextStream("localhost",9998)lines9.print()lines8.print()ssc

hadoop - Spark 错误 : Server IPC version 9 cannot communicate with client version 4

我运行的是hadoop2.7.0版本、scala2.10.4、java1.7.0_21和spark1.3.0我创建了一个如下所示的小文件hduser@ubuntu:~$cat/home/hduser/test_sample/sample1.txtEid1,EName1,EDept1,100Eid2,EName2,EDept1,102Eid3,EName3,EDept1,101Eid4,EName4,EDept2,110Eid5,EName5,EDept2,121Eid6,EName6,EDept3,99运行以下命令时出现错误。scala>valemp=sc.textFile("/hom

hadoop - 从多个链接访问 hadoop 节点 web UI

我正在为hadoop的节点webui访问使用以下设置:dfs.namenode.http-address:127.0.0.1:50070通过它我只能从本地机器访问节点webui链接:http://127.0.0.1:50070有什么方法可以让我也可以从外部访问它吗?像这样说:http://:50070提前致谢!! 最佳答案 您可以使用主机名或IP地址代替localhost/127.0.0.1。确保您可以从远程计算机ping主机名或ip。如果你能ping通它,那么你就可以访问webui。要ping一下打开命令/终端在远程机器上输入以下

java - spark submit 命令的命令行参数中是否有字符限制?

我还想知道在sparksubmit命令的参数中是否有任何特殊字符不能使用?我也想知道我们可以将整个嵌套的Json字符串传递给spark提交命令中的参数吗?另一个问题是如何使用java代码(来自另一个程序)运行spark程序?那么,我们是否必须在集群(安装了spark的linux机器)上运行我们的其他程序才能运行我的spark程序?这件事我太糊涂了;请提出建议。 最佳答案 对于你的第二个问题:另一个问题是如何使用java代码(来自另一个程序)运行spark程序?在你的java程序中如果你有一个Maven项目,你可以添加一个maven依

azure - 如何从 C# 中自动化 Azure Spark?

我可以创建集群,但我该如何自动执行脚本?varclusterInfo=newClusterCreateParametersV2{Name=clusterConfig.ClusterName,...ClusterType=ClusterType.Spark};`cluster.RunScript()?我可以获得SparkContext吗?https://azure.microsoft.com/en-us/documentation/articles/hdinsight-apache-spark-use-bi-tools/ 最佳答案 今