草庐IT

docker-spark

全部标签

scala - Intellij Idea - 运行 Spark 应用程序时禁用信息消息

在运行使用ApacheSpark和Hbase/Hadoop库的应用程序时,我收到了很多消息。例如:0[main]DEBUGorg.apache.hadoop.metrics2.lib.MutableMetricsFactory-fieldorg.apache.hadoop.metrics2.lib.MutableRateorg.apache.hadoop.security.UserGroupInformation$UgiMetrics.loginSuccesswithannotation@org.apache.hadoop.metrics2.annotation.Metric(abou

python - Pig//Spark 作业看不到 Python 模块

我的hadoop集群有一个反复出现的问题,偶尔功能代码会停止查看位于正确位置的python模块。我正在寻找可能遇到过相同问题的人的提示。当我第一次开始编程并且代码停止工作时,我在这里问了一个关于SO的问题,有人告诉我去sleep,早上它应该可以工作,或者其他一些“你是个傻瓜,你一定有改变了一些东西”之类的评论。我多次运行该代码,它有效,我去sleep了,早上我尝试再次运行它,但它失败了。有时我使用CTRL+C终止作业,有时我使用CTRL+Z。但这只会占用资源,除此之外不会引起任何其他问题——代码仍在运行。我还没有在代码运行后立即看到这个问题。这通常发生在第二天早上,当我在10小时前离开

java - HDInsight-Spark (spark-submit) 失败 - java.lang.NoSuchMethodError : com. microsoft.azure.storage.blob.CloudBlockBlob.startCopy

我们正在开发一个spark应用程序。它将托管在azureHDInsightSpark集群上。我们的用例是这样的,我们必须从azureblob存储中提取数据并使用spark处理数据,最后创建或将数据追加回azureblob存储。所以我们用了azure-storage-4.3.0.jar我们在eclipse项目中使用了Maven并添加了以下依赖com.microsoft.azureazure-storage4.3.0编译成功。甚至应用程序在本地机器上也能正常运行并且执行时没有任何问题。因此我们从eclipse创建了一个uber/fatjar并移植到我们的AzureHDInsight-Spa

amazon-web-services - 设置 AWS 凭证 - Cloudera Quickstart Docker Container

我正在尝试使用Cloudera的Quickstartdocker容器来测试简单的Hadoop/Hive作业。我希望能够在S3中的数据上运行作业,但到目前为止我遇到了问题。我已将以下属性添加到core-site.xml、hive-site.xml、hdfs-site.xml。fs.s3.awsAccessKeyIdXXXXXXfs.s3.awsSecretAccessKeyXXXXXX无论如何,在Hive中尝试创建指向S3位置的外部表时,我收到错误:FAILED:SemanticExceptionjava.lang.IllegalArgumentException:AWSAccessKe

hadoop - Spark 作业失败,因为 HDFS 正在缓存 jar

我将Scala/Sparkjar上传到HDFS以在我们的集群上测试它们。运行后,我经常意识到需要做出一些改变。所以我在本地进行更改,然后将新的jar推送回HDFS。然而,当我这样做时,hadoop经常(并非总是)抛出一个错误,本质上是说这个jar与旧jar不同(duh)。我尝试清除我的回收站、.staging和.sparkstaging目录,但这没有任何作用。我尝试重命名jar,这有时会起作用,有时却不起作用(这仍然很荒谬,我必须首先这样做)。有谁知道为什么会发生这种情况以及如何防止这种情况发生?谢谢你的帮助。如果有帮助,这里有一些日志(编辑了一些路径):Applicationappl

【已解决】Docker启动MySQL容器失败:STATUS:‘ Exited (1) 2 minutes ago ‘,远程连接MySQL连不上问题

先查看正在运行的容器#查看正在运行的容器dockerps#查看所有的docker容器dockerps-a这个时候如果显示的是up状态,那就是启动成功了。状态为exited,所以没有启动成功。问题所在好像是权限的问题在dockerrun时额外加上参数 --privileged问题解决,官网的解释是给容器额外的权限,看来还是权限不足的问题引起的 解决问题1、先停止MySQL服务dockerstopmysql2、移除镜像先把镜像移除掉//移除一个镜像(出现问题可以移除出现启动)dockerrm8ba572fde8a4(CONTAINERID)3、重新启动mysql容器(创建镜像实例)指定版本sudo

spark.driver.maxResultSize限制 Spark 驱动程序(driver)在向客户端返回结果时的最大大小

org.apache.kyuubi.KyuubiSQLException:org.apache.kyuubi.KyuubiSQLException:ErroroperatingExecuteStatement:org.apache.spark.SparkException:Jobabortedduetostagefailure:Totalsizeofserializedresultsof3tasks(1290.4MiB)isbiggerthanspark.driver.maxResultSize(1024.0MiB)atorg.apache.spark.scheduler.DAGSchedul

hadoop - 将 Dataframe 存储到 spark 中的配置单元分区表

我正在尝试将从kafka主题传入的数据流存储到配置单元分区表中。我能够将dstream转换为数据帧并创建一个配置单元上下文。我的代码看起来像这样valhiveContext=newHiveContext(sc)hiveContext.setConf("hive.exec.dynamic.partition","true")hiveContext.setConf("hive.exec.dynamic.partition.mode","nonstrict")newdf.registerTempTable("temp")//newdfismydataframenewdf.write.mode

hadoop - 如何使用 Spark SQL 创建分区表

我知道我们可以通过以下方式创建一个自动分区发现表CREATETABLEmy_tableUSINGcom.databricks.spark.avroOPTIONS(path"/path/to/table");但这需要将数据路径更改为partition_key=partition_value格式/path/to/table/dt=2016-10-09/path/to/table/dt=2016-10-10/path/to/table/dt=2016-10-11但是数据结构是这样的:/path/to/table/2016-10-09/path/to/table/2016-10-10/path

从Docker Hub中拉出Docker图像:找不到

我正在Windows10中使用Docker。我的Docker工作正常,但是当我尝试通过CMD从DockerHub拿出图像时:C:\users\pca90>docker使用默认标签拉hello-world:守护程序的最新错误响应:获取https://registry-1.docker.io/v2/:未找到看答案只需在终端或命令窗口中发布这些命令docker-machinerestartdefault#Restarttheenvironmenteval$(docker-machineenvdefault)#Refreshyourenvironmentsettings在跑步之后,它将起作用如果