草庐IT

apache-spark-2.3

全部标签

python - Pig//Spark 作业看不到 Python 模块

我的hadoop集群有一个反复出现的问题,偶尔功能代码会停止查看位于正确位置的python模块。我正在寻找可能遇到过相同问题的人的提示。当我第一次开始编程并且代码停止工作时,我在这里问了一个关于SO的问题,有人告诉我去sleep,早上它应该可以工作,或者其他一些“你是个傻瓜,你一定有改变了一些东西”之类的评论。我多次运行该代码,它有效,我去sleep了,早上我尝试再次运行它,但它失败了。有时我使用CTRL+C终止作业,有时我使用CTRL+Z。但这只会占用资源,除此之外不会引起任何其他问题——代码仍在运行。我还没有在代码运行后立即看到这个问题。这通常发生在第二天早上,当我在10小时前离开

java - HDInsight-Spark (spark-submit) 失败 - java.lang.NoSuchMethodError : com. microsoft.azure.storage.blob.CloudBlockBlob.startCopy

我们正在开发一个spark应用程序。它将托管在azureHDInsightSpark集群上。我们的用例是这样的,我们必须从azureblob存储中提取数据并使用spark处理数据,最后创建或将数据追加回azureblob存储。所以我们用了azure-storage-4.3.0.jar我们在eclipse项目中使用了Maven并添加了以下依赖com.microsoft.azureazure-storage4.3.0编译成功。甚至应用程序在本地机器上也能正常运行并且执行时没有任何问题。因此我们从eclipse创建了一个uber/fatjar并移植到我们的AzureHDInsight-Spa

hadoop - Spark 作业失败,因为 HDFS 正在缓存 jar

我将Scala/Sparkjar上传到HDFS以在我们的集群上测试它们。运行后,我经常意识到需要做出一些改变。所以我在本地进行更改,然后将新的jar推送回HDFS。然而,当我这样做时,hadoop经常(并非总是)抛出一个错误,本质上是说这个jar与旧jar不同(duh)。我尝试清除我的回收站、.staging和.sparkstaging目录,但这没有任何作用。我尝试重命名jar,这有时会起作用,有时却不起作用(这仍然很荒谬,我必须首先这样做)。有谁知道为什么会发生这种情况以及如何防止这种情况发生?谢谢你的帮助。如果有帮助,这里有一些日志(编辑了一些路径):Applicationappl

java - 使用 java 通过 Apache Ignite 访问 IGFS 文件

我是ApacheIgnite的新手,我需要通过java访问igfs文件。到目前为止,我尝试的是:importjava.io.InputStream;importorg.apache.ignite.Ignite;importorg.apache.ignite.IgniteFileSystem;importorg.apache.ignite.Ignition;importorg.apache.ignite.igfs.IgfsPath;publicclassIgnite_Spark{publicstaticvoidmain(String[]args)throwsException{Ignit

spark.driver.maxResultSize限制 Spark 驱动程序(driver)在向客户端返回结果时的最大大小

org.apache.kyuubi.KyuubiSQLException:org.apache.kyuubi.KyuubiSQLException:ErroroperatingExecuteStatement:org.apache.spark.SparkException:Jobabortedduetostagefailure:Totalsizeofserializedresultsof3tasks(1290.4MiB)isbiggerthanspark.driver.maxResultSize(1024.0MiB)atorg.apache.spark.scheduler.DAGSchedul

apache - 我正在使用 Hadoop 2.7.2 安装 Hive 2.0.0

我正在尝试使用Hadoop2.7.2安装Hive2.0.0但是我不知道我的执行有什么问题parallels@ubuntu:/usr/local/apache-hive-2.0.0-bin$./bin/hiveSLF4J:ClasspathcontainsmultipleSLF4Jbindings.SLF4J:Foundbindingin[jar:file:/usr/local/apache-hive-2.0.0-bin/lib/hive-jdbc-2.0.0-standalone.jar!/org/slf4j/impl/StaticLoggerBinder.class]SLF4J:Fo

hadoop - 将 Dataframe 存储到 spark 中的配置单元分区表

我正在尝试将从kafka主题传入的数据流存储到配置单元分区表中。我能够将dstream转换为数据帧并创建一个配置单元上下文。我的代码看起来像这样valhiveContext=newHiveContext(sc)hiveContext.setConf("hive.exec.dynamic.partition","true")hiveContext.setConf("hive.exec.dynamic.partition.mode","nonstrict")newdf.registerTempTable("temp")//newdfismydataframenewdf.write.mode

hadoop - 如何使用 Spark SQL 创建分区表

我知道我们可以通过以下方式创建一个自动分区发现表CREATETABLEmy_tableUSINGcom.databricks.spark.avroOPTIONS(path"/path/to/table");但这需要将数据路径更改为partition_key=partition_value格式/path/to/table/dt=2016-10-09/path/to/table/dt=2016-10-10/path/to/table/dt=2016-10-11但是数据结构是这样的:/path/to/table/2016-10-09/path/to/table/2016-10-10/path

wamp apache rotatelog怪异问题

我正在尝试使用WampApache的RotateLog功能来组织每日日志。但是,我注意到访问日志写在两个地方。第一个文件是原始的access_log.log,第二个文件写入定义的旋转日志文件。添加到httpd.conf中以启用rotateLog的代码如下。CustomLog"|C:/wamp64/bin/apache/apache2.4.23/bin/rotatelogs.exeC:/wamp64/backup/logs/apache/access_log/access_log_%d-%m-%y.log86400"commonErrorLog"|C:/wamp64/bin/apache/apa

hadoop - Apache Pig 本地处理 bz2 文件?

我可以看到pig可以本地读取.bz2文件,但我不确定它是否运行明确的作业将bz2拆分为多个输入拆分?谁能证实这一点?如果pig正在运行一个创建输入拆分的作业,有没有办法避免这种情况?我的意思是让MapReduce框架在框架级别将bz2文件拆分为多个输入片段的方法? 最佳答案 可拆分输入格式未在hadoop(或只为您运行MR作业的pig中)中实现,因此一个文件由一个作业拆分,然后由第二个作业处理拆分。输入格式定义了一个isSplittable方法,该方法定义原则上文件格式是否可以拆分。除此之外,大多数基于文本的格式将检查文件是否使用已