apache-spark-2.3

python - Pig//Spark 作业看不到 Python 模块

我的hadoop集群有一个反复出现的问题，偶尔功能代码会停止查看位于正确位置的python模块。我正在寻找可能遇到过相同问题的人的提示。当我第一次开始编程并且代码停止工作时，我在这里问了一个关于SO的问题，有人告诉我去sleep，早上它应该可以工作，或者其他一些“你是个傻瓜，你一定有改变了一些东西”之类的评论。我多次运行该代码，它有效，我去sleep了，早上我尝试再次运行它，但它失败了。有时我使用CTRL+C终止作业，有时我使用CTRL+Z。但这只会占用资源，除此之外不会引起任何其他问题——代码仍在运行。我还没有在代码运行后立即看到这个问题。这通常发生在第二天早上，当我在10小时前离开

python section strong 的 hadoop apache-pig pyspark

java - HDInsight-Spark (spark-submit) 失败 - java.lang.NoSuchMethodError : com. microsoft.azure.storage.blob.CloudBlockBlob.startCopy

我们正在开发一个spark应用程序。它将托管在azureHDInsightSpark集群上。我们的用例是这样的，我们必须从azureblob存储中提取数据并使用spark处理数据，最后创建或将数据追加回azureblob存储。所以我们用了azure-storage-4.3.0.jar我们在eclipse项目中使用了Maven并添加了以下依赖com.microsoft.azureazure-storage4.3.0编译成功。甚至应用程序在本地机器上也能正常运行并且执行时没有任何问题。因此我们从eclipse创建了一个uber/fatjar并移植到我们的AzureHDInsight-Spa

NoSuchMethodError java apache hadoop azure apache-spark azure-hdinsight

hadoop - Spark 作业失败，因为 HDFS 正在缓存 jar

我将Scala/Sparkjar上传到HDFS以在我们的集群上测试它们。运行后，我经常意识到需要做出一些改变。所以我在本地进行更改，然后将新的jar推送回HDFS。然而，当我这样做时，hadoop经常(并非总是)抛出一个错误，本质上是说这个jar与旧jar不同(duh)。我尝试清除我的回收站、.staging和.sparkstaging目录，但这没有任何作用。我尝试重命名jar，这有时会起作用，有时却不起作用(这仍然很荒谬，我必须首先这样做)。有谁知道为什么会发生这种情况以及如何防止这种情况发生？谢谢你的帮助。如果有帮助，这里有一些日志(编辑了一些路径):Applicationappl

hadoop Spark java FSDownload apache-spark hdfs

java - 使用 java 通过 Apache Ignite 访问 IGFS 文件

我是ApacheIgnite的新手，我需要通过java访问igfs文件。到目前为止，我尝试的是:importjava.io.InputStream;importorg.apache.ignite.Ignite;importorg.apache.ignite.IgniteFileSystem;importorg.apache.ignite.Ignition;importorg.apache.ignite.igfs.IgfsPath;publicclassIgnite_Spark{publicstaticvoidmain(String[]args)throwsException{Ignit

java Apache 34 ignite hadoop

spark.driver.maxResultSize限制 Spark 驱动程序（driver）在向客户端返回结果时的最大大小

org.apache.kyuubi.KyuubiSQLException:org.apache.kyuubi.KyuubiSQLException:ErroroperatingExecuteStatement:org.apache.spark.SparkException:Jobabortedduetostagefailure:Totalsizeofserializedresultsof3tasks(1290.4MiB)isbiggerthanspark.driver.maxResultSize(1024.0MiB)atorg.apache.spark.scheduler.DAGSchedul

driver maxResultSize scala apache spark 大数据分布式 hadoop

apache - 我正在使用 Hadoop 2.7.2 安装 Hive 2.0.0

我正在尝试使用Hadoop2.7.2安装Hive2.0.0但是我不知道我的执行有什么问题parallels@ubuntu:/usr/local/apache-hive-2.0.0-bin$./bin/hiveSLF4J:ClasspathcontainsmultipleSLF4Jbindings.SLF4J:Foundbindingin[jar:file:/usr/local/apache-hive-2.0.0-bin/lib/hive-jdbc-2.0.0-standalone.jar!/org/slf4j/impl/StaticLoggerBinder.class]SLF4J:Fo

apache Hadoop apache-hive hive

hadoop - 将 Dataframe 存储到 spark 中的配置单元分区表

我正在尝试将从kafka主题传入的数据流存储到配置单元分区表中。我能够将dstream转换为数据帧并创建一个配置单元上下文。我的代码看起来像这样valhiveContext=newHiveContext(sc)hiveContext.setConf("hive.exec.dynamic.partition","true")hiveContext.setConf("hive.exec.dynamic.partition.mode","nonstrict")newdf.registerTempTable("temp")//newdfismydataframenewdf.write.mode

配置单 Dataframe section 34 hadoop hive spark-streaming

hadoop - 如何使用 Spark SQL 创建分区表

我知道我们可以通过以下方式创建一个自动分区发现表CREATETABLEmy_tableUSINGcom.databricks.spark.avroOPTIONS(path"/path/to/table");但这需要将数据路径更改为partition_key=partition_value格式/path/to/table/dt=2016-10-09/path/to/table/dt=2016-10-10/path/to/table/dt=2016-10-11但是数据结构是这样的:/path/to/table/2016-10-09/path/to/table/2016-10-10/path

hadoop Spark table section code apache-spark hive apache-spark-sql

wamp apache rotatelog怪异问题

我正在尝试使用WampApache的RotateLog功能来组织每日日志。但是，我注意到访问日志写在两个地方。第一个文件是原始的access_log.log，第二个文件写入定义的旋转日志文件。添加到httpd.conf中以启用rotateLog的代码如下。CustomLog"|C:/wamp64/bin/apache/apache2.4.23/bin/rotatelogs.exeC:/wamp64/backup/logs/apache/access_log/access_log_%d-%m-%y.log86400"commonErrorLog"|C:/wamp64/bin/apache/apa

怪异 rotatelog section 文件 apache

hadoop - Apache Pig 本地处理 bz2 文件？

我可以看到pig可以本地读取.bz2文件，但我不确定它是否运行明确的作业将bz2拆分为多个输入拆分？谁能证实这一点？如果pig正在运行一个创建输入拆分的作业，有没有办法避免这种情况？我的意思是让MapReduce框架在框架级别将bz2文件拆分为多个输入片段的方法？最佳答案可拆分输入格式未在hadoop(或只为您运行MR作业的pig中)中实现，因此一个文件由一个作业拆分，然后由第二个作业处理拆分。输入格式定义了一个isSplittable方法，该方法定义原则上文件格式是否可以拆分。除此之外，大多数基于文本的格式将检查文件是否使用已

hadoop Apache section 读取器 bz2 mapreduce apache-pig

203 204 205206207 208 209