sc_dataset

hadoop - 具有 Hbase 表输入格式的 Flink DataSet api - 多次读取行

我正在使用Flink1.3.2和hbaseTableInputFormat来自flink-connectors(flink-hbase_2.11)，使用DataSetAPI。我有一个HBase表，其中行键的结构如下:|RowKey|data||0-someuniqid|data||0-someuniqid|data||2-someuniqid|data||2-someuniqid|data||4-someuniqid|data||5-someuniqid|data||5-someuniqid|data||7-someuniqid|data||8-someuniqid|data|表的前缀

java - Flink DataSet join inside map 函数

所以我在DataStream上运行一个映射函数，在映射函数中我想连接2个单独的数据集。只是想知道这在Flink中是否可行。我知道map函数本身作为单独分区的单独任务运行，所以想知道map函数内是否允许分布式连接？最佳答案好吧，事实证明你不能，因为连接数据集发生在与流处理(发生在StreamExecutionContext上)不同的上下文(ExecutionContext)上，并且Flink不允许在彼此内部具有不同执行上下文的操作。java.lang.IllegalArgumentException:Thetwoinputshav

DataSet inside java apache flink hadoop distributed-computing apache-flink flink-streaming

hadoop - spark sc.textfile 的详细工作原理是什么？

我想详细了解sc.textfile的工作原理。我在SparkContext.scala中找到了文本文件源代码，但它们包含很多关于调度程序、阶段和提交的任务的信息。我想要的是sc.textfile如何从hdfs中读取文件，以及sc.textfile如何使用通配符来匹配多个文件。在哪里可以找到源代码？最佳答案 ApacheSpark使用Hadoop客户端库读取文件。因此，您必须阅读hadoop-client源代码以了解更多信息:https://github.com/apache/hadoop/blob/release-2.7.1/ha

textfile hadoop mapreduce section apache-spark

hadoop - 使用kite-dataset导入数据时如何避免mapreduce OutOfMemory Java堆空间错误？

在我的hortonworksHDP2.6集群上，我使用kite-dataset工具导入数据:./kite-dataset-vcsv-importml-100k/u.dataratings我收到这个错误:java.lang.Exception:java.lang.OutOfMemoryError:Javaheapspaceatorg.apache.hadoop.mapred.LocalJobRunner$Job.runTasks(LocalJobRunner.java:462)atorg.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJ

kite-dataset OutOfMemory java MapTask hadoop mapreduce hortonworks-data-platform

hadoop - Spark : Silently execute sc. wholeTextFiles

我正在使用input=sc.wholeTextFiles(hdfs://path/*)在Spark中加载大约200k个文本文件然后我运行println(input.count)事实证明，我的sparkshell输出了大量文本(这是每个文件的路径)，过了一会儿它就挂起而没有返回我的结果。我相信这可能是由于wholeTextFiles输出的文本量所致。你知道有什么方法可以静默运行这个命令吗？还是有更好的解决方法？谢谢! 最佳答案您的文件有多大？来自wholeTextFilesAPI:Smallfilesarepreferred,lar

wholeTextFiles Silently code section hadoop apache-spark

scala - 使用 Spark sc.textFile 读取文件时如何捕获 BlockMissingException？

当读取存储在HDFS上的文本文件时，如果我在使用sc.textFile读取这些文件时遇到BlockMissingException(或其他一些异常)，我该如何捕获错误并继续执行emptyRDD？我可能遇到BlockMissingException的原因是，例如，如果文件存储在复制因子为1的HDFS上并且数据节点出现故障。考虑以下最小示例代码:valmyRDD:RDD[String]=try{sc.textFile("hdfs:///path/to/fileWithMissingBlock")}catch{casee:BlockMissingException=>println("mis

BlockMissingException textFile section code scala hadoop apache-spark

eclipse - sc.TextFile ("") 在 Eclipse 中工作但不在 JAR 中

我正在编写将在hadoop集群中的代码，但首先，我使用本地文件在本地对其进行测试。该代码在Eclipse中运行良好，但是当我使用SBT(使用sparklib等)制作一个巨大的JAR时，该程序一直运行到textFile(path)我的代码是:importorg.apache.spark.{SparkConf,SparkContext}importorg.apache.log4j.{Level,Logger}importorg.joda.time.format.DateTimeFormatimportorg.apache.spark.rdd.RDDimportscala.collectio

中工 amp 34 apache SparkContext eclipse scala hadoop apache-spark rdd

java - Hadoop 错误 : Java heap space when using big dataset

我正在尝试在大型文本数据集(~3.1Tb)上运行Hadoop程序。我一直收到这个错误，而且我看不到任何日志:15/04/2913:31:30INFOmapreduce.Job:map86%reduce3%15/04/2913:33:33INFOmapreduce.Job:map87%reduce3%15/04/2913:35:34INFOmapreduce.Job:map88%reduce3%15/04/2913:37:34INFOmapreduce.Job:map89%reduce3%15/04/2913:39:33INFOmapreduce.Job:map90%reduce3%15

dataset Hadoop mapreduce gt lt java

python - Spark : pyspark crash for some datasets - ubuntu

我正在使用Ubuntu和本地Spark安装(spark-2.0.2)。我的数据集很小，我的代码运行在我有一个小数据。如果我用更多行增加数据集(txt文件)，则会发生错误。我在安装了Hadoop的ClouderaVM上尝试了完全相同的代码，并且运行良好。所以，这一定是我的Ubuntu机器上的一些内存问题或限制。还有一些其他类似的问题，例如:ApacheSpark:pysparkcrashforlargedataset但在我的情况下它没有帮助。我没有Hadoop集群，只有Spark、python2.7和java1.8。它工作正常，只是当有一些更复杂的计算或数据集更大时它崩溃了。有什么线索吗

datasets pyspark spark apache scala python ubuntu hadoop apache-spark

scala - 使用 sc.textFile() 加载本地文件以激发

问题如何使用sc.textFile从本地文件系统加载文件到Spark？我需要更改任何-env变量吗？此外，当我在未安装Hadoop的Windows上尝试相同操作时，我遇到了同样的错误。代码>valinputFile=sc.textFile("file///C:/Users/swaapnika/Desktop/todolist")/1722:28:18INFOMemoryStore:ensureFreeSpace(63280)calledwithcurMem=0,maxMem=278019440/1722:28:18INFOMemoryStore:Blockbroadcast_0stor

textFile scala apache spark api hadoop apache-spark rdd

13 14 151617 18 19