apache-karaf

apache-spark - 使用 Spark/Scala 读取序列文件时，无法序列化结果 : org. apache.hadoop.io.IntWritable

从逻辑上读取带有Int和String的序列文件，然后如果我这样做:valsequence_data=sc.sequenceFile("/seq_01/seq-directory/*",classOf[IntWritable],classOf[Text]).map{case(x,y)=>(x.toString(),y.toString().split("/")(0),y.toString().split("/")(1))}.collect这没问题，因为IntWritable已转换为String。如果我这样做:valsequence_data=sc.sequenceFile("/seq_0

python - apache spark 加载内部文件夹

importfindsparkfindspark.init('C:\spark')frompyspark.sqlimportSparkSessionspark=SparkSession.builder.getOrCreate()a=[]i=1880whilei我运行代码但出现错误；dataset1=spark.read.format('csv').option('header','true').load('C://venq/uyh/'+a)类型错误:只能将str(不是“列表”)连接到str我有一个“C:\venq\uyh\1880\1880\verr.csv”格式的循环。我在嵌套文件夹

python apache section 39 spark python-3.x apache-spark hadoop

apache-spark - DCOS 集群上的 Spark 提交失败，出现 java.net.UnknownHostException : hdfs

我正在DCOS集群上以集群/休息模式运行spark-submit:$./spark-submit--deploy-modecluster--mastermesos://localhost:7077--confspark.master.rest.enabled=true--confspark.mesos.uris=http://api.hdfs.marathon.l4lb.thisdcos.directory/v1/endpoints/hdfs-site.xml,http://api.hdfs.marathon.l4lb.thisdcos.directory/v1/endpoints/c

UnknownHostException apache-spark java spark hdfs hadoop mesos dcos

java - 是否在任何地方记录了 Apache Hadoop 的构建工件？

我刚刚开始使用ApacheHadoop，因此，我的第一个目标基本上是运行“helloworld”应用程序。首要任务始终是设置开发环境并能够编译代码。更具体地说，我正在尝试编译找到的类here.这些文件代表一个简单的MapReduce作业，作为Hadoop书籍的一部分。本书作者使用hadoop-client作为依赖项(source)，但由于有太多工件-我将返回-我想知道我是否可以使用另一个依赖项。我总是试图“导入”或仅依赖于最少的一组工件和类型。本书作者(还)没有谈到Hadoop分发了哪些工件，以及我为什么要使用其中一个的话题。Hadoop的网站和Internet的其余部分似乎也不会在意

在任何地 hadoop client noreferrer java dependencies code-documentation

apache-spark - PySpark:如何在读取 Parquet 时读取分区列

我将数据存储在Parquet文件和按年、月、日分区的配置单元表中。因此，每个parquet文件都存储在/table_name/year/month/day/文件夹中。我只想读入部分分区的数据。我有如下各个分区的路径列表:paths_to_files=['hdfs://data/table_name/2018/10/29','hdfs://data/table_name/2018/10/30']然后尝试做类似的事情:df=sqlContext.read.format("parquet").load(paths_to_files)但是，我的数据不包含关于年月日的信息，因为这不是数据本身的一

apache-spark 在读 code section 配置单 hadoop pyspark apache-spark-sql parquet

apache-spark - 分发文件副本给执行者

我有一堆数据(在S3上)正在复制到本地HDFS(在亚马逊EMR上)。现在我正在使用org.apache.hadoop.fs.FileUtil.copy执行此操作，但尚不清楚这是否会将文件副本分发给执行程序。SparkHistory服务器中肯定没有显示任何内容。HadoopDistCp看起来很像(注意我在S3上，所以它实际上应该是s3-dist-cp构建在dist-cp)除了它是一个命令行工具。我正在寻找一种从Scala脚本(又名Java)调用它的方法。有什么想法/线索吗？最佳答案 cloudcp是使用Spark做复制的例子；文

分发 apache-spark section code spark hadoop hdfs amazon-emr distcp

apache-spark - Azure HDInsight 的 SparkRunner 上的 Apache Beam 管道

我尝试让Beam管道在Azure的HDInsightSparkRunner上运行。我首先尝试使用基于Spark2.3.0/Hadoop2.7(HDI3.6)的集群，然后是2.3.1/Hadoop3.0(HDI4.0Preview)。我尝试使用ApacheBeam2.2.0和下一个2.10.0-SNAPSHOT。spark-submit命令是(对于Beam2.10.0):JARS="wasbs:///dependency/hadoop-azure-3.1.1.3.0.2.0-50.jar,wasbs:///dependency/azure-storage-7.0.0.jar,wasbs:

apache-spark SparkRunner apache FileSystem java hadoop azure-storage apache-beam azure-hdinsight

apache-spark - 在 rapidminer : error occurred during submitting or starting the spark job 上运行 Spark

我正在使用rapidminer从大型数据集中提取规则。Radoop是hadoop生态系统的扩展，而sparkRM运算符允许进行fp-growth，从从hive检索数据到探索分析。我正在尝试:-Windows8.1-hadoop6.2-Spark1.5-hive2.1我已将spark-default-conf配置如下:#spark.masteryarn#spark.eventLog.enabledtrue#spark.eventLog.dirhdfs://namenode:8021/directory#spark.serializerorg.apache.spark.serializer

spark apache-spark gt lt property hadoop hadoop-yarn rapidminer resourcemanager

apache-spark - Hadoop 最好的 spark 2.4 版本

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭4年前。Improvethisquestion我是BIGDATA(spark)的初学者，现在已经安装了spark2.4，所以我想知道应该选择哪个版本最好。因为我想避免冲突，这太糟糕了。

spark apache-spark section class notice hadoop

hadoop - 如何修复 Jython 和 HBase 中的 "ImportError: No module name apache"错误

我正在尝试运行以下Jython代码来扫描hbase表:importjava.langfromorg.apache.hadoop.hbaseimportTableName,HBaseConfigurationfromorg.apache.hadoop.hbase.clientimportConnection,ConnectionFactory,Result,ResultScanner,Table,Adminfromorg.apache.hadoop.confimportConfigurationconf=HBaseConfiguration.create()connection=Conn

ImportError amp java python org hadoop hbase jython

330 331 332333334 335 336