apache-spark-1.3

maven - 在 Microsoft Windows 8.1 中运行 Apache Hadoop 2.7.0

首先，我下载最新版本的HadoopApache2.7.0-src.tar.gz其次，我将它解压并移动到C。然后我使用了这个SDK7.1命令行:hdfs>mvnpackage-Pdist,native-win-DskipTests-Dtar这是我得到的输出:Downloading:http://repo.maven.apache.org/maven2/org/codehaus/plexus/plexus/3.3/plexus-3.3.pomDownloaded:http://repo.maven.apache.org/maven2/org/codehaus/plexus/plexus/3

中运 Microsoft maven apache pom hadoop sdk hadoop2

java - 编写 MapReduce 时 Apache Phoenix 双数据类型问题

我正在使用ApachePhoenix在Hbase中创建表，因为它提供二级索引功能以及类似sql的数据类型。我使用phoenix创建了一个包含Double和Varchar列的表。CREATETABLEINVOICE(ROWKEYVARCHARNOTNULLPRIMARYKEY,CF1.INVOICEIDVARCHAR,CF1.TOTALAMOUNTDOUBLE,CF1.STATUSVARCHAR,CF1.CREATEDATEDATE);Phoenix将Double值作为ByteArray存储在Hbase中，如下所示column=CF1:TOTALAMOUNT,timestamp=1434

双数 MapReduce phoenix section java hadoop hbase apache-phoenix

hadoop - 启动 spark-submit 时出错，因为 avro

我正在用spark创建一个应用程序。我在Hadoop2的HDFS中使用avro文件。我使用maven并像这样包含avro:org.apache.avroavro-mapred1.7.6hadoop2我做了一个单元测试，当我使用mvntest时，一切正常。但是当我用spark启动时提交没有!我有这个错误:Exceptioninthread"main"org.apache.spark.SparkException:Jobabortedduetostagefailure:Task1instage0.0failed1times,mostrecentfailure:Losttask1.0inst

时出 spark-submit avro section apache hadoop apache-spark

apache - Hadoop 文件系统复制 - 名称节点与数据节点

我需要将一个文件从我的文件系统复制到HDFS，下面是我在hdfs-site.xml中的配置。我应该如何使用“hadoopfs”命令将/home/text.txt中的文件复制到HDFS中？我应该将它复制到名称节点还是数据节点？dfs.replication1dfs.namenode.name.dirfile:/usr/local/hadoop_store/hdfs/namenodedfs.datanode.data.dirfile:/usr/local/hadoop_store/hdfs/datanode 最佳答案您使用的是什么版本

apache Hadoop section code gt filesystems hdfs

maven - Apache Hadoop 2.6.0 源代码编译问题

我在64位bitcentos6.5中编译Hadoop2.6.0并收到以下错误消息。谁能帮帮我？环境细节:Jave版本:1.7.0_71-b14Maven版本:ApacheMaven3.2.5开启SSL版本:OpenSSL1.0.x协议(protocol)版本:libprotoc2.5.0Cmake版本:2.8.12.2错误消息详情如下:[INFO]ReactorSummary:[INFO][INFO]ApacheHadoopMain.................................SUCCESS[2.259s][INFO]ApacheHadoopProjectPOM..

Apache Hadoop gt lt artifactId maven

java - org.apache.hadoop.ipc.RemoteException 错误

我想将一些文件从Windows机器复制到在SingleNode上的ubuntu14.04.02上运行的hadoop。这是用于此目的的代码；Configurationconfiguration=newConfiguration();configuration.addResource(newPath("/core-site.xml"));configuration.addResource(newPath("/mapred-site.xml"));FileSystemhdfs=FileSystem.get(configuration);PathhomeDirectory=hdfs.getHo

RemoteException apache hadoop java

hadoop - Spark Standalone 与 python 和 scala 的行为不同

我正在探索Spark，发现与SparkStandalone(简称SS)不一致。这里有一些关于我的集群的线索:d125.dtvhadooptest->最佳数据节点d124.dtvhadooptestd211.dtvhadooptest->最差数据节点我正在通过python和scala运行完全相同的作业。当作业作为python脚本提交时，SS在执行程序进程之间几乎平等地共享任务。但是，当作业作为scala脚本提交时，SS会异构地共享任务。我想截图会更好地解释它:python:斯卡拉:使用scala，作业运行速度明显加快(大约55分钟)。使用python时，大约90分钟即可完成作业。我认为造

Standalone hadoop section python strong apache-spark pyspark

scala - 使用 Spark 从目录中读取多个文件

我正在尝试解决这个问题problem在kaggle使用spark:输入的层次结构是这样的:drivers/{driver_id}/trip#.csve.g.,drivers/1/1.csvdrivers/1/2.csvdrivers/2/1.csv我想读取父目录"drivers"，对于每个子目录，我想创建一个pairRDD，键为(sub_directory,file_name)和值作为文件的内容我检查了this链接并尝试使用valtext=sc.wholeTextFiles("drivers")text.collect()失败并出现错误:java.lang.ArrayIndexOutO

scala Spark apache strong hadoop apache-spark kaggle

java - Spark Java scala 错误

嘿，我想在我的Java项目中使用spark:我已经将此依赖项添加到我的pom文件中:org.apache.sparkspark-core_2.111.4.0我试过这段代码:importorg.apache.spark.api.java.JavaSparkContext;publicclasssparkSQL{publicvoidquery(){JavaSparkContextsc=newJavaSparkContext();}}我在我的main中调用了这个函数，但我得到了这个错误:Exceptioninthread"main"java.lang.NoClassDefFoundError

Spark scala java URLClassLoader ClassLoader maven hadoop apache-spark

scala - Spark : how to include dependencies with build/sbt compile

我是spark的新手，但正在尝试进行一些开发。我正在遵循thesparkdeveloperpage中的“减少构建时间”说明.创建正常程序集后，我编写了一些依赖于一个特定jar的类。我在spark-shell中测试了我的包，通过定义SPARK_CLASSPATH，我已经能够在其中包含我的jar，但问题在于实际编译我的代码。我想要实现的是在编译我添加的包时包含那个jar(使用build/sbtcompile)。我可以通过在build/sbt文件或sbt-launch-lib.bash中添加我的jar路径来做到这一点吗？如果可以的话，怎么做？(旁注:我还不想将jar包含在程序集中，因为我对它

dependencies compile section code jar scala hadoop apache-spark

159 160 161162163 164 165