apache-spark-1.6

hadoop - Apache Hadoop(大数据)

在hadoop中，数据被分成64mb或128mb的block。假设我有一个大小为70mb的文件。它是否分成两个block64mb和6mb。如果是这样，第二个block只占用了6mb，该block中的其他空间是被浪费了还是被另一个block占用了？最佳答案在hadoop中，block大小可以由通过dfs.blocksize属性写入hdfs的应用程序选择:http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml对于应该

hadoop - 在 spark yarn 集群中，容器如何工作取决于 RDD 分区的数量？

我有一个关于ApacheSpark(yarn集群)的问题虽然在这段代码中，创建了10个分区但是在yarncluster中，只需要3个contatinervalsc=newSparkContext(newSparkConf().setAppName("SparkCount"))valsparktest=sc.textFile("/spark_test/58GB.dat",10)valtest=sparktest.flatMap(line=>line.split("")).map(word=>(word,1))在sparkyarn集群中，容器如何工作取决于RDD分区的数量？*因为我只有一点

容器取决于 code section 读入 hadoop apache-spark hadoop-yarn rdd

java - import org.apache.hadoop 无法解析

我已经看到这个问题，但似乎没有任何修复对我有用。或者更有可能是我做错了，因为我对此很陌生。(在eclipse中工作)我收到以下行的错误Theimportorg.apache.hadoopcannotberesolved:importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.filecache.DistributedCache;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.Path;importorg.apache.hadoo

import apache hadoop jar java eclipse importerror

apache - 有一个不可序列化的结果 : org. apache.hadoop.hbase.client.Result

privatestaticJavaPairRDDgetCompanyDataRDD(JavaSparkContextsc)throwsIOException{returnsc.newAPIHadoopRDD(companyDAO.getCompnayDataConfiguration(),TableInputFormat.class,ImmutableBytesWritable.class,Result.class).mapToPair(newPairFunction,Integer,Result>(){publicTuple2call(Tuple2t)throwsException{

apache Result section Integer hadoop

scala - Spark/Scala 拆分

我有这个代码:rdd.map(_.split("-")).filter(row=>{...})当我执行row.length时:This-is-a-test----on-split--这是一个测试--------输出分别是9和4。如果它为空，则不计算尾随分隔字符。如果我希望两个输出均为10，这里的解决方法是什么？最佳答案您可以通过将-1作为限制参数传递给split来完成您想要的操作，如下所示:rdd.map(_.split("-",-1)).filter(row=>{...})顺便说一句，预期结果是11，而不是10(因为如果您想保

scala Spark section code split hadoop mapreduce apache-spark rdd

hadoop - 如何在 Spark 上运行 Mahout

我最近注意到有一些关于在Spark而不是MapReduce上运行Mahout算法的讨论。但是我找不到任何文档。有人能告诉我是否可以在Spark上运行Mahout算法吗？如果是这样，对我们可以运行的算法有什么限制吗？最佳答案是的，mahout现在可以在Spark上运行(即新版本v0.10.0)。记录了不同引擎上可用的算法here.这些在Spark上可用:MahoutDistributedBLAS.DistributedRowMatrixAPIwithRandMatlablikeoperators.DistributedALS,SP

何在 hadoop section mahout Spark apache-spark

scala - Spark 中的低 CPU 使用率

我在一台8核机器上以本地模式运行Spark作业。它具有本地SSD和64GBRAM。HDFS在同一台机器上以伪分布式模式运行。运行以下作业时，我无法获得CPU利用率以超过单个内核的最大值。RAM使用量保持在10GB以下。环回接口(interface)的最大值约为333MB/s。无论哪种方式，磁盘IO通常都低于30MB/s。我该如何编写才能更好地利用我的硬件资源？objectFilterProperty{defmain(args:Array[String]){valconf=newSparkConf().setAppName("FilterClaimsDataforProperty").s

scala Spark section 34 code hadoop apache-spark

amazon-web-services - 尝试在 EMR 上安装 Spark 时引导失败

我正在使用此链接在EMR(Amazon上的ElasticMapReduce)上安装SparkClusterhttps://aws.amazon.com/articles/Elastic-MapReduce/4926593393724923为了创建Spark集群，我运行了以下命令，但我的集群每次都遇到引导失败。我无法解决这个问题，如果有人能在这里帮助我，那就太好了。awsemrcreate-cluster--nameSparkCluster--ami-version3.2\--instance-typem3.xlarge--instance-count3--ec2-attributes\

amazon-web-services services section amazon instance apache-spark hadoop amazon-emr

hadoop - 使用 Apache Giraph 时出错

我在ApacheGiraph中运行SimpleOutDegreeCountComputation程序时收到以下错误。我使用JsonLongDoubleFloatDouble作为输入格式。$HADOOP_HOME/bin/hadoopjar$GIRAPH_HOME/giraph-examples/target/giraph-examples-1.2.0-SNAPSHOT-for-hadoop-1.2.1-jar-with-dependencies.jarorg.apache.giraph.GiraphRunnerorg.apache.giraph.examples.SimpleOutDe

时出 hadoop apache giraph org

sql - 斯卡拉 : Spark sqlContext query

我的文件中只有3个事件(第3列)01、02、03。模式是unixTimestamp|id|eventType|date1|date2|date3639393604950|1001|01|2015-05-1210:00:18|||639393604950|1002|01|2015-05-1210:04:18|||639393604950|1003|01|2015-05-1210:05:18|||639393604950|1001|02||2015-05-1210:40:18||639393604950|1001|03|||2015-05-1219:30:18|639393604950|1

斯卡拉斯卡 639393604950 date section sql hadoop apache-spark apache-spark-sql parquet