草庐IT

apache-spark-1.6

全部标签

hadoop - Apache Hadoop(大数据)

在hadoop中,数据被分成64mb或128mb的block。假设我有一个大小为70mb的文件。它是否分成两个block64mb和6mb。如果是这样,第二个block只占用了6mb,该block中的其他空间是被浪费了还是被另一个block占用了? 最佳答案 在hadoop中,block大小可以由通过dfs.blocksize属性写入hdfs的应用程序选择:http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml对于应该

hadoop - 在 spark yarn 集群中,容器如何工作取决于 RDD 分区的数量?

我有一个关于ApacheSpark(yarn集群)的问题虽然在这段代码中,创建了10个分区但是在yarncluster中,只需要3个contatinervalsc=newSparkContext(newSparkConf().setAppName("SparkCount"))valsparktest=sc.textFile("/spark_test/58GB.dat",10)valtest=sparktest.flatMap(line=>line.split("")).map(word=>(word,1))在sparkyarn集群中,容器如何工作取决于RDD分区的数量?*因为我只有一点

java - import org.apache.hadoop 无法解析

我已经看到这个问题,但似乎没有任何修复对我有用。或者更有可能是我做错了,因为我对此很陌生。(在eclipse中工作)我收到以下行的错误Theimportorg.apache.hadoopcannotberesolved:importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.filecache.DistributedCache;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.Path;importorg.apache.hadoo

apache - 有一个不可序列化的结果 : org. apache.hadoop.hbase.client.Result

privatestaticJavaPairRDDgetCompanyDataRDD(JavaSparkContextsc)throwsIOException{returnsc.newAPIHadoopRDD(companyDAO.getCompnayDataConfiguration(),TableInputFormat.class,ImmutableBytesWritable.class,Result.class).mapToPair(newPairFunction,Integer,Result>(){publicTuple2call(Tuple2t)throwsException{

scala - Spark/Scala 拆分

我有这个代码:rdd.map(_.split("-")).filter(row=>{...})当我执行row.length时:This-is-a-test----on-split--这是一个测试--------输出分别是9和4。如果它为空,则不计算尾随分隔字符。如果我希望两个输出均为10,这里的解决方法是什么? 最佳答案 您可以通过将-1作为限制参数传递给split来完成您想要的操作,如下所示:rdd.map(_.split("-",-1)).filter(row=>{...})顺便说一句,预期结果是11,而不是10(因为如果您想保

hadoop - 如何在 Spark 上运行 Mahout

我最近注意到有一些关于在Spark而不是MapReduce上运行Mahout算法的讨论。但是我找不到任何文档。有人能告诉我是否可以在Spark上运行Mahout算法吗?如果是这样,对我们可以运行的算法有什么限制吗? 最佳答案 是的,mahout现在可以在Spark上运行(即新版本v0.10.0)。记录了不同引擎上可用的算法here.这些在Spark上可用:MahoutDistributedBLAS.DistributedRowMatrixAPIwithRandMatlablikeoperators.DistributedALS,SP

scala - Spark 中的低 CPU 使用率

我在一台8核机器上以本地模式运行Spark作业。它具有本地SSD和64GBRAM。HDFS在同一台机器上以伪分布式模式运行。运行以下作业时,我无法获得CPU利用率以超过单个内核的最大值。RAM使用量保持在10GB以下。环回接口(interface)的最大值约为333MB/s。无论哪种方式,磁盘IO通常都低于30MB/s。我该如何编写才能更好地利用我的硬件资源?objectFilterProperty{defmain(args:Array[String]){valconf=newSparkConf().setAppName("FilterClaimsDataforProperty").s

amazon-web-services - 尝试在 EMR 上安装 Spark 时引导失败

我正在使用此链接在EMR(Amazon上的ElasticMapReduce)上安装SparkClusterhttps://aws.amazon.com/articles/Elastic-MapReduce/4926593393724923为了创建Spark集群,我运行了以下命令,但我的集群每次都遇到引导失败。我无法解决这个问题,如果有人能在这里帮助我,那就太好了。awsemrcreate-cluster--nameSparkCluster--ami-version3.2\--instance-typem3.xlarge--instance-count3--ec2-attributes\

hadoop - 使用 Apache Giraph 时出错

我在ApacheGiraph中运行SimpleOutDegreeCountComputation程序时收到以下错误。我使用JsonLongDoubleFloatDouble作为输入格式。$HADOOP_HOME/bin/hadoopjar$GIRAPH_HOME/giraph-examples/target/giraph-examples-1.2.0-SNAPSHOT-for-hadoop-1.2.1-jar-with-dependencies.jarorg.apache.giraph.GiraphRunnerorg.apache.giraph.examples.SimpleOutDe

sql - 斯卡拉 : Spark sqlContext query

我的文件中只有3个事件(第3列)01、02、03。模式是unixTimestamp|id|eventType|date1|date2|date3639393604950|1001|01|2015-05-1210:00:18|||639393604950|1002|01|2015-05-1210:04:18|||639393604950|1003|01|2015-05-1210:05:18|||639393604950|1001|02||2015-05-1210:40:18||639393604950|1001|03|||2015-05-1219:30:18|639393604950|1