scala-compiler

scala - 我怎样才能让 HBase 与 sbt 的依赖管理配合得很好？

我正在尝试启动一个使用CDH3的Hadoop和HBase的sbt项目。我正在尝试使用project/build/Project.scala文件来声明对HBase和Hadoop的依赖关系。(我承认我对sbt、maven和ivy的掌握有点薄弱。如果我说或做一些愚蠢的事情，请原谅我。)Hadoop依赖项使一切顺利进行。添加HBase依赖项导致对Thrift0.2.0的依赖项，似乎没有repo协议(protocol)，或者从这个SOpost.听起来是这样的所以，真的，我有两个问题:1.老实说，我不想依赖Thrift，因为我不想使用HBase的Thrift接口(interface)。有没有办法告

scala HBase section 34 noreferrer hadoop thrift sbt

scala - 在scala spark中将文件读入数组列表

我对spark和scala完全陌生。我想将文件读入数组列表。这就是它在java中的实现方式。ListsourceRecords;sourceRecords=newArrayList();BufferedReaderSW;SW=newBufferedReader(newFileReader(srcpath[0].toString()));Stringsrcline;while((srcline=SW.readLine())!=null){sourceRecords.add(srcline.toString());}spark中的scala怎么实现最佳答案

读入 scala code section sourceRecords hadoop apache-spark

scala - SPARK_EXECUTOR_INSTANCES 在 SPARK SHELL、YARN 客户端模式下不工作

我是spark的新手。正在尝试运行sparkonyarninyarn-clientmode.SPARKVERSION=1.0.2HADOOPVERSION=2.2.0yarn集群有3个事件节点。spark-env.sh中设置的属性SPARK_EXECUTOR_MEMORY=1GSPARK_EXECUTOR_INSTANCES=3SPARK_EXECUTOR_CORES=1SPARK_DRIVER_MEMORY=2GCommandused:/bin/spark-shell--masteryarn-client但是在登录spark-shell之后，它只注册了1个执行器，并为其分配了一些默认

SPARK SPARK_EXECUTOR_INSTANCES code Dspark scala hadoop apache-spark hadoop-yarn

scala - 为什么创建 HiveContext 失败并返回 "java.lang.OutOfMemoryError: PermGen space"？

我正在使用SparkSQL解析JSON，它工作得非常好，它找到了模式，我正在用它进行查询。现在我需要“扁平化”JSON，并且我在论坛上读到最好的方法是使用Hive(横向View)爆炸，所以我尝试对它做同样的事情。但我什至无法创建上下文...Spark给我一个错误，我找不到如何修复它。正如我所说，此时我只是想创建上下文:println("CreateSparkContext:")valsc=newSparkContext("local","Simple","$SPARK_HOME")println("CreateHivecontext:")valhiveContext=newHiveCo

OutOfMemoryError HiveContext apache 34 scala hadoop apache-spark hive

scala - log4j:WARN 找不到附加程序

我有一个非常简单的Scala应用程序。它所做的只是初始化一个记录器并执行一个logger.info("Hello")。我在具有以下设置的类路径中有一个log4j.properties文件#Rootloggeroptionlog4j.rootLogger=INFO,stdout#Directlogmessagestostdoutlog4j.appender.stdout=org.apache.log4j.ConsoleAppenderlog4j.appender.stdout.Target=System.outlog4j.appender.stdout.layout=org.apache

scala log4j log4 log hadoop

scala - 使用 scalding 读取多个文件并输出单个文件

这些天我遇到了一个问题，我正在尝试使用scalding从多个文件中读取数据并使用单个文件创建输出。我的代码是这样的:defgetFilesSource(paths:Seq[String])={newMultipleTextLineFiles(paths:_*){overrideprotecteddefcreateHdfsReadTap(hdfsMode:Hdfs):Tap[JobConf,_,_]={valtaps=goodHdfsPaths(hdfsMode).toList.map{path=>CastHfsTap(newHfs(hdfsScheme,path,sinkMode))}

scalding scala section MyScaldingType code hadoop hdfs hadoop2

scala - 使用 org.apache.hadoop/* dependencies 离线编译 sbt 的问题

使用依赖于org.apache.hadoop包的sbt进行离线编译时遇到了很多麻烦。一个简单的build.sbt:name:="Test"version:="1.0"scalaVersion:="2.10.4"libraryDependencies+="org.apache.hadoop"%"hadoop-yarn-api"%"2.2.0"在线时工作正常但离线运行时出现以下错误，而包存在于ivy缓存中(在~/ivy2/cache/org.apache.hadoop/...下):[info]Loadingprojectdefinitionfrom/home/martin/Dev/S/pr

dependencies apache hadoop document scala sbt ivy

python - Apache Spark Python 到 Scala 的翻译

如果我做对了，ApacheYARN将ApplicationMaster和NodeManager作为JAR文件接收。它们作为Java进程在YARN集群的节点上执行。当我使用Python编写Spark程序时，它是否以某种方式编译成JAR？如果不是，为什么Spark能够在YARN集群节点上执行Python逻辑？最佳答案 PySpark驱动程序使用Py4J(http://py4j.sourceforge.net/)启动JVM并创建Spark上下文。用Python编写的SparkRDD操作映射到PythonRDD上的操作。在远程worker

python Apache section Spark hadoop apache-spark hadoop-yarn pyspark

eclipse - 使用 scala 将 spark 作业从 eclipse 提交到 yarn-client

我是spark和scala的新手，我很难以YARN客户端的身份提交Spark作业。通过sparkshell(sparksubmit)执行此操作没有问题，同样适用于:首先在eclipse中创建一个spark作业，然后将其编译成jar并通过内核shell使用sparksubmit，例如:spark-submit--classebicus.WordCount/u01/stage/mvn_test-0.0.1.jar但是用Eclipse直接编译提交给YARN好像比较难。我的项目设置如下:我的集群正在运行CDHcloudera5.6。我有一个Maven项目，使用Scala，Myclasspath

eclipse 交到 hadoop spark 34 scala apache-spark hadoop-yarn

scala - 是否可以在 HDFS 上持久化 RDD？

我知道RDD可以持久化/缓存在内存、磁盘或两者上，但是否也可以将其持久化到HDFS上。我面临的问题是我的集群上的内存和磁盘空间太少，而我的HDFS空间很大。最佳答案 RDD持久化只能在工作机器(内存和磁盘)内进行。一些持久性级别在集群中的其他工作机器中复制RDD。从今天开始，为了在HDFS中持久化RDD/DataFrame，我们只能使用写入API。写入HDFS://WritingDataFramedf.write.save("hdfs://namenode_host:port/file/path");//WritingRDDrdd

持久 scala section RDD hadoop apache-spark hdfs