scala-cats_草庐IT

java - Scala:在类中找不到主要方法

我是scala和java的新手。我正在为K-Means聚类编写以下代码，但出现以下错误:Error:Mainmethodnotfoundinclasskmeans,pleasedefinethemainmethodas:publicstaticvoidmain(String[]args)oraJavaFXapplicationclassmustextendjavafx.application.Application请帮助我解决这个问题。我的.scala代码:objectkmeans{importscala.math.powimportorg.apache.spark.SparkCont

scala - 如何在超时的情况下在 Scala 中执行操作？

上下文:我想编写scaldingjob(hadoop)来抓取页面，我想在url提取上设置超时(在URLConnection上没有超时，我想要其他超时情况的通用解决方案)即map功能。我考虑的是futures在超时后被杀死，所有资源都被释放，因为它是内存关键代码。不确定在ScalaAPI中使用什么。最佳答案虽然建议使用Akka——并且优于以下解决方案——Scala确实有自己的内置Actor模型，就像Akka一样，它可以做你想做的事。示例可以在这里找到:http://www.scala-lang.org/node/242您可能需要r

何在 scala section scala-lang hadoop timeout futuretask cascading

hadoop - 使用scala读取和写入hadoop序列文件

我刚开始使用scalding并试图找到读取文本文件和写入hadoop序列文件的示例。任何帮助表示赞赏。最佳答案您可以使用com.twitter.scalding.WritableSequenceFile(请注意，您必须使用完全量化的名称，否则它会选择级联名称)。希望这会有所帮助。关于hadoop-使用scala读取和写入hadoop序列文件，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/que

hadoop scala section stackoverflow scalding

scala - 表达式分解(矩阵运算)，hadoop

我正在尝试为hadoop上的大矩阵计算制作一种迷你框架；我的意思是，smthlike~Prod(Sum(x,y),z)//(X+Y)*Z，其中x,y,z-矩阵或数字，并计算它，并将一些输出结果写入文件。所以我用的是Scalding，matrix和number其实是一回事。问题是我不知道如何处理分解。让我解释一下我的意思:如果我们谈论数字(现在没有hadoop、scalding等，只有纯Scala)我们可以这样制作:traitExpr{defeval:Int=thismatch{caseNumber(n)=>ncaseSum(e1,e2)=>e1.eval+e2.evalcaseDiff

hadoop scala code section matrix scalding

scala - 为什么 lines.map 不起作用，但 lines.take.map 在 Spark 中起作用？

我是Scala和Spark的新手。我正在练习SparkHdfsLR.scalacode.但是我在这段代码中遇到了问题:60vallines=sc.textFile(inputPath)61valpoints=lines.map(parsePoint_).cache()62valITERATIONS=args(2).toInt第61行不起作用。在我把它改成这样之后:60vallines=sc.textFile(inputPath)61valpoints=lines.take(149800).map(parsePoint_)//149800isthetotalnumberoflines62

lines map spark scala DAGScheduler hadoop machine-learning apache-spark

python - 使用 Scala 或 Python 列出存储在 Hadoop HDFS 上的 Spark 集群中可用的所有文件？

列出Spark本地可用的所有文件名的最有效方法是什么？我正在使用ScalaAPI，但是，Python也应该没问题。最佳答案 importorg.apache.hadoop.fs.{FileSystem,FileUtil,Path}importscala.collection.mutable.Stackvalfs=FileSystem.get(sc.hadoopConfiguration)vardirs=Stack[String]()valfiles=scala.collection.mutable.ListBuffer.empty

python section dirs FileSystem scala hadoop apache-spark

hadoop cp vs streaming with/bin/cat 作为 mapper 和 reducer

我是Hadoop的新手，如果/bin/cat用于mapper和reducer，我有一个关于hadoop复制(cp)与hadoop流的非常基本的问题。hadoop-输入-输出-mapper/bin/cat-reducer/bin/cat我相信上面的命令会复制文件(它与hadoopcp有什么不同？)或者如果我的理解有误请纠正我。最佳答案他们做同样的事情，但方式不同:hadoopcp将只调用JAVAHDFSAPI并将副本执行到另一个指定位置，这比流解决方案快得多。另一方面，hadoopstreaming(请参阅下面的示例命令)将启动m

streaming reducer hadoop section code

scala - 如何用Spark写程序替换word

Hadoop很容易使用.replace()例如String[]valArray=value.toString().replace("\N","")但它在Spark中不起作用，我在Spark-shell中编写Scala，如下所示valoutFile=inFile.map(x=>x.replace("\N",""))那么，如何处理呢？最佳答案由于某些原因，您的x是一个Array[String]。你是怎么得到它的？如果你愿意，你可以.toString.replace它，但这可能不会得到你想要的东西(并且无论如何都会在java中给出错误

何用 scala code section replace hadoop apache-spark

scala - SparkPi 程序在 Yarn/Spark/Google Compute Engine 下保持运行

在GoogleComputeEngine上部署了一个Hadoop(Yarn+Spark)集群，其中有一个主节点和两个从节点。当我运行以下shell脚本时:spark-submit--classorg.apache.spark.examples.SparkPi--masteryarn-cluster--num-executors1--driver-memory1g--executor-memory1g--executor-cores1/home/hadoop/spark-install/lib/spark-examples-1.1.0-hadoop2.4.0.jar10作业一直在运行，每

SparkPi Compute section code br scala hadoop apache-spark google-compute-engine hadoop-yarn

scala - Yarn 集群模式下 Spark 作业的 ClassNotFoundException

所以我试图在通过Oozie工作流启动的Yarn-cluster模式下运行Spark作业，但遇到了以下错误(下面的相关堆栈跟踪)java.sql.SQLException:ERROR103(08004):Unabletoestablishconnection.atorg.apache.phoenix.exception.SQLExceptionCode$Factory$1.newException(SQLExceptionCode.java:388)atorg.apache.phoenix.exception.SQLExceptionInfo.buildException(SQLExce

ClassNotFoundException scala java ConnectionQueryServicesImpl apache hadoop apache-spark hadoop-yarn apache-phoenix