scala-cats

scala - 在 Scala/Spark 的 HDFS 上将文件从一个文件夹移动到另一个文件夹

我有两条路径，一条用于文件，一条用于文件夹。我想将文件移动到HDFS上的那个文件夹中。我怎样才能在Scala中做到这一点？我也在用Spark如果相同的代码也适用于Windows路径，就像在HDFS上读取/写入文件一样，但不是必需的。我尝试了以下方法:valfs=FileSystem.get(sc.hadoopConfiguration)fs.moveFromLocalFile(something,something2)我收到以下错误:Exceptioninthread"main"java.lang.IllegalArgumentException:WrongFS:hdfs:/user/

scala apache hadoop 34 apache-spark hdfs

scala - 学习mapreduce，如何在map reduce数据流中翻译SQL命令。字数统计示例不能满足我的理解。

在网上，我看到了很多关于规范字数统计图减少遍历的示例。我了解k,v的映射器输入=>以减少k,list(v)的输入。mapreduce带来了一些神奇的效果。我不太明白如何将mapreduce应用于更实际的示例。例如:假设我有一个文件，其中包含美国所有员工的薪水以及一些其他详细信息，例如州和城市等......mapreduce如何工作以提供包含以下列汇总的输出报告？州，城市，平均(工资)在SQL中，我可以通过这样的查询得到它:Selectstate,city,avg(salaries)Fromemployee_tblGroupbystate,citymapreduce将如何为我提供上述结果

何在 mapreduce blockquote section function scala hadoop nosql hive

scala - 如何枚举HDFS目录中的文件

如何枚举HDFS目录中的文件？这是为了使用Scala枚举ApacheSpark集群中的文件。我看到有sc.textfile()选项，但它也会读取内容。我只想读取文件名。我实际上尝试了listStatus。但是没有用。得到以下错误。我正在使用AzureHDInsightSpark，Blob存储文件夹“testContainer@testhdi.blob.core.windows.net/example/”包含.json文件。valfs=FileSystem.get(newConfiguration())valstatus=fs.listStatus(newPath("wasb://tes

scala HDFS SparkInterpreter at hadoop apache-spark

scala - 使用嵌套字段更新数据框 - Spark

这个问题在这里已经有了答案:AddinganestedcolumntoSparkDataFrame(1个回答)关闭3年前。我有如下两个数据框Df1+----------------------+---------+|products|visitorId|+----------------------+---------+|[[i1,0.68],[i2,0.42]]|v1||[[i1,0.78],[i3,0.11]]|v2|+----------------------+---------+Df2+---+----------+|id|name|+---+----------+|i1|N

scala Spark 34 section code apache-spark dataframe hadoop apache-spark-sql

scala - 如何从 Scala 代码读取 HDFS 文件

我是Scala和HDFS的新手:我只是想知道我能够从Scala代码读取本地文件，但如何从HDFS读取:importscala.io.sourceobjectReadLine{defmain(args:Array[String]){if(args.length>0){for(line在参数中我已经传递了hdfs://localhost:9000/usr/local/log_data/file1..但它给出了FileNotFoundException错误我肯定错过了一些东西..任何人都可以帮我吗？最佳答案 scala.io.sourc

scala code section strong hadoop

file - hadoop fs -text vs hadoop fs -cat vs hadoop fs -get

我相信以下所有命令都可用于将hdfs文件复制到本地文件系统。有什么区别/情境利弊。(这里是Hadoop新手)。hadoopfs-text/hdfs_dir/*>>/local_dir/localfile.txthadoopfs-cat/hdfs_dir/*>>/local_dir/localfile.txthadoopfs-get/hdfs_dir/*>>/local_dir/我的经验法则是避免对大文件使用“text”和“cat”。(我用它来复制我的MR作业的输出，这在我的用例中通常较小)。最佳答案 -cat和-text之间的主要

hadoop fs section hdfs file

scala - ZooKeeper 返回 HBase 服务器地址的垃圾字符

这个问题不太可能帮助任何future的访问者；它只与一个小的地理区域、一个特定的时间点或一个非常狭窄的情况有关，这些情况并不普遍适用于互联网的全局受众。为了帮助使这个问题更广泛地适用，visitthehelpcenter.关闭10年前。最近怎么样？对不起，如果我在这里听起来很愚蠢。我正在尝试创建一个基本的play2.0-HBase应用程序。当我尝试从游戏连接HBase时，ZooKeeper向我返回HBase服务器地址的垃圾字符。defmain(args:Array[String]):Unit={valconf=HBaseConfigurationcreatevaladmin=newHB

ZooKeeper scala section hbase HBaseConnection hadoop playframework-2.0 apache-zookeeper

java - Scala MapReduce 框架提供类型不匹配

我在Scala中有一个基于多个org.apache.hadoop库的MapReduce框架。它适用于一个简单的字数统计程序。但是，我想将它应用到有用的东西上，但遇到了障碍。我想获取一个csv文件(或任何分隔符)并将第一列中的任何内容作为键传递，然后计算键的发生率。映射器代码如下所示classWordCountMapperextendsMapper[LongWritable,Text,Text,LongWritable]withHImplicits{protectedoverridedefmap(lnNumber:LongWritable,line:Text,context:Mapper

MapReduce Scala 34 hadoop code java

scala - Spark集群提交无法绑定(bind)slave地址

ERRORnetty.NettyTransport:failedtobindtospark.master/172.28.128.3:0,shuttingdownNettytransport15/03/1604:08:50WARNutil.Utils:Service'Driver'couldnotbindonport0.Attemptingport1.^^^是我从我的从属日志中得到的错误。我正在使用spark-submit提交我的工作。这是没有意义的，因为从站能够连接到主站，如web-ui所示。我认为我已经配置了正确的端口，如下所示是我在所有机器上的配置。Spark-Env.shexpo

scala Spark master section hadoop apache-spark

scala - 何时坚持以及何时取消坚持 Spark 中的 RDD

假设我有以下内容:valdataset2=dataset1.persist(StorageLevel.MEMORY_AND_DISK)valdataset3=dataset2.map(.....)如果您对dataset2进行转换，那么您必须持久化它并将其传递给dataset3并取消持久化之前的数据？我正在尝试确定何时持久化和取消持久化RDD。对于每一个新创建的rdd，我都必须坚持它吗？谢谢最佳答案 Spark自动监控每个节点上的缓存使用情况，并以最近最少使用(LRU)的方式删除旧数据分区。如果您想手动删除RDD而不是等待它从缓存中

何时 scala section dataset 持久 hadoop apache-spark rdd

139 140 141142143 144 145