草庐IT

hdfs_clusters

全部标签

scala - Spark 流 : Write Data to HDFS by reading from one HDFSdir to another

我正在尝试使用SparkStreaming将数据从一个HDFS位置读取到另一个位置下面是我在spark-shell上的代码片段但我看不到在HDFS输出目录上创建的文件能否指出如何在HDFS上加载文件scala>sc.stop()scala>importorg.apache.spark.SparkConfscala>importorg.apache.spark.streamingscala>importorg.apache.spark.streaming.{StreamingContext,Seconds}scala>valconf=newSparkConf().setMaster("l

apache-spark - 我们在yarn cluster中运行时在哪里可以看到spark输出控制台

我是Spark、Hadoop和Yarn的初学者。我用以下命令安装Spark:https://spark.apache.org/docs/2.3.0/和Hadoop/yarn:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html.我的目标是在yarncluster上运行spark应用程序,但我遇到了问题。我们怎么知道我们的设置何时工作?我会告诉你我的例子。完成设置后,我尝试运行测试jar:examples/jars/spark-examples*.jar。当我在

apache-spark - 将数据从 CSV 文件映射到 HDFS 上的 Hive 表时出错

我正在尝试按照以下步骤将数据框加载到Hive表中:读取源表并将数据帧保存为HDFS上的CSV文件valyearDF=spark.read.format("jdbc").option("url",connectionUrl).option("dbtable",s"(${execQuery})asyear2016").option("user",devUserName).option("password",devPassword).option("partitionColumn","header_id").option("lowerBound",199199).option("upperB

apache-spark - Spark 事件日志 HDFS 一致性

我遇到了一个奇怪的问题,即Spark事件日志的长度没有正确更新。例如,我们将查看文件application_1551818805190_0006_1.inprogress。当我使用hdfsdfs-ls/var/log/spark/apps/时,我看到该文件只有309个字节:[hadoop~]$hdfsdfs-lshdfs:///var/log/spark/apps-rwxrwx---2hadoopspark1381803502019-03-0522:47hdfs:///var/log/spark/apps/application_1551818805190_0004_1-rwxrwx-

hadoop - FIWARE Cygnus : File exists in HDFS, 但无法写入数据

我正在使用NGSIHDFSSink通过Cygnus在HDFS上持久化。当收到来自Orion的第一个通知时,它会创建目录和包含数据的正确文件:/user/hdfs/openiot/Lamp_001_Lamp/Lamp_001_Lamp.txt但是,对于收到的下一个通知,它会显示以下错误:Therewassomeproblemwiththecurrentendpoint,tryingotherone.Details:CygnusPersistenceError./user/hdfs/openioLamp/Lamp_001_Lamp.txtfileexistsinHDFS,butcouldn

hadoop - “WARN hdfs.DFSUtil: Namenode for null remains unresolved for ID null.”

我想在配置后测试我的hadoop是否运行良好,但是在输入之后,命令start-all.sh在终端中显示如下错误WARNhdfs.DFSUtil:NamenodefornullremainsunresolvedforIDnull.Checkyourhdfs-site.xmlfiletoensurenamenodesareconfiguredproperly.Startingnamenodeson[master]master:ssh:Couldnotresolvehostnamemaster:Nameorservicenotknown我检查了我的hdfs-site.xml文件并像其他人那样

hadoop - 如何在 HDFS 中查找文件的创建日期

我需要在hdfs目录中找到文件或文件夹的创建日期。例如:hadoopfs-ls/user/myUser/我得到路径/user/myUser/中的文件和目录列表以及修改日期。我想找到每个条目的创建日期。 最佳答案 不能获取创建时间,但是可以获取修改时间。然而,在HDFS中,文件通常创建一次,因此修改时间可能与创建时间相同。您可以使用-statcommand并运行:hadoopfs-stat"%y"/user/myUser/hadoopfs-stat"%Y"/user/myUser/所有支持的选项都可以在源代码中找到Stat.java:

java - 为什么 HDFS 使用 Protocol Buffer 而不是 Java 序列化 API 进行序列化?

为什么HDFS使用ProtocolBuffer而不是Java序列化API?如果我想通过Java序列化将对象从一个数据节点发送到另一个数据节点怎么办?我已经尝试了几件事,但我收到以下错误:java.io.WriteAbortedException:写入中止;java.io.NotSerializableException:java.lang.Thread 最佳答案 因为具有外部架构定义的格式(如ProtocolBuffers)比生成非常冗长文件的内置Java序列化更节省空间。HDFS可以使用不同的格式来存储数据。提供最佳空间效率同时又

scala - 从 scala 脚本中执行 hdfs 命令

我正在尝试从集群模式下由Spark执行的Scala脚本内部执行一个HDFS特定命令。命令下方:valcmd=Seq("hdfs","dfs","-copyToLocal","/tmp/file.dat","/path/to/local")valresult=cmd.!!作业在此阶段失败,错误如下:java.io.FileNotFoundException:/var/run/cloudera-scm-agent/process/2087791-yarn-NODEMANAGER/log4j.properties(Permissiondenied)atjava.io.FileInputStr

java - 合并 HDFS 中小于 128MB 的压缩 lzo 文件

我正在尝试将Kb大小的小型hdfs文件合并到128MB大小的文件中。所有这些kb大小的文件都是lzo压缩的任何人都可以帮忙吗?这是我到目前为止尝试过的方法。hadoopjar/opt/cloudera/parcels/CDH/jars/hadoop-streaming-2.6.0-cdh5.15.1.jar-Dmapred.reduce.tasks=10-Dmapred.reduce.output.compression.codec=lzo-Dmapred.output.compress=truemapred.output.compression.type=lzo-input"/use