草庐IT

hdfs_rtp

全部标签

java - 从数据帧 'java.lang.IllegalArgumentException: Wrong FS: file:/tmp/spark expected: hdfs://nameservice1' 创建 Hive 表时出错

我是spark的新手。我正在尝试开发一个使用Spark1.6将json数据保存到Hive表的应用程序。这是我的代码:valrdd=sc.parallelize(Seq(arr.toString))//arristheJsonarrayvaldataframe=hiveContext.read.json(rdd)dataframe.registerTempTable("RiskRecon_tmp")hiveContext.sql("DROPTABLEIFEXISTSRiskRecon_TOES")hiveContext.sql("CREATETABLERiskRecon_TOESasse

hadoop - HDFS 命令占用 100% cpu 的问题

我有一个hdfs服务器,我目前正在其中进行流式传输。我还定期使用以下类型命令访问此服务器以检查某些条件:hdfsdfs-find/user/cdh/streameddata/-name*_processed但是,在TOP中监视时,我开始看到此命令占用了我CPU的大部分:cdh1691919913:03?00:43:45/opt/jdk/bin/java-Xmx1000m-Djava.net.preferIPv4Stack=true-Dhadoop.log.dir=/var/log/hadoop-Dhadoop.log.file=hadoop.log-Dhadoop.home.dir=/

java - Spark SQL 看不到 hdfs 文件

我有一个spark应用程序,它在集群AWSEMR上运行。我已将文件添加到hdfs:javaSparkContext.addFile(filePath,recursive);hdfs上存在文件(可用日志:文件可读/可执行/可写),但我无法使用sparkSQLAPI从该文件读取信息:LOGGER.info("Sparkworkingdirectory:"+path);Filefile=newFile(path+"/test.avro");LOGGER.info("SPARKPATH:"+file);LOGGER.info("read:"+file.canRead());LOGGER.inf

mysql - Scoop 选择性导出 hdfs 到 mysql

我在HDFS中有一个“test”表,其中包含列(id、name、city、salary)。我想将(name,city)导出到MySQL但是当我使用--columns使用SQOOP命令时,选择的MySQL列不是hdfs中的测试表列,hdfs中id列的数据被转移到name,hdfs的name列被转移到MySQL中的城市列。有什么方法可以从hdfs中选择一个特定的列并传递给它吗? 最佳答案 这里我们可以使用--hcatalog-tabletablename,它只会从hive表中获取所需的列,而不是--export-dir,它会获取一个目录

hadoop - 数据从 Kafka 流向 HDFS 时,Flume 空间不足错误

我们正在努力处理从Kafka到由Flume管理的HDFS的数据流。由于下述异常,数据未完全传输到hdfs。然而这个错误看起来误导了我们,我们在数据目录和hdfs中都有足够的空间。我们认为这可能是channel配置的问题,但我们对其他来源也有类似的配置,并且对它们工作正常。如果有人必须处理这个问题,我将不胜感激。17Aug201714:15:24,335ERROR[Log-BackgroundWorker-channel1](org.apache.flume.channel.file.Log$BackgroundWorker.run:1204)-Errordoingcheckpointj

hadoop - 通过 hdfs API 将文件上传到 hdfs 会导致文件被附加并预先加上签名

我的目标是上传文件,这是我的代码:headers={'Some_Auth_Stuff':_get_ca_cert(ROLE),'Host':host,}files={'upload_file':file}params=(('op','create'),('permission','755'))r=requests.put('https://proxystuff.hostname.com/fs%s'%hue_path,headers=headers,files=files,params=params)ifr.status_code==201:returnTruereturnFalse我正

hadoop - 从 HDFS 中以 dd-MM-yyyy 格式删除文件夹一年

如何按年删除hadoop中的一堆目录?该文件夹每天创建一次。命名方案是“dd-mm-yyyy”。如何删除特定年份的文件夹?我尝试获取像hadoopfs-find/"*1995"这样的文件夹列表,但我无法通过将它们传送到rm命令来删除它们。 最佳答案 HadoopCLI支持递归rm(需要删除目录)和通配符:hadoopfs-rm-r-f/path/*-1995 关于hadoop-从HDFS中以dd-MM-yyyy格式删除文件夹一年,我们在StackOverflow上找到一个类似的问题:

hadoop - hdfs dfs -put : Exception in createBlockOutputStream and java. io.EOFException:过早的 EOF:没有可用的长度前缀

并且我检查了显示处于不健康状态的数据节点的webUI。我不知道为什么会这样。 最佳答案 这是因为你的配置或datanode的任何异常终止(在那个节点上做任何操作)hdfsdfs-put没有内部问题,只需验证目录中的内容或使用命令hdfsdfs-ls/请说明您的问题,除非您不知道要做什么,否则错误不能成为问题陈述。 关于hadoop-hdfsdfs-put:ExceptionincreateBlockOutputStreamandjava.io.EOFException:过早的EOF:没有

java - Hadoop Java - 将文件从Windows共享文件夹服务器复制到HDFS

我想从Windows共享文件夹服务器上传多个文件(例如//server_name/folder/)使用Java到我的HDFS我尝试过的方法列表org.apache.hadoop.fs.FileUtil设置输入路径=//server_name/folder/它说java.io.FileNotFoundException:文件//server_name/folder/不存在FileSystem.copyFromLocalFile(我认为这是从本地hadoop服务器到hdfs服务器)IOUtils.copyBytes与fileUtil相同>>文件不存在一个简单的File.renameTo与f

hadoop - Apache Drill 无法从 HDFS 读取文件(资源错误 : Failed to create schema tree)

在我们的HDFS集群的一个边缘节点上设置drill后,我无法读取任何hdfs文件。我可以从本地文件查询数据(只要它们位于具有777权限的文件夹中)但是从hdfs查询数据失败并出现以下错误:Error:RESOURCEERROR:Failedtocreateschematree.[ErrorId:d9f7908c-6c3b-49c0-a11e-71c004d27f46onserver-name:31010](state=,code=0)查询:0:jdbc:drill:zk=local>select*fromhdfs.`/names/city.parquet`limit2;从本地文件查询工