草庐IT

path_parts

全部标签

hadoop - fs.rename(newPath(raw FileName), in Path(process FileName)) 不工作

我正在研究基于Scala的ApacheSpark实现,用于将数据从远程位置加载到HDFS,然后将数据从HDFS提取到Hive表。使用我的第一个spark作业,我已将数据/文件载入HDFS中的某个位置-hdfs://sandbox.hortonworks.com:8020/data/analytics/raw/folder让我们考虑一下,在载入CT_Click_Basic.csv和CT_Click_Basic1.csv.gz文件后,我在HDFS中有以下文件[共享位置的文件名将是此处的文件夹名称,其内容将出现在part-xxxxx文件中]:[root@sandbox~]#hdfsdfs-l

java - Hadoop-伪分布式模式: Input path does not exist

我是Hadoop的新手..我只是以独立模式运行我的hadoop应用程序。它工作得很好。我现在决定将其移至伪分布式模式。我如上所述进行了配置更改。显示了我的xml文件的片段:我的core-site.xml如下所示:fs.default.namehdfs://localhost/hadoop.tmp.dir/tmp/hadoop-onurAbaseforothertemporarydirectories.我的hdfs-site.xml是dfs.replication1我的mapred.xml是mapred.job.trackerlocalhost:8021我运行了start-dfs.sh和

hadoop - s3distcp : can not create path from empty string

从S3到HDFS运行s3distcp时:sudo-uhdfshadoopjar/usr/lib/hadoop/lib/s3distcp.jar--srcs3n://workAAAA-KKKK-logs/production-logs/Log-XXXX-click/Log-XXXXX-click-2013-03-27_06-21-19_i-7XXb2x39_00037.gz--desthdfs:///test/我得到以下异常。我的路径语法(s3n://;hdfs:///)有问题吗?以前有人遇到过这个问题吗?13/04/0412:10:52INFOs3distcp.S3DistCp:Usi

hadoop - Hive:无法在具有 100 个或更多分区列的表中插入数据错误:在最大长度为 767 的列 "PART_NAME"中

我正在使用配置单元,我需要创建一个包含“n”个普通列和100个或更多作为分区列的表,并且我能够成功创建该表。现在当我用另一个具有相同模式的表的数据加载该表并且所有列都是非分区列时,我收到这样的错误:FailedwithexceptionMetaException(message:AttempttostorevalueFailedwithexceptionMetaException(message:Attempttostorevalue"c1=v1/c2=v2/c3=v3/....c100=v100"incolumn"PART_NAME"thathasmaximumlengthof767

hadoop - 星火-Hadoop-> org.apache.hadoop.mapred.InvalidInputException : Input path does not exist

我在尝试将文件从hdfs读取到Spark时遇到错误。文件README.md存在于hdfs中spark@osboxeshadoop]$hdfsdfs-lsREADME.md16/02/2600:29:14WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicable-rw-r--r--1sparksupergroup48112016-02-2523:38README.md在Sparkshell中,我给了scala>valr

hadoop - Spark : saveAsTextFile() only creating SUCCESS file and no part file when writing to local filesystem

我正在使用以下命令将RDD写入文件:rdd.coalesce(1).saveAsTextFile(FilePath)当FilePath是HDFS路径(hdfs://node:9000/folder/)时一切正常。当FilePath是本地路径(file:///home/user/folder/)时,一切似乎都正常。输出文件夹已创建,SUCCESS文件也已存在。但是我没有看到任何包含输出的part-00000文件。没有其他文件。spark控制台输出也没有错误。我还尝试在调用saveAsTextFile()之前调用RDD上的collect,为输出文件夹提供777权限,但没有任何效果。请帮忙。

java - hadoop java.net.URISyntaxException : Relative path in absolute URI: rsrc:hbase-common-0. 98.1-hadoop2.jar

我有一个连接到HBASE的mapreduce作业,但我不知道我在哪里遇到了这个错误:Exceptioninthread"main"java.lang.reflect.InvocationTargetExceptionatsun.reflect.NativeMethodAccessorImpl.invoke0(NativeMethod)atsun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)atsun.reflect.DelegatingMethodAccessorImpl.invoke

java - 如何将 Hadoop Path 对象转换为 Java File 对象

有没有办法将现有的有效HadoopPath对象更改为有用的JavaFile对象。有没有一种很好的方法可以做到这一点,还是我需要大刀阔斧地编写代码才能提交?更明显的方法不起作用,它似乎是一段普通的代码voidfunc(Pathp){if(p.isAbsolute()){Filef=newFile(p.toURI());}}这不起作用,因为Path::toURI()返回“hdfs”标识符,而Java的File(URIuri)构造函数只识别"file"标识符。有没有办法让Path和File一起工作?**好的,举个具体的有限例子怎么样。Path[]paths=DistributedCache.

hadoop - 第一个hadoop项目报错: "Input path does not exist"

要设置一个简单的hadoop项目,我将按照本教程进行操作:http://ebiquity.umbc.edu/Tutorials/Hadoop/23%20-%20create%20the%20project.html我的hadoop单节点似乎运行正常。当我使用此代码指定In文件夹时:FileInputFormat.setInputPaths(conf,newPath("In"));我收到这个错误:13/03/0322:05:27ERRORsecurity.UserGroupInformation:PriviledgedActionExceptionas:DEVUSERcause:org.

hadoop - pig 拉丁语 : Load multiple files from a date range (part of the directory structure)

我有以下场景-pig版使用0.70示例HDFS目录结构:/user/training/test/20100810//user/training/test/20100811//user/training/test/20100812//user/training/test/20100813//user/training/test/20100814/正如您在上面列出的路径中看到的,其中一个目录名称是一个日期戳。问题:我想加载日期范围为20100810到20100813的文件。我可以将日期范围的“从”和“到”作为参数传递给Pig脚本,但我如何在LOAD语句中使用这些参数。我能够做到以下几点te