草庐IT

source_location

全部标签

mongodb - "ERROR 6000, Output location validation failed"在 EMR 上使用 PIG MongoDB-Hadoop 连接器

我在EMR上的pig脚本中收到“输出位置验证失败”异常。将数据保存回S3时失败。我使用这个简单的脚本来缩小问题范围:REGISTER/home/hadoop/lib/mongo-java-driver-2.13.0.jarREGISTER/home/hadoop/lib/mongo-hadoop-core-1.3.2.jarREGISTER/home/hadoop/lib/mongo-hadoop-pig-1.3.2.jarexample=LOAD's3://xxx/example-full.bson'USINGcom.mongodb.hadoop.pig.BSONLoader();S

Hadoop HDFS : Trash location

HDFS何时何地创建.Trash文件夹?有没有什么规律或者逻辑,有引用依据吗? 最佳答案 每个HDFS用户都有自己的.TrashHDFS上的文件夹hdfs:///user/.每当hadoopfs-rm时检查并创建文件夹存在性命令被该用户执行而没有-skipTrash选项。这是根据core-site.xml的值按计划清除的fs.trash.intervalfs.trash.checkpoint.interval默认情况下,两者均为零,因此它被禁用,因此删除的文件将始终可恢复,直到被HDFS管理员手动清除。另请参阅HDFSTrash上的

scala - Source.fromFile 不适用于 HDFS 文件路径

我正在尝试从我的hdfs中读取文件内容,因为我正在使用Source.fromFile()。当我的文件在本地系统中时它工作正常,但当我尝试从HDFS读取文件时抛出错误。objectCheckFile{defmain(args:Array[String]){for(line错误:java.io.FileNotFoundException:hdfs:/quickstart.cloudera:8080/user/cloudera/xxxx/File(Nosuchfileordirectory)我进行了搜索,但找不到任何解决方案。请帮忙 最佳答案

hadoop - Hive 托管表与外部表 : LOCATION directory

我一直在阅读一些HIVE书籍和教程。其中一本书-HadoopinPractice说Whenyoucreateanexternal(unmanaged)table,HivekeepsthedatainthedirectoryspecifiedbytheLOCATIONkeywordintact.ButifyouweretoexecutethesameCREATEcommandanddroptheEXTERNALkeyword,thetablewouldbeamanagedtable,andHivewouldmovethecontentsoftheLOCATIONdirectoryinto

java - Apache Pig,抑制 "Output Location Validation Failed" "Output directory ... already exists"

在得到orangeoctopus的帮助后thisquestion,我现在需要抑制消息“输出位置验证失败”“输出目录......已经存在”。我知道目录存在,我想要那样。我很确定这将是覆盖我的存储UDF中的某些内容的问题,但我无法弄清楚是什么。对Java完全陌生,所以请多多包涵。提前致谢。 最佳答案 据我所知,您不能重复使用直接输出目录。Hadoop阻止了它。如果我理解正确的话,你正在处理每日日志,因此,我建议你设置一个名为输出的父输出目录,并将脚本中的输出目录设置为output/daily_date。

ubuntu - 在 ubuntu 12.04 上安装 mahout - E : Unable to locate package mahout

如何在ubuntu12.04上安装mahout?sudoapt-getinstallmahoutReadingpackagelists...DoneBuildingdependencytreeReadingstateinformation...DoneE:Unabletolocatepackagemahouthttps://ccp.cloudera.com/display/CDHDOC/Mahout+InstallationToinstallMahoutonanUbuntuorotherDebiansystem:$sudoapt-getinstallmahout

scala - 创建像 TextLine 这样的 Scalding Source,将多个文件组合成单个映射器

我们有很多小文件需要合并。在Scalding中,您可以使用TextLine将文件读取为文本行。问题是我们每个文件有1个映射器,但我们想要组合多个文件,以便它们由1个映射器处理。我知道我们需要将输入格式更改为CombineFileInputFormat的实现,这可能涉及使用级联CombinedHfs。我们不知道如何做到这一点,但它应该只是几行代码来定义我们自己的Scalding源,例如CombineTextLine。非常感谢任何可以提供代码的人。作为附带问题,我们在s3中有一些数据,如果给定的解决方案适用于s3文件,那就太好了——我想这取决于CombineFileInputFormat还

maven - 为什么 Maven 试图将我的代码编译为 -source 1.3?

我在Ubuntu12.04中收到此错误mvn-epackage:[ERROR]Failedtoexecutegoalorg.apache.maven.plugins:maven-compiler-plugin:2.0.2:compile(default-compile)onprojectHadoopSkeleton:Compilationfailure:Compilationfailure:[ERROR]/home/jesvin/dev/hadoop/HadoopMahoutSkeleton-master/src/main/java/HadoopSkeleton/App.java:[2

implementation - Hadoop MR source : HDFS vs HBase. 各有什么好处?

如果我正确理解Hadoop生态系统,我可以运行我的MapReduce作业,从HDFS或HBase获取数据。假设之前的假设是正确的,我为什么要选择一个而不是另一个?使用HBase作为MR源在性能、可靠性、成本或易用性方面是否有优势?我能找到的最好的引用是这句话,“HBase是当您需要对非常大的数据集进行实时读/写随机访问时使用的Hadoop应用程序。”-TomWhite(2009)Hadoop:权威指南,第1版 最佳答案 在HDFS上直接使用HadoopMap/Reduce,您的输入和输出通常存储为平面文本文件或HadoopSeque

hadoop - 为什么每次都需要source bash_profile

我已经安装了Hadoop,每次我想运行它时,首先我必须这样做:source~/.bash_profile否则它不会识别命令hadoop这是为什么?我在OSX10.8上 最佳答案 现在我们已经缩小了问题的范围:在命令行中运行ps-p$$以检查您实际上是否在使用bashshell。意识到您在zsh中,这意味着您应该在.zshrc中编辑您的配置文件。将有问题的行从.bash_profile复制到.zshrc,或者修改您的.zshrc以直接获取您的.bash_profile。更新:执行@TC1在评论中提到的操作,并将特定于shell的代码保