草庐IT

hadoop - 得到错误的 FS : file while running hive query

在hive上运行一个简单的选择查询时我遇到了这个奇怪的错误java.lang.IllegalArgumentException:WrongFS:file://usr/lib/hive/lib/CustomUDFint.jar,expected:file:///atorg.apache.hadoop.fs.FileSystem.checkPath(FileSystem.java:410)atorg.apache.hadoop.fs.RawLocalFileSystem.pathToFile(RawLocalFileSystem.java:56)atorg.apache.hadoop.fs

hadoop - 如何使用 Java API 远程运行 "hadoop fs -text ."?

基本上,我想要的是使用HadoopJavaAPI从本地调用远程Hadoop集群。我想让Hadoop集群执行它应该大致等同于“sshuser@remote'hadoopfs-text.'” 最佳答案 首先,如果您想要的正是hadoopfs-text给您的,那么您当然可以在本地机器上安装hadoop客户端,然后在那里运行,确保指定完整路径:hadoopfs-texthdfs://remote.namenode.host:9000/my/file但是如果你确实有理由从java中做到这一点,基本的答案是这样的:Configurationco

hadoop - DataStax Enterprise 3.2-Hive S3 NoSuchBucket

我正在运行启用了分析的DSE3.2.4。我正在尝试将我的一张表卸载到S3中以进行长期存储。我在配置单元中创建了下表:CREATEEXTERNALTABLEevents_archive(event_idstring,timestring,typestring,sourcestring,valuestring)PARTITIONEDBY(yearstring,monthstring,daystring,hourstring)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t'LOCATION's3n://com.mydomain.events/';然后我尝试使用

hadoop - 在运行 S3DistCp 时设置 HDFS 复制因子

我正在使用S3DistCp将内容从S3复制到AmazonEMRHDFS。对于一些工作,我的空间不足,希望通过降低复制因子来解决这个问题。但我看不到在工作层面实现这一目标的方法。有人可以帮助解决这个问题吗? 最佳答案 您通常不希望在逐个作业的基础上修改集群的复制因子。复制用于数据冗余(在发生故障的情况下)和提高性能(通过使数据更接近计算操作)。最好将集群保留为预定义的值。默认情况下,AmazonEMR将1-3个核心节点的默认复制因子设置为1,将4-9个核心节点的值设置为2,将10+个核心节点的值设置为3。理论上您可以更改dfs.rep

hadoop 从 hdfs 复制到 S3

我已经在AmazonEMR上成功完成了mahout矢量化工作(使用MahoutonElasticMapReduce作为引用)。现在我想将结果从HDFS复制到S3(以便在未来的集群中使用它)。ForthatI'veusedhadoopdistcp:den@aws:~$elastic-mapreduce--jars3://elasticmapreduce/samples/distcp/distcp.jar\>--arghdfs://my.bucket/prj1/seqfiles\>--args3n://ACCESS_KEY:SECRET_KEY@my.bucket/prj1/seqfile

hadoop - Hive 没有完全遵守 core-site.xml 中的 fs.default.name/fs.defaultFS 值

我在一台名为hadoop的机器上安装了NameNode服务。core-site.xml文件的fs.defaultFS(等同于fs.default.name)设置如下:fs.defaultFShdfs://hadoop:8020我有一个名为test_table的非常简单的表,它当前存在于HDFS上的Hive服务器中。即存放在/user/hive/warehouse/test_table下。它是在Hive中使用一个非常简单的命令创建的:CREATETABLEnew_table(record_idINT);如果我尝试将数据加载到本地表中(即使用LOADDATALOCAL),一切都会按预期进行

amazon-web-services - 无法从 S3 存储桶( Parquet 文件)将数据加载到 EMR 上的 pig 中

我想从EMR上的Pig中的s3存储桶中加载数据,我的源文件格式是parquet:下面是我用过的命令:A=LOAD's3://test-1/icted/emp_db/emp_tb'USINGparquet.pig.ParquetLoader(header__change_seq:chararray,header__change_oper:chararray,header__change_mask:chararray,header__stream_position:chararray,header__operation:chararray,header__transaction_id:ch

amazon-s3 - 我无法让 Hadoop 开始使用 Amazon EC2/S3

我已经创建了一个AMI镜像并从ClouderaCDH2构建安装了Hadoop。我这样配置了我的core-site.xml:fs.default.names3:///fs.s3.awsAccessKeyIdfs.s3.awsSecretAccessKeyhadoop.tmp.dir/var/lib/hadoop-0.20/cache/${user.name}但是当我在namenode日志中启动hadoop守护进程时,我收到以下错误消息:2010-11-0323:45:21,680ERRORorg.apache.hadoop.hdfs.server.namenode.NameNode:ja

hadoop - 为 spark 输出文件设置 S3 输出文件受赠者

我在AWSEMR上运行Spark,但在获取输出文件的正确权限时遇到了一些问题(rdd.saveAsTextFile(''))。在配置单元中,我会在开头添加一行setfs.s3.canned.acl=BucketOwnerFullControl这将设置正确的权限。对于Spark,我尝试运行:hadoopjar/mnt/var/lib/hadoop/steps/s-3HIRLHJJXV3SJ/script-runner.jar\/home/hadoop/spark/bin/spark-submit--deploy-modecluster--masteryarn-cluster\--conf

hadoop - 如何将大文件从HDFS上传到S3

我在将大文件(大于5GB)从HDFS上传到S3时遇到问题。有没有一种方法可以直接将文件从HDFS上传到S3而无需将其下载到本地文件系统并使用multipart? 最佳答案 要在HDFS和S3之间复制数据,您应该使用s3DistCp。s3DistCp针对AWS进行了优化,可以跨S3存储桶并行高效地复制大量文件。关于s3DistCp的使用,可以引用这里的文档:http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/UsingEMR_s3distcp.htmls3