草庐IT

S3Connection

全部标签

Hadoop 独立安装 - java.net.ConnectException : Connection refused error while running jar

我是Hadoop的新手,我试图在Ubuntu14.04中安装单节点独立Hadoop。我正在关注ApacheHadoopDocument正如那里给出的那样,当我尝试运行时$bin/hadoopjarshare/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jargrepinputoutput'dfs[a-z.]+'我收到了java.net.ConnectException消息:CallFroma1409User/127.0.0.1tolocalhost:9000failedonconnectionexception:java.net.C

hadoop - 将数据从 S3 加载到位于 EMR 中 S3 的外部 Hive 表时出现 "Path is not legal"错误

我有一个运行Hive的EMR集群。我在S3上有一个这样定义的外部表:+-----------------------------------------------------------------+|CREATEEXTERNALTABLE`blah`(||`blah1`string,||`blah2`string)||PARTITIONEDBY(||`blah3`string,||`blah4`string,||ROWFORMATDELIMITED||FIELDSTERMINATEDBY'\t'||STOREDASINPUTFORMAT||'org.apache.hadoop.ma

hadoop - Sqoop中--connection-manager的意义

我已经编写了sqoop脚本来将数据从Teradata导入到Hive。`sqoopimport\--connect$JDBC_URL\--drivercom.teradata.jdbc.TeraDriver\--username$Username\--password$Password\--table$TD_Table\--hive-import\--hive-overwrite\--hive-drop-import-delims\--hive-table$Hive_Database.$Hive_Staging_Table\--split-by$Split_Col\-m$Mapper_N

hadoop - Hadoop 可以访问 S3 文件,但 Spark 不能

我在一台EC2机器上运行Spark1.4和Hadoop2.6。我配置了HADOOP_CLASSPATH和core-site.xml以访问我的S3文件。虽然Hadoop能够访问我存储桶中的文件,但spark-shell失败并抛出以下错误:java.lang.RuntimeException:java.lang.ClassNotFoundException:Classorg.apache.hadoop.fs.s3native.NativeS3FileSystemnotfound我尝试将awsjar添加到类路径中,但没有任何帮助。有人知道这可能来自哪里吗?谢谢!

hadoop - Stratio 设置 : connection refused error

screenshotoferror我正在设置stratioadmin,但它无法获取端口。每次我收到连接被拒绝的错误。如果您有经验,可能是什么原因,我将等待您的答复。我已经为主机和从机制作了FQDN。硕士:reslab1.ibsu.edu.ge奴隶:reslab2.ibsu.edu.ge,reslab3.ibsu.edu.ge,reslab4.ibsu.edu.ge 最佳答案 我已经解决了这个问题。我没有安装SSH服务器。安装ssh服务器后还有一些步骤,您必须更改/etc/ssh/ssd_config文件,添加新的ssh用户。如果有人

hadoop - 使用 oozie 在 S3 中移动文件

我想使用AWSoozie在S3中移动文件。我要运行awss3mvs3://temp/*.zips3://temp/processed_files/.--recursive我如何在oozie中执行此操作?编辑12015-11-1210:18:55,758WARNShellActionExecutor:542-USER[hadoop]GROUP[-]TOKEN[]APP[rad_workflow]JOB[0000118-151029144311676-oozie-oozi-W]ACTION[0000118-151029144311676-oozie-oozi-W@sh]Launcherex

java - 信息 : Transport Used for JDBC connection: null + Apache Hive

我正在尝试通过JDBC连接ApacheHive和eclipse,但出现以下错误。以下是版本信息:ApacheHadoop:2.7.1,Hive:1.2.1和EclipseKepler。****Error:****Dec29,20156:04:00PMorg.apache.hive.jdbc.UtilsparseURLINFO:Suppliedauthorities:localhost:10000Dec29,20156:04:00PMorg.apache.hive.jdbc.UtilsparseURLINFO:Resolvedauthority:localhost:10000Dec29,

java - 具有混合输出端点的 Mapreduce 作业 : S3 and HDFS

我有一个在EMR中运行的MR作业,它当前将输出存储在S3中。reducer的输出将是同一映射器(想想身份映射器)的输入,我想尽可能快地执行连续运行,而不是等待EMR写入S3,然后在“x”分钟后安排映射器读取数据。写入和读取S3需要很长时间(~3--5分钟),所以我想知道是否有办法避免在连续运行时从S3读取?我还需要将mapreduce作业的输出写入S3,因为该数据对我很重要并且需要保留。但是,对于每次连续的MR运行,我不想从S3读取,而是可以将其写入HDFS(或缓存),然后将其用作下一次运行的输入吗?MultipleOutputs-有助于将数据输出到文件夹中的多个文件或写入多个文件夹。

hadoop - 如何将 Amazon Glacier/S3 与 hadoop map reduce/spark 结合使用?

我需要使用Hadoop/EMR处理存储在AmazonS3和AmazonGlacier中的数据,并将输出数据保存在RDBMS中,例如。垂直我完全是大数据的菜鸟。我只看过一些关于mapreduce和sparx的在线类(class)和ppts。并创建了一些虚拟mapreduce代码用于学习目的。到目前为止,我只有一些命令可以让我将数据从S3导入AmazonEMR中的HDFC,并在处理后将它们存储在HDFS文件中。所以这是我的问题:在执行mapreduce之前是否真的必须先将数据从S3同步到HDFC,或者是否有直接使用S3的方法。`如何让hadoop访问AmazonGlacier数据`最后是如

java - Debian 上的单节点 Hadoop : failed on connection exception

我在debian上安装了hadoop,运行良好。(不在VM中)然后我重新启动计算机,它开始显示问题。我得到错误-hadoopfs-ls/user/hduser返回这样的错误-16/06/1510:48:34WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicablels:CallFromlocalhost/127.0.0.1tomylocalcomp:9000failedonconnectionexception:ja