草庐IT

document-db-service

全部标签

amazon-web-services - 设置 AWS 凭证 - Cloudera Quickstart Docker Container

我正在尝试使用Cloudera的Quickstartdocker容器来测试简单的Hadoop/Hive作业。我希望能够在S3中的数据上运行作业,但到目前为止我遇到了问题。我已将以下属性添加到core-site.xml、hive-site.xml、hdfs-site.xml。fs.s3.awsAccessKeyIdXXXXXXfs.s3.awsSecretAccessKeyXXXXXX无论如何,在Hive中尝试创建指向S3位置的外部表时,我收到错误:FAILED:SemanticExceptionjava.lang.IllegalArgumentException:AWSAccessKe

hadoop - 使用配置单元初始化数据库时出现 java.sql.SQLException : Failed to start database 'metastore_db' ERROR,

我在3个集群上安装了Hadoop和Hive。我能够从运行HIVE的集群节点登录到配置单元。root@NODE_3hive]#hiveLogginginitializedusingconfigurationinjar:file:/usr/lib/hive/lib/hive-common-0.10.0-cdh4.2.0.jar!/hive-log4j.propertiesHivehistoryfile=/tmp/root/hive_job_log_root_201304020248_306369127.txthive>showtables;OKTimetaken:1.459secondsh

amazon-web-services - 具有重叠 EC2 实例的集群

我有以下具有重叠EC2实例的集群,例如:Yarn集群和Memcached集群使用相同的实例2、3、4;此外,每个实例都有不同的RAM、CPU、内核大小,这会不会有潜在的类(class)问题?还是集群自己做平衡?谢谢!Spark集群:EC2实例2、3、5Yarn集群:EC2实例1、2、3、4、5Memcached数据库集群:EC2实例2、3、4、6instance1:512GBRAM,2vCPU,2coresinstance2:1TBRAM,8vCPU,4coresinstance3:2TBRAM,6vCPU,6coresinstance4:256GBRAM,2vCPU,2coresin

amazon-web-services - 使用 Scala 读取 .aws/credentials 文件以获取来自 spark 的 hadoop conf 设置

我如何才能读取位于.aws目录下的credentials文件中的不同aws配置文件?只想让我的应用程序读取访问key和secret,如下所示,但不确定如何将这一点指向凭证文件。objectS3KeyStoreextendsSerializable{privatevalkeyMap=Map(String,S3Key)defload(key:String)(implicitsc:SparkContext)=keyMap.get(key)match{caseSome(k)=>valhc=sc.hadoopConfigurationhc.set("fs.s3a.awsAccessKeyId",

hadoop - DB2数据导入hadoop

我想将数据从DB2数据库导入到hadoop(HDFS,Hive)。一种方法是通过sqoop来做,我们可以用其他方法做同样的事情吗?请分享另一种方法。谢谢 最佳答案 Sqoop是最好的选择。其他任何事情都需要大量的自定义代码。我实际上参与过一个项目,我们有一个非常深奥的原因,我们不能使用Sqoop,但它最终并不是那么微不足道。您最终会担心转换类型、处理空值、编码、转义、重试、事务等等。为什么要重新发明轮子?我所知道的没有其他RDBMSHive连接器,因为Sqoop做得很好。除非您有非常充分、非常具体的理由不这样做,否则请使用Sqoop

mysql - Oozie - 运行 sqoop : Could not load db driver class: com. mysql.jdbc.Driver 时出现异常

我正在尝试通过Oozie在HDP沙箱2.1上执行sqoop导出。当我运行Oozie作业时,出现以下Java运行时异常。'>>>InvokingSqoopcommandlinenow>>>7598[main]WARNorg.apache.sqoop.tool.SqoopTool-$SQOOP_CONF_DIRhasnotbeensetintheenvironment.Cannotcheckforadditionalconfiguration.7714[main]INFOorg.apache.sqoop.Sqoop-RunningSqoopversion:1.4.4.2.1.1.0-385

sql - sqoop如何在向hive导入数据时自动修剪db2中的一些char类型的列?

我有一个很大的db2表,其中包含许多char类型的列。我尝试通过sqoop将数据提取到hive中以满足不同的需求。以前写Hivesql的时候都是手动把char类型的colums全部剪掉但是,有太多的列需要修剪,以至于我总是忘记其中的一些,这可能会导致一些困惑的问题,如下所示:假设BANK_TABLE是hive的目标表,2323423232323是表中已经存在的卡号。如果我执行:hive-e"select*fromBANK_TABLEwherecard_no='2323423232323'"结果是什么都没有,因为我在写sql导入数据到hive的时候忘记修剪了column:card_no所

web-services - 将 Spark RDD 上传到 REST webservice POST 方法

坦率地说,我不确定这个功能是否存在?抱歉我的要求是每天将spark分析数据发送到文件服务器,文件服务器支持通过SFTP和RESTWebservicepost调用进行文件传输。最初的想法是将SparkRDD保存到HDFS,通过SFTP传输到文件服务器。我想知道是否可以通过从spark驱动程序类调用REST服务直接上传RDD而无需保存到HDFS。数据大小小于2MB抱歉我的英语不好! 最佳答案 Spark没有特定的方法来做到这一点。对于这种数据大小,通过HDFS或其他类型的存储是不值得的。您可以在驱动程序的内存中收集该数据并直接发送。对于

hadoop - 在 Windows 上安装 Titan DB 时出错

遵循TitanDB的官方指南here,并尝试运行命令:graph=TitanFactory.open('conf/titan-cassandra-es.properties')我遇到了这个错误:Backendshorthandunknown:conf/titan-cassandra-es.properties很明显,原因是的路径不正确titan-cassandra-es.properties文件。所以我将其更改为:graph=TitanFactory.open('../conf/titan-cassandra-es.properties')得到这个错误:Encounteredunreg

hadoop - Service Monitor 在 HBase 服务中没有找到活跃的 Master

我用clouderaCDH5.8.0做了一个主节点和三个从节点的集群。经过一些配置工作后,我的所有服务都正常运行,但只有一个:HBase。重新启动后几分钟,它的健康状况不佳。ClouderaManager显示的错误是:“错误:Master摘要:此健康测试错误,因为服务监视器未找到事件的Master”。我检查了服务监视器日志,发现了这个警告:(7skipped)ExceptionindoWorkfortask:hbase_HBASE_SERVICE_STATE_TASKorg.apache.hadoop.hbase.client.RetriesExhaustedException:Fai