草庐IT

all-database

全部标签

database - HDFS vs NoSQL (HBASE),它是如何工作的?

我(几乎)浏览了谷歌上的所有资源,但没有得到有关Hadoop和NoSQL的信息。假设我有很多数据要存储。我使用Hadoop和它的原生高清文件系统,但我也想获得实时信息,所以我需要NoSQL。我的数据库将安装在哪里?在数据节点本身?在名称节点上?两者?让我们(再一次)想象一下,我的系统中有数据,namenode将把它分成几部分并将它们复制到不同的datanode上。使用NoSQL,它会以同样的方式工作吗?HDFS是否参与此过程?存储在NameNode中的元数据给出了地址,那么如何查询呢?我想我基本上理解了Hadoop和HBase的概念,但是当我进一步深入时,我就误解了..

Hadoop MapReduce : How to ensure multiple tasks are executed in parallel among all nodes

我在HDFS中有一个任务列表文件,任务列表受CPU限制,将在带有HadoopMapReduce(仅限Map)的小型5节点集群中执行。例如,任务列表文件包含10行,每行对应一个任务命令。每个任务的执行都需要很长时间,所以在所有5个节点上并行执行列出的10个任务肯定更高效。但是由于任务列表文件很小,这个数据block很可能只位于一个节点上,所以根据数据局部性原则,只有该节点会执行所有这10个任务。有什么解决方案可以确保所有10个任务在所有5个节点上并行执行? 最佳答案 默认情况下,mapreduce将在每次拆分时运行一个映射器。拆分是一

database - 我无法通过 sqoop 所有表在 sqoop 中导入数据

[cloudera@quickstart~]$**sqoopimport-all-tables-m=4--connect"jdbc:mysql://quickstart.cloudera:3306/retail_db"--username=retail_dba--password=cloudera--warehouse-dir=/user/cloudera/sqoop-import**Warning:/usr/lib/sqoop/../accumulodoesnotexist!Accumuloimportswillfail.Pleaseset$ACCUMULO_HOMEtotheroo

sql - Hive 必须使用 UNION ALL 指定实际数据源(FROM)

我对HiveUNIONALL规范有疑问。此查询是一个有效的Hive查询。SELECT1asid,'Tom'asname此作业按预期返回正确的一条记录结果。+----------+----------------+|id|name|+----------+----------------+|1|Tom|+----------+----------------+但是当使用UNIONALL提交此查询时,我遇到了一个问题。SELECTid,nameFROMmembersUNIONALLSELECT1asid,'Tom'asname,此SQL产生Error:java.lang.IllegalAr

database - Hive 中 collect_list(column) 的最大值

我在Hive中使用以下命令。并得到正确的结果。selectacct_id,collect_list(expr_dt)fromexperiences>groupbyacct_id;输出:900["2015-03-31"]707["2015-03-31","2014-12-10"]903["2015-03-31"]-435["2015-03-31"]718["2015-03-31","2014-06-03"]我想获取每个帐户的最大日期。当我尝试执行以下查询时出现错误。selectacct_id,max(collect_list(expr_dt))fromexperiences>groupb

java - Spark 2.0.0 抛出 AlreadyExistsException(消息 :Database default already exists) when interact with Hive 1. 0.0

我正在尝试使用SparkJava连接到Hive。当我通过Spark在Hive中运行任何查询时,它会返回如下异常:16/10/0609:37:56ERRORmetastore.RetryingHMSHandler:AlreadyExistsException(message:Databasedefaultalreadyexists)我的版本是:星火2.0.0hive1.0.0这是我的全部堆栈:16/10/0609:37:56ERRORmetastore.RetryingHMSHandler:AlreadyExistsException(message:Databasedefaultalr

sql - 使用 UNION ALL 和 RANK 优化 Hive 查询

当前场景:我有这个查询,它对两组数据进行联合,然后根据排名选择字段但是根据我的分析,可以在UNION的一侧删除整个数据集分析:因此,如果您查看以下查询-我认为,我们可以完全忽略并删除由表连接生成的数据集:P、Q、R、S和T我也可以在这里用union替换unionall吗查询:SELECTOUTERV.f1,...OUTERV.f30FROM(SELECTunionV.f1,...unionV.f30,ROW_NUMBER()over(PARTITIONBYunionV.ifcorderbyunionV.orderNUM_asc)rank_FROM(SELECTf1..fewfields

运行 start-all.sh 时出现 hadoop ClassNotFoundException

我尝试运行./hadoopstart-all.sh不幸的是抛出了这个错误Exceptioninthread"main"java.lang.NoClassDefFoundError:start/all/shCausedby:java.lang.ClassNotFoundException:start.all.shatjava.net.URLClassLoader$1.run(URLClassLoader.java:217)atjava.security.AccessController.doPrivileged(NativeMethod)atjava.net.URLClassLoader

Hadoop报错无法启动-all.sh

我在我的笔记本电脑单机模式下设置了一个hadoop。信息:Ubuntu12.10,jdk1.7oracle,从.deb文件安装hadoop。地点:/etc/hadoop/usr/share/hadoop我在/usr/share/hadoop/templates/conf/core-site.xml中有配置我添加了2个属性hadoop.tmp.dir/app/hadoop/tmpAbaseforothertemporarydirectories.fs.default.namehdfs://localhost:9000Thenameofthedefaultfilesystem.AURIwh

database - 将数据加载到 impala 分区表中

我在HDFS中有以下目录结构中的数据:/exported/2014/07/01/00/SEARCHES/part-m-00000.bz2part-m-00001.bz2/exported/2014/07/01/02/SEARCHES/part-m-00000.bz2part-m-00001.bz2part-m-00003.bz2..../exported/2014/08/01/09/SEARCHES/part-m-00005.bz2每个子目录下有多个零件文件。我想将此数据集加载到impala表中,因此使用以下查询来创建表:CREATEEXTERNALTABLEsearch(time_s