distributed-database

database - sqoop如何处理SQL Server DB锁？

关于从MicrosoftSQLServer将数据导入sqoop的主题。sqoop在运行importtable命令时如何处理数据库锁？更多信息:Sqoop正在使用JDBC驱动程序。最佳答案 Sqoop通过获取所需的锁并尊重其他进程获取的冲突锁来处理数据库锁。和其他人一样。你到底在担心什么？Sqoop执行普通的INSERT操作。关于database-sqoop如何处理SQLServerDB锁？，我们在StackOverflow上找到一个类似的问题： https

何处 database section stackoverflow Sqoop hadoop

database - 什么时候数据大到可以使用 Hadoop？

关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭7年前。Improvethisquestion我的雇主运行一个Hadoop集群，由于我们的数据很少超过1GB，我发现很少需要Hadoop来满足我们办公室的需求(这不是大数据)，但我的雇主似乎想要能够说我们正在使用我们的Hadoop集群，因此我们正在积极寻找需要使用我们强大的工具进行分析的数据。我看到一些报告说任何小于5tb的东西都不应该使用hadoop。Hadoop成为数据分析实用解决方案的神奇规模有多大？

database Hadoop section class notice bigdata

database - HDFS vs NoSQL (HBASE)，它是如何工作的？

我(几乎)浏览了谷歌上的所有资源，但没有得到有关Hadoop和NoSQL的信息。假设我有很多数据要存储。我使用Hadoop和它的原生高清文件系统，但我也想获得实时信息，所以我需要NoSQL。我的数据库将安装在哪里？在数据节点本身？在名称节点上？两者？让我们(再一次)想象一下，我的系统中有数据，namenode将把它分成几部分并将它们复制到不同的datanode上。使用NoSQL，它会以同样的方式工作吗？HDFS是否参与此过程？存储在NameNode中的元数据给出了地址，那么如何查询呢？我想我基本上理解了Hadoop和HBase的概念，但是当我进一步深入时，我就误解了..

database HBASE strong NoSQL Hadoop bigdata

database - 我无法通过 sqoop 所有表在 sqoop 中导入数据

[cloudera@quickstart~]$**sqoopimport-all-tables-m=4--connect"jdbc:mysql://quickstart.cloudera:3306/retail_db"--username=retail_dba--password=cloudera--warehouse-dir=/user/cloudera/sqoop-import**Warning:/usr/lib/sqoop/../accumulodoesnotexist!Accumuloimportswillfail.Pleaseset$ACCUMULO_HOMEtotheroo

中导 sqoop INFO cloudera mapreduce database hadoop

database - Hive 中 collect_list(column) 的最大值

我在Hive中使用以下命令。并得到正确的结果。selectacct_id,collect_list(expr_dt)fromexperiences>groupbyacct_id;输出:900["2015-03-31"]707["2015-03-31","2014-12-10"]903["2015-03-31"]-435["2015-03-31"]718["2015-03-31","2014-06-03"]我想获取每个帐户的最大日期。当我尝试执行以下查询时出现错误。selectacct_id,max(collect_list(expr_dt))fromexperiences>groupb

collect_list database 2015 code section hadoop hive

java - Spark 2.0.0 抛出 AlreadyExistsException(消息 :Database default already exists) when interact with Hive 1. 0.0

我正在尝试使用SparkJava连接到Hive。当我通过Spark在Hive中运行任何查询时，它会返回如下异常:16/10/0609:37:56ERRORmetastore.RetryingHMSHandler:AlreadyExistsException(message:Databasedefaultalreadyexists)我的版本是:星火2.0.0hive1.0.0这是我的全部堆栈:16/10/0609:37:56ERRORmetastore.RetryingHMSHandler:AlreadyExistsException(message:Databasedefaultalr

AlreadyExistsException Database apache spark scala java sql hadoop hive apache-spark-sql

hadoop - 配置单元 : remove stuff from distributed cache

我可以通过以下方式将内容添加到分布式缓存addfilelargelookuptable然后运行一堆HQL。现在当我有一系列命令时，如下所示addfilelargelookuptable1;selectblahfromblahnessusingsomehowlargelookuptable1;addfilelargelookuptable2;selectnewblahfromotherblahusinglargelookuptable2;在这种情况下，largelookuptable1对于第二个查询来说是不必要的。有没有办法在第二个查询运行之前摆脱它？最佳答

配置单 distributed largelookuptable section largelookuptable1 hadoop hive distributed-cache

hadoop - Pig 集成Cassandra : simple distributed query takes a few minutes to complete. 这正常吗？

我设置了Cassandra+Pig/Hadoop的测试集成。8个节点为Cassandra+TaskTracker节点，1个节点为JobTracker/NameNode。我启动了cassandra客户端并在Cassandra发行版的Readme.txt中创建了一些简单的数据:[default@unknown]createkeyspaceKeyspace1;[default@unknown]useKeyspace1;[default@Keyspace1]createcolumnfamilyUserswithcomparator=UTF8Typeanddefault_validation_c

distributed Cassandra section default grunt hadoop apache-pig

hadoop - 查询预处理 : Hadoop or distributed system

我正在尝试通过预处理所有结果来优化搜索引擎的性能。我们有大约5万个搜索词。我计划事先搜索这50k个术语并将其保存在内存中(memcached/redis)。在我的案例中，搜索所有50k术语需要一天多的时间，因为我们进行了深度语义搜索。所以我计划将搜索(预处理)分布在多个节点上。我正在考虑使用hadoop。我的输入尺寸非常小。即使总搜索词超过50k，也可能不到1MB。但是搜索每个术语都会占用一分钟时间，即更多的是面向计算而不是面向数据。所以我在想是该用Hadoop还是自己搭建分布式系统。我记得读过hadoop主要是在输入非常大的情况下使用。请建议我如何去做。我读到hadoop以block

distributed hadoop section mapreduce search-engine distributed-computing

database - 将数据加载到 impala 分区表中

我在HDFS中有以下目录结构中的数据:/exported/2014/07/01/00/SEARCHES/part-m-00000.bz2part-m-00001.bz2/exported/2014/07/01/02/SEARCHES/part-m-00000.bz2part-m-00001.bz2part-m-00003.bz2..../exported/2014/08/01/09/SEARCHES/part-m-00005.bz2每个子目录下有多个零件文件。我想将此数据集加载到impala表中，因此使用以下查询来创建表:CREATEEXTERNALTABLEsearch(time_s

database impala section part-m 不支 hadoop database-schema cloudera

132 133 134135136 137 138