草庐IT

database-integrity

全部标签

database - 将 Spark 与 Cassandra 结合使用的优势

我看到结合使用Spark和Cassandra比较流行。我知道Cassandra是一种大数据解决方案,提供可靠性而不是一致性,因此适合实时系统。它还为查询提供类似SQL的语法,但在底层管理其数据的方式与普通数据库截然不同。另一方面,Hadoop提供的一致性优于可靠性,因此适合分析系统。它的接口(interface)是MapReduce,对于现在来说速度很慢而且级别太低。所以这就是Sparks的用武之地。Sparks使用Hadoop的HDFS并用更好的架构取代旧的MapReduce,该架构更多地利用内存而不是硬盘,并公开更好的接口(interface),例如RDD和数据帧。所以我的问题是:

database - 了解HIVE数据库中的映射器和化简器

我正在类里面学习大数据,现在我们正在学习HIVE。今天我们了解了映射器和缩小器,但说实话,它已经超出了我的范围。有人可以告诉我映射器和化简器在每个步骤中做什么吗?还是至少让我读到了一些好书?提前致谢 最佳答案 让我们尝试从我从互联网上下载的图表中了解map-reduce流程。我们将讨论hadoop中的字数统计问题,hadoop在Hadoop中也称为helloworld。字数统计是一个程序,在该程序中我们可以从文件中查找每个单词的出现情况。让我们尝试了解步骤1):输入文件:我们需要一些数据来运行字数统计程序,以便在群集上运行此程序,第

database - 使用 Sqoop 从 Sybase 导入数据的问题

我正在尝试使用Sqoop从Sybase导入数据。从日志中我可以说我已经成功地进行了连接。但是我的工作失败了,给了我一些来自Sybase的Sql异常。我主要不是在Sybase上工作,所以无法从这个错误中挖掘出太多信息。我的资源中只有一个位于Sybase。我使用了以下命令:sqoopimport--verbose\--drivercom.sybase.jdbc3.jdbc.SybDriver\--connectjdbc:sybase:Tds:nyhostx123.sm.com:13290/DATABASE=tempdb\--tabletempdb..mit\--split-bysipid\

database - 使用 mapreduce 访问非 JDBC 数据库

我有一个未启用JDBC的数据库,我可以在其中触发查询并使用输入流获取结果。我想使用mapreduce程序访问它。对于支持JDBC的数据库,Hadoop中有“DBInputFormat.java”和“DBConfiguration.java”文件,它们负责访问数据库并在扩展DBWritable和Writable接口(interface)的用户定义类中获取结果。有没有一种方法可以让我以相同的方式访问上述非JDBC数据库? 最佳答案 我不确定您的数据库是否支持ODBC。如果是这样,您可以尝试使用DBInputFormat的jdbc:odb

database - 有没有办法在不丢失数据的情况下重命名配置单元表?

我想重命名我已经使用配置单元创建的表。有什么方法可以在不丢失数据的情况下重命名这些表? 最佳答案 你应该试试这个ALTERTABLEdatabase.table_to_renamerenametonew_table_name; 关于database-有没有办法在不丢失数据的情况下重命名配置单元表?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/36500657/

hadoop - 在 Hbase-Hive Integration 中删除值

我正在使用Hbase进行数据存储,我有Hive表可以使用存储处理程序从Hbase读取数据。我正在使用复合ROWKEY(Struct(region,country,date,id))。有没有办法从Hbase-HiveIntegaration中删除特定数据,无论是从Hbase还是从HIVe??是否可以使用HBaseshell命令或Hive查询来完成类似下面的操作deletefromtablewhereregion=EUandcountry=USanddate=2015-06-11;使用Hive0.14提前致谢。 最佳答案 基于https

database - HDFS 中存储了什么以及为什么 Titan 执行查询时 map-reduce 计算速度如此之快?

我现在正在学习Titan。我在远程模式下将Titan与HBase结合使用。现在有三个问题让我很困惑。我在下面描述了它们:在TinkerPop3文档中,它说“任何OLAP操作的结果都存储在可通过hdfs访问的HDFS中。”但是现在我用Titan做OLTP,这种情况下HDFS里面存的是什么?当我们使用Titan连接HBase成功时(通过JavaIDE),我们可以看到在HBaseshell中创建的表并扫描内容。table中的content'column'是什么意思?它们代表图中的顶点id吗?当我测试Titan的性能时,我观察到查询速度比普通的map-reduce作业快。为什么泰坦能做到呢?在

database - sqoop 从 db2 特定模式导入所有到配置单元

我尝试使用以下命令行从DB2中的特定模式导入所有表。sqoopimport-all-tables--usernameuser--passwordpass\--connectjdbc:db2://myip:50000/databs:CurrentSchema=testdb\--drivercom.ibm.db2.jcc.DB2Driver--fields-terminated-by','\--lines-terminated-by'\n'--hive-databasedefault--hive-import--hive-overwrite\--create-hive-table-m1;遇

database - Apache Zeppelin 如何可视化来自 Hbase 的数据?

由于ApacheZeppelin支持Hbase作为解释器,可以可视化任何识别的后端语言,我想知道是否可以使用Zeppelin直接可视化来自Hbase的数据?现在我只能查看data在飞艇的Hbase中。也欢迎任何关于好的替代方案的建议。最终目标是对大量地理空间数据进行可视化和数据分析。 最佳答案 canvisualizeanybackendlanguagethat'srecognized这不完全正确。表格和图表可视化通常需要表格结构。Hbase解释器就是aproxyintothehbaseshellcommandonthatmachi

database - 当我加载数据时,配置单元在幕后做了什么?

我知道hive将数据作为分区保存到hadoop文件系统中。但是,当我在配置单元中执行LOADDATA时,具体过程是如何工作的?感谢您的回答! 最佳答案 Iknowthathivesavesdataaspartiotionsintothehadoopfilesystem.Hive不存储数据。Hive可以被认为是MapReduce计算模型之上的更高层次的抽象。假设数据已经存在于HDFS中并且表是在Hive中创建的,LOADDATA命令只会将HDFS中的数据映射到Hive中创建的表。映射存储在Hivemetastore数据库中,默认情况下