database-integrity

database - 将 Spark 与 Cassandra 结合使用的优势

我看到结合使用Spark和Cassandra比较流行。我知道Cassandra是一种大数据解决方案，提供可靠性而不是一致性，因此适合实时系统。它还为查询提供类似SQL的语法，但在底层管理其数据的方式与普通数据库截然不同。另一方面，Hadoop提供的一致性优于可靠性，因此适合分析系统。它的接口(interface)是MapReduce，对于现在来说速度很慢而且级别太低。所以这就是Sparks的用武之地。Sparks使用Hadoop的HDFS并用更好的架构取代旧的MapReduce，该架构更多地利用内存而不是硬盘，并公开更好的接口(interface)，例如RDD和数据帧。所以我的问题是:

database - 了解HIVE数据库中的映射器和化简器

我正在类里面学习大数据，现在我们正在学习HIVE。今天我们了解了映射器和缩小器，但说实话，它已经超出了我的范围。有人可以告诉我映射器和化简器在每个步骤中做什么吗？还是至少让我读到了一些好书？提前致谢最佳答案让我们尝试从我从互联网上下载的图表中了解map-reduce流程。我们将讨论hadoop中的字数统计问题，hadoop在Hadoop中也称为helloworld。字数统计是一个程序，在该程序中我们可以从文件中查找每个单词的出现情况。让我们尝试了解步骤1):输入文件:我们需要一些数据来运行字数统计程序，以便在群集上运行此程序，第

射器 database br strong hadoop hive bigdata

database - 使用 Sqoop 从 Sybase 导入数据的问题

我正在尝试使用Sqoop从Sybase导入数据。从日志中我可以说我已经成功地进行了连接。但是我的工作失败了，给了我一些来自Sybase的Sql异常。我主要不是在Sybase上工作，所以无法从这个错误中挖掘出太多信息。我的资源中只有一个位于Sybase。我使用了以下命令:sqoopimport--verbose\--drivercom.sybase.jdbc3.jdbc.SybDriver\--connectjdbc:sybase:Tds:nyhostx123.sm.com:13290/DATABASE=tempdb\--tabletempdb..mit\--split-bysipid\

database Sybase apache java hadoop jdbc sqoop

database - 使用 mapreduce 访问非 JDBC 数据库

我有一个未启用JDBC的数据库，我可以在其中触发查询并使用输入流获取结果。我想使用mapreduce程序访问它。对于支持JDBC的数据库，Hadoop中有“DBInputFormat.java”和“DBConfiguration.java”文件，它们负责访问数据库并在扩展DBWritable和Writable接口(interface)的用户定义类中获取结果。有没有一种方法可以让我以相同的方式访问上述非JDBC数据库？最佳答案我不确定您的数据库是否支持ODBC。如果是这样，您可以尝试使用DBInputFormat的jdbc:odb

mapreduce database section JDBC DBInputFormat hadoop

database - 有没有办法在不丢失数据的情况下重命名配置单元表？

我想重命名我已经使用配置单元创建的表。有什么方法可以在不丢失数据的情况下重命名这些表？最佳答案你应该试试这个ALTERTABLEdatabase.table_to_renamerenametonew_table_name; 关于database-有没有办法在不丢失数据的情况下重命名配置单元表？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/36500657/

配置单命名 section database hadoop hive

hadoop - 在 Hbase-Hive Integration 中删除值

我正在使用Hbase进行数据存储，我有Hive表可以使用存储处理程序从Hbase读取数据。我正在使用复合ROWKEY(Struct(region,country,date,id))。有没有办法从Hbase-HiveIntegaration中删除特定数据，无论是从Hbase还是从HIVe？？是否可以使用HBaseshell命令或Hive查询来完成类似下面的操作deletefromtablewhereregion=EUandcountry=USanddate=2015-06-11;使用Hive0.14提前致谢。最佳答案基于https

Integration Hbase-Hive section Hive code hadoop hbase

database - HDFS 中存储了什么以及为什么 Titan 执行查询时 map-reduce 计算速度如此之快？

我现在正在学习Titan。我在远程模式下将Titan与HBase结合使用。现在有三个问题让我很困惑。我在下面描述了它们:在TinkerPop3文档中，它说“任何OLAP操作的结果都存储在可通过hdfs访问的HDFS中。”但是现在我用Titan做OLTP，这种情况下HDFS里面存的是什么？当我们使用Titan连接HBase成功时(通过JavaIDE)，我们可以看到在HBaseshell中创建的表并扫描内容。table中的content'column'是什么意思？它们代表图中的顶点id吗？当我测试Titan的性能时，我观察到查询速度比普通的map-reduce作业快。为什么泰坦能做到呢？在

map-reduce database Titan section noreferrer hadoop graph hbase

database - sqoop 从 db2 特定模式导入所有到配置单元

我尝试使用以下命令行从DB2中的特定模式导入所有表。sqoopimport-all-tables--usernameuser--passwordpass\--connectjdbc:db2://myip:50000/databs:CurrentSchema=testdb\--drivercom.ibm.db2.jcc.DB2Driver--fields-terminated-by','\--lines-terminated-by'\n'--hive-databasedefault--hive-import--hive-overwrite\--create-hive-table-m1;遇

配置单 database java sqoop apache hadoop jdbc db2

database - Apache Zeppelin 如何可视化来自 Hbase 的数据？

由于ApacheZeppelin支持Hbase作为解释器，可以可视化任何识别的后端语言，我想知道是否可以使用Zeppelin直接可视化来自Hbase的数据？现在我只能查看data在飞艇的Hbase中。也欢迎任何关于好的替代方案的建议。最终目标是对大量地理空间数据进行可视化和数据分析。最佳答案 canvisualizeanybackendlanguagethat'srecognized这不完全正确。表格和图表可视化通常需要表格结构。Hbase解释器就是aproxyintothehbaseshellcommandonthatmachi

database Zeppelin section noreferrer Hbase user-interface hadoop apache-zeppelin

database - 当我加载数据时，配置单元在幕后做了什么？

我知道hive将数据作为分区保存到hadoop文件系统中。但是，当我在配置单元中执行LOADDATA时，具体过程是如何工作的？感谢您的回答! 最佳答案 Iknowthathivesavesdataaspartiotionsintothehadoopfilesystem.Hive不存储数据。Hive可以被认为是MapReduce计算模型之上的更高层次的抽象。假设数据已经存在于HDFS中并且表是在Hive中创建的，LOADDATA命令只会将HDFS中的数据映射到Hive中创建的表。映射存储在Hivemetastore数据库中，默认情况下

配置单 database section 中创 code facebook hadoop hive hadoop-streaming

131 132 133134135 136 137