Database_normalization

database - HDFS 中存储了什么以及为什么 Titan 执行查询时 map-reduce 计算速度如此之快？

我现在正在学习Titan。我在远程模式下将Titan与HBase结合使用。现在有三个问题让我很困惑。我在下面描述了它们:在TinkerPop3文档中，它说“任何OLAP操作的结果都存储在可通过hdfs访问的HDFS中。”但是现在我用Titan做OLTP，这种情况下HDFS里面存的是什么？当我们使用Titan连接HBase成功时(通过JavaIDE)，我们可以看到在HBaseshell中创建的表并扫描内容。table中的content'column'是什么意思？它们代表图中的顶点id吗？当我测试Titan的性能时，我观察到查询速度比普通的map-reduce作业快。为什么泰坦能做到呢？在

database - sqoop 从 db2 特定模式导入所有到配置单元

我尝试使用以下命令行从DB2中的特定模式导入所有表。sqoopimport-all-tables--usernameuser--passwordpass\--connectjdbc:db2://myip:50000/databs:CurrentSchema=testdb\--drivercom.ibm.db2.jcc.DB2Driver--fields-terminated-by','\--lines-terminated-by'\n'--hive-databasedefault--hive-import--hive-overwrite\--create-hive-table-m1;遇

配置单 database java sqoop apache hadoop jdbc db2

database - Apache Zeppelin 如何可视化来自 Hbase 的数据？

由于ApacheZeppelin支持Hbase作为解释器，可以可视化任何识别的后端语言，我想知道是否可以使用Zeppelin直接可视化来自Hbase的数据？现在我只能查看data在飞艇的Hbase中。也欢迎任何关于好的替代方案的建议。最终目标是对大量地理空间数据进行可视化和数据分析。最佳答案 canvisualizeanybackendlanguagethat'srecognized这不完全正确。表格和图表可视化通常需要表格结构。Hbase解释器就是aproxyintothehbaseshellcommandonthatmachi

database Zeppelin section noreferrer Hbase user-interface hadoop apache-zeppelin

database - 当我加载数据时，配置单元在幕后做了什么？

我知道hive将数据作为分区保存到hadoop文件系统中。但是，当我在配置单元中执行LOADDATA时，具体过程是如何工作的？感谢您的回答! 最佳答案 Iknowthathivesavesdataaspartiotionsintothehadoopfilesystem.Hive不存储数据。Hive可以被认为是MapReduce计算模型之上的更高层次的抽象。假设数据已经存在于HDFS中并且表是在Hive中创建的，LOADDATA命令只会将HDFS中的数据映射到Hive中创建的表。映射存储在Hivemetastore数据库中，默认情况下

配置单 database section 中创 code facebook hadoop hive hadoop-streaming

hadoop - 是否可以在配置单元中执行 'normalized' dense_rank()？

我有一个这样的消费者表。consumer|product|quantity--------|-------|--------a|x|3a|y|4a|z|1b|x|3b|y|5c|x|4我想要的是分配给每个消费者的“标准化”排名，这样我就可以轻松拆分表格以进行测试和培训。我在hive中使用了dense_rank()，所以我得到了下表。rank|consumer|product|quantity----|--------|-------|--------1|a|x|31|a|y|41|a|z|12|b|x|32|b|y|53|c|x|4这很好，但我想扩展它以用于任意数量的消费者，所以理想情

配置单 dense_rank code section pre hadoop machine-learning hive training-data

database - 在 Hadoop 或分布式计算框架中管理多个集群

我有五台联网的电脑。其中一台为主控机，四台为从机。每台从机都有自己的一组数据(一个非常大的整数矩阵)。我想在四个不同的从机上运行四个不同的集群程序。然后，将结果带回主控计算机进行进一步处理(如可视化)。我最初想使用Hadoop。但是，我找不到任何好的方法将上述问题(特别是输出结果)转换为MapReduce框架。有没有什么好的开源分布式计算框架可以轻松完成上述任务？提前致谢。最佳答案你应该使用YARN用于管理多个集群或资源YARN是企业Hadoop的先决条件，提供资源管理和中央平台，以跨Hadoop集群提供一致的操作、安全和数据治

database Hadoop section noreferrer machine-learning parallel-processing distributed-computing

database - 如何找出 Hive 数据库的总大小

我有一个包含10个表的数据库。所有10个表数据都存储在不同的不同位置。在10个表中，一些是托管表，一些是外部表。一些表位置是/apps/hive/warehouse/一些表位置是/warehouse/hive/managed/一些表位置是/warehouse/hive/external/有什么方法可以找出数据库的总大小而无需进入每个位置并找到大小，还有其他选择吗？最佳答案在HiveMetastoreDB中运行时的以下查询将帮助您获得Hive中所有表占用的总大小。注意:只有当所有表的统计信息都已更新时，您为该查询获得的结果才会10

找出 database strong code section hadoop hive

database - 如何仅当 hdfs 中有文件时才执行命令

我在Ambari的HDPsnadbox中使用NiFi和Hive。我有一个NiFi流，我将修改后的文件上传到hdfs，然后使用generateflowfile，我将查询loaddatainpath'hdfs/path/'intotabletablename传递给puthiveql处理器。效果很好，但我只想在“hdfs/path”指定的路径中有文件时这样做，因为当命令loadinpath执行时，hdfs目录会清空。我不知道我该怎么做。非常感谢! 最佳答案使用ListHDFS处理器并将处理器配置为频繁运行(例如每分钟..等)，Direc

database hdfs strong code section hadoop hive apache-nifi

database - 将 GZIP HDFS 数据复制到 vertica

我想将HDFS(gzip压缩)数据复制到Vetica。我正在使用以下命令。但它不起作用COPYpix001SOURCEHdfs(url='http://hadoopnemenode.com:50070/webhdfs/v1/bq-upload/pix/m=03/d=01/03-01.txt.gz',username='xyz')GZIPDELIMITERE'\t';谁知道更好的方法谢谢最佳答案是的，有GZIP支持，只需要编译GZIP库[VerticaGuys终于帮了我:)]步骤如下:#cd/opt/vertica/sdk/exa

database vertica section webhdfs li hadoop nosql

database - 将 CSV 加载到表格时出错

我的CSV文件包含有关公司员工的详细信息。一栏包含员工的薪水(例如-4,000美元)。因此，当我编写脚本以通过“，”分隔将数据加载到表中时，它将我的薪水列分别作为4和000。如何处理？CSV文件示例-澳大利亚，35-39岁，咨询，创业(1-25)，Web应用程序开发人员，"$10,001-$25,000",企业表格代码-createtablesurvey(countrystring,agestring,industryTypestring,companyTypestring,occupationstring,salarystring,projectstring)rowformatdel

时出 database string code section csv hadoop hive rdbms

125 126 127128129 130 131