database-optimization

database - 有没有办法在不丢失数据的情况下重命名配置单元表？

我想重命名我已经使用配置单元创建的表。有什么方法可以在不丢失数据的情况下重命名这些表？最佳答案你应该试试这个ALTERTABLEdatabase.table_to_renamerenametonew_table_name; 关于database-有没有办法在不丢失数据的情况下重命名配置单元表？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/36500657/

配置单命名 section database hadoop hive

database - HDFS 中存储了什么以及为什么 Titan 执行查询时 map-reduce 计算速度如此之快？

我现在正在学习Titan。我在远程模式下将Titan与HBase结合使用。现在有三个问题让我很困惑。我在下面描述了它们:在TinkerPop3文档中，它说“任何OLAP操作的结果都存储在可通过hdfs访问的HDFS中。”但是现在我用Titan做OLTP，这种情况下HDFS里面存的是什么？当我们使用Titan连接HBase成功时(通过JavaIDE)，我们可以看到在HBaseshell中创建的表并扫描内容。table中的content'column'是什么意思？它们代表图中的顶点id吗？当我测试Titan的性能时，我观察到查询速度比普通的map-reduce作业快。为什么泰坦能做到呢？在

map-reduce database Titan section noreferrer hadoop graph hbase

database - sqoop 从 db2 特定模式导入所有到配置单元

我尝试使用以下命令行从DB2中的特定模式导入所有表。sqoopimport-all-tables--usernameuser--passwordpass\--connectjdbc:db2://myip:50000/databs:CurrentSchema=testdb\--drivercom.ibm.db2.jcc.DB2Driver--fields-terminated-by','\--lines-terminated-by'\n'--hive-databasedefault--hive-import--hive-overwrite\--create-hive-table-m1;遇

配置单 database java sqoop apache hadoop jdbc db2

database - Apache Zeppelin 如何可视化来自 Hbase 的数据？

由于ApacheZeppelin支持Hbase作为解释器，可以可视化任何识别的后端语言，我想知道是否可以使用Zeppelin直接可视化来自Hbase的数据？现在我只能查看data在飞艇的Hbase中。也欢迎任何关于好的替代方案的建议。最终目标是对大量地理空间数据进行可视化和数据分析。最佳答案 canvisualizeanybackendlanguagethat'srecognized这不完全正确。表格和图表可视化通常需要表格结构。Hbase解释器就是aproxyintothehbaseshellcommandonthatmachi

database Zeppelin section noreferrer Hbase user-interface hadoop apache-zeppelin

optimization - 如何在 awk 中编写优化的 reducer

我有下面的awkreducer程序，它在计算键值对中的值时运行良好。#!/bin/awk-fBEGIN{FS="\t";}{A[$1]+=$2;}END{for(iinA){printf("%s\t%d\n",i,A[i])}}上面的reducer效果很好，有没有什么优化的写法...？输入:APPLE1APPLE11ORANGE1ORANGE1MANGO1BANANA1111ORANGE11APPLE1BANANA1输出:APPLE3BANANA2MANGO1ORANGE35 最佳答案取决于您对优化的定义-您当前的解决方案是有限的

何在 optimization section code pre hadoop map awk reduce

optimization - 优化 Pig 请求

我想在嵌入式java程序中执行pig命令。目前，我在本地模式下尝试Pig。我的数据文件大小约为15MB，但此命令的执行时间很长，所以我认为我的脚本需要优化...我的脚本:A=LOAD'data'USINGPigPrismeLoader('data.xml');filter_response_time_less_than_1_s=FILTERABY(response_time=1000.0ANDresponse_time=2000.0);star__zne_asfo_access_log=FOREACH(COGROUPABY(date_day,url,date_minute,ret_co

optimization Pig response date time hadoop apache-pig

database - 当我加载数据时，配置单元在幕后做了什么？

我知道hive将数据作为分区保存到hadoop文件系统中。但是，当我在配置单元中执行LOADDATA时，具体过程是如何工作的？感谢您的回答! 最佳答案 Iknowthathivesavesdataaspartiotionsintothehadoopfilesystem.Hive不存储数据。Hive可以被认为是MapReduce计算模型之上的更高层次的抽象。假设数据已经存在于HDFS中并且表是在Hive中创建的，LOADDATA命令只会将HDFS中的数据映射到Hive中创建的表。映射存储在Hivemetastore数据库中，默认情况下

配置单 database section 中创 code facebook hadoop hive hadoop-streaming

hadoop - hive.groupby.skewindata 是否依赖于 hive.optimize.skewjoin？

根据配置单元模板:hive.optimize.skewjoin:是否启用倾斜连接优化。算法如下:在运行时，检测具有较大偏斜的键。不处理这些key，而是将它们临时存储在HDFS目录中。在后续的map-reduce作业中，处理那些倾斜的键。不需要为所有表倾斜相同的键，因此，后续的map-reduce作业(对于倾斜的键)会快得多，因为它将是map-join。hive.groupby.skewindata:数据是否存在倾斜优化groupby查询但我不明白是否hive.groupby.skewindata是否依赖于hive.optimize.skewjoin？最佳答

hive skewindata section code hadoop bigdata hiveql

database - 在 Hadoop 或分布式计算框架中管理多个集群

我有五台联网的电脑。其中一台为主控机，四台为从机。每台从机都有自己的一组数据(一个非常大的整数矩阵)。我想在四个不同的从机上运行四个不同的集群程序。然后，将结果带回主控计算机进行进一步处理(如可视化)。我最初想使用Hadoop。但是，我找不到任何好的方法将上述问题(特别是输出结果)转换为MapReduce框架。有没有什么好的开源分布式计算框架可以轻松完成上述任务？提前致谢。最佳答案你应该使用YARN用于管理多个集群或资源YARN是企业Hadoop的先决条件，提供资源管理和中央平台，以跨Hadoop集群提供一致的操作、安全和数据治

database Hadoop section noreferrer machine-learning parallel-processing distributed-computing

database - 如何找出 Hive 数据库的总大小

我有一个包含10个表的数据库。所有10个表数据都存储在不同的不同位置。在10个表中，一些是托管表，一些是外部表。一些表位置是/apps/hive/warehouse/一些表位置是/warehouse/hive/managed/一些表位置是/warehouse/hive/external/有什么方法可以找出数据库的总大小而无需进入每个位置并找到大小，还有其他选择吗？最佳答案在HiveMetastoreDB中运行时的以下查询将帮助您获得Hive中所有表占用的总大小。注意:只有当所有表的统计信息都已更新时，您为该查询获得的结果才会10

找出 database strong code section hadoop hive

138 139 140141142 143 144