database_configuration

database - 当我加载数据时，配置单元在幕后做了什么？

我知道hive将数据作为分区保存到hadoop文件系统中。但是，当我在配置单元中执行LOADDATA时，具体过程是如何工作的？感谢您的回答! 最佳答案 Iknowthathivesavesdataaspartiotionsintothehadoopfilesystem.Hive不存储数据。Hive可以被认为是MapReduce计算模型之上的更高层次的抽象。假设数据已经存在于HDFS中并且表是在Hive中创建的，LOADDATA命令只会将HDFS中的数据映射到Hive中创建的表。映射存储在Hivemetastore数据库中，默认情况下

配置单 database section 中创 code facebook hadoop hive hadoop-streaming

apache - "The machine with the name ' c6401 ' was not found configured for this Vagrant environment."错误

我计划使用ApacheAmbari。首先，我根据https://cwiki.apache.org/confluence/display/AMBARI/Quick+Start+Guide完成了所有操作.但是每当我尝试启动vms时，我都会收到以下错误:Themachinewiththename'c6401'wasnotfoundconfiguredforthisVagrantenvironment. 最佳答案今天在mac上遇到这个错误，我决定用适合我的解决方案更新这篇文章。步骤删除所有多余的机器文件夹./.vagrant/machin

amp environment section vagrant code apache hadoop

hadoop - 普通身份验证失败 : User yarn is not configured for any impersonation. impersonationUser:alluxio mapreduce 中的 root

Causedby:org.apache.thrift.transport.TTransportException:Plainauthenticationfailed:Useryarnisnotconfiguredforanyimpersonation.模拟用户:root当我使用alluxio在本地运行wordcount程序时它工作正常。我也通过了集成测试，但是当我使用alluxio客户端jar运行相同的Hadoop程序时它给我一个错误bin/hadoopjar/usr/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jarwordcount

impersonationUser impersonation alluxio section hadoop mapreduce hadoop-yarn

database - 在 Hadoop 或分布式计算框架中管理多个集群

我有五台联网的电脑。其中一台为主控机，四台为从机。每台从机都有自己的一组数据(一个非常大的整数矩阵)。我想在四个不同的从机上运行四个不同的集群程序。然后，将结果带回主控计算机进行进一步处理(如可视化)。我最初想使用Hadoop。但是，我找不到任何好的方法将上述问题(特别是输出结果)转换为MapReduce框架。有没有什么好的开源分布式计算框架可以轻松完成上述任务？提前致谢。最佳答案你应该使用YARN用于管理多个集群或资源YARN是企业Hadoop的先决条件，提供资源管理和中央平台，以跨Hadoop集群提供一致的操作、安全和数据治

database Hadoop section noreferrer machine-learning parallel-processing distributed-computing

database - 如何找出 Hive 数据库的总大小

我有一个包含10个表的数据库。所有10个表数据都存储在不同的不同位置。在10个表中，一些是托管表，一些是外部表。一些表位置是/apps/hive/warehouse/一些表位置是/warehouse/hive/managed/一些表位置是/warehouse/hive/external/有什么方法可以找出数据库的总大小而无需进入每个位置并找到大小，还有其他选择吗？最佳答案在HiveMetastoreDB中运行时的以下查询将帮助您获得Hive中所有表占用的总大小。注意:只有当所有表的统计信息都已更新时，您为该查询获得的结果才会10

找出 database strong code section hadoop hive

database - 如何仅当 hdfs 中有文件时才执行命令

我在Ambari的HDPsnadbox中使用NiFi和Hive。我有一个NiFi流，我将修改后的文件上传到hdfs，然后使用generateflowfile，我将查询loaddatainpath'hdfs/path/'intotabletablename传递给puthiveql处理器。效果很好，但我只想在“hdfs/path”指定的路径中有文件时这样做，因为当命令loadinpath执行时，hdfs目录会清空。我不知道我该怎么做。非常感谢! 最佳答案使用ListHDFS处理器并将处理器配置为频繁运行(例如每分钟..等)，Direc

database hdfs strong code section hadoop hive apache-nifi

java - Spark : How to obtain the location of configurations spark is using?

现在，我遇到了以下issueexactly.具体来说，spark-submit正在尝试连接到位置0.0.0.0/0.0.0.0的yarn.resourcemanager。我已经检查了上面堆栈溢出线程中描述的所有日志。他们似乎都是正确的。我还在spark配置目录顶部的默认设置文件中添加了yarn.resourcemanager.address=...行，导出了YARN_CONF_DIR和所有该线程上列出的其他修复程序。在评分最高的答案的评论底部，一位评论员指出，如果上述修复均无效，则spark未使用正确的配置。此时，我很确定我的spark安装没有使用正确的配置(我没有安装它)。如何确定s

configurations location code spark section java apache-spark hadoop hadoop-yarn

configuration - Hadoop节点&核心分配策略

我有一个有50个节点的集群，每个节点有8个计算核心。如果我的工作计划使用200个reducer，为了获得更好的性能，什么是好的计算资源分配策略？我的意思是，是为每个节点分配50个节点和4个核心，还是为每个节点分配25个节点和8个核心？在什么情况下哪个更好？最佳答案要回答您的问题，这取决于几件事。在我看来，50个节点总体上会更好:如果您要从磁盘读取大量数据，50个节点会更好，因为您将从磁盘上并行加载2倍。如果您要计算和处理大量数据，50个节点会更好，因为核心数量不会与处理成1:1比例(即，2倍的核心数并不完全是2倍的速度.....

configuration amp section li 节点 hadoop mapreduce hpc

configuration - Hadoop 推荐素数的 map/reduce 任务？

我在模板配置文件中看到了这些:mapred.map.tasks2Thedefaultnumberofmaptasksperjob.Typicallysettoaprimeseveraltimesgreaterthannumberofavailablehosts.Ignoredwhenmapred.job.trackeris"local"....mapred.reduce.tasks1Thedefaultnumberofreducetasksperjob.Typicallysettoaprimeclosetothenumberofavailablehosts.Ignoredwhenmap

configuration Hadoop section lt gt mapreduce

database - 将 GZIP HDFS 数据复制到 vertica

我想将HDFS(gzip压缩)数据复制到Vetica。我正在使用以下命令。但它不起作用COPYpix001SOURCEHdfs(url='http://hadoopnemenode.com:50070/webhdfs/v1/bq-upload/pix/m=03/d=01/03-01.txt.gz',username='xyz')GZIPDELIMITERE'\t';谁知道更好的方法谢谢最佳答案是的，有GZIP支持，只需要编译GZIP库[VerticaGuys终于帮了我:)]步骤如下:#cd/opt/vertica/sdk/exa

database vertica section webhdfs li hadoop nosql

172 173 174175176 177 178