database_query

database - 当我加载数据时，配置单元在幕后做了什么？

我知道hive将数据作为分区保存到hadoop文件系统中。但是，当我在配置单元中执行LOADDATA时，具体过程是如何工作的？感谢您的回答! 最佳答案 Iknowthathivesavesdataaspartiotionsintothehadoopfilesystem.Hive不存储数据。Hive可以被认为是MapReduce计算模型之上的更高层次的抽象。假设数据已经存在于HDFS中并且表是在Hive中创建的，LOADDATA命令只会将HDFS中的数据映射到Hive中创建的表。映射存储在Hivemetastore数据库中，默认情况下

配置单 database section 中创 code facebook hadoop hive hadoop-streaming

hadoop - Sqoop 无法识别导入作业命令中的 --query 参数

我正在尝试将数据从mssql服务器导出到配置单元。我正在使用以下命令将数据从用户表导出到配置单元。sqoopimport--connect"jdbc:sqlserver://{ip}\LOCAL_INSTANCE;database=TEST_DB;user=sa;password=****"--table"Users_Table"--create-hive-table--hive-tableusers_export--target-dir/cdc/export/users--append--query"select*fromUsers_Table"我收到以下错误消息。至少，您必须指定-

hadoop Sqoop strong section query sqoop2

database - 在 Hadoop 或分布式计算框架中管理多个集群

我有五台联网的电脑。其中一台为主控机，四台为从机。每台从机都有自己的一组数据(一个非常大的整数矩阵)。我想在四个不同的从机上运行四个不同的集群程序。然后，将结果带回主控计算机进行进一步处理(如可视化)。我最初想使用Hadoop。但是，我找不到任何好的方法将上述问题(特别是输出结果)转换为MapReduce框架。有没有什么好的开源分布式计算框架可以轻松完成上述任务？提前致谢。最佳答案你应该使用YARN用于管理多个集群或资源YARN是企业Hadoop的先决条件，提供资源管理和中央平台，以跨Hadoop集群提供一致的操作、安全和数据治

database Hadoop section noreferrer machine-learning parallel-processing distributed-computing

database - 如何找出 Hive 数据库的总大小

我有一个包含10个表的数据库。所有10个表数据都存储在不同的不同位置。在10个表中，一些是托管表，一些是外部表。一些表位置是/apps/hive/warehouse/一些表位置是/warehouse/hive/managed/一些表位置是/warehouse/hive/external/有什么方法可以找出数据库的总大小而无需进入每个位置并找到大小，还有其他选择吗？最佳答案在HiveMetastoreDB中运行时的以下查询将帮助您获得Hive中所有表占用的总大小。注意:只有当所有表的统计信息都已更新时，您为该查询获得的结果才会10

找出 database strong code section hadoop hive

database - 如何仅当 hdfs 中有文件时才执行命令

我在Ambari的HDPsnadbox中使用NiFi和Hive。我有一个NiFi流，我将修改后的文件上传到hdfs，然后使用generateflowfile，我将查询loaddatainpath'hdfs/path/'intotabletablename传递给puthiveql处理器。效果很好，但我只想在“hdfs/path”指定的路径中有文件时这样做，因为当命令loadinpath执行时，hdfs目录会清空。我不知道我该怎么做。非常感谢! 最佳答案使用ListHDFS处理器并将处理器配置为频繁运行(例如每分钟..等)，Direc

database hdfs strong code section hadoop hive apache-nifi

database - 将 GZIP HDFS 数据复制到 vertica

我想将HDFS(gzip压缩)数据复制到Vetica。我正在使用以下命令。但它不起作用COPYpix001SOURCEHdfs(url='http://hadoopnemenode.com:50070/webhdfs/v1/bq-upload/pix/m=03/d=01/03-01.txt.gz',username='xyz')GZIPDELIMITERE'\t';谁知道更好的方法谢谢最佳答案是的，有GZIP支持，只需要编译GZIP库[VerticaGuys终于帮了我:)]步骤如下:#cd/opt/vertica/sdk/exa

database vertica section webhdfs li hadoop nosql

hadoop - 使用 Hive Query 分析时间序列数据

我在Hive中有一个表，显示我们系统的每个用户(user_id)的登录时间(connect_date)。这是表结构:hive>describeaccess_log;OKuser_iddoublefromdeserializerconnect_datetimestampfromdeserializeripstringfromdeserializerlogout_datetimestampfromdeserializersession_idstringfromdeserializer我的目标是找出特定时间段内每个用户登录之间的平均时间，让我们使用过去7天来回答这个问题。HiveQuery如

hadoop Query connect section date hive

hadoop - 使用 -query 和 --as-parquetfile 运行 Sqoop : java. lang.NullPointerException 时出现异常

我正在尝试将表数据从Redshift导入到HDFS(使用Parquet格式)并遇到如下所示的错误:15/06/2511:05:42ERRORsqoop.Sqoop:GotexceptionrunningSqoop:java.lang.NullPointerExceptionjava.lang.NullPointerExceptionatorg.apache.sqoop.tool.CodeGenTool.generateORM(CodeGenTool.java:97)atorg.apache.sqoop.tool.ImportTool.importTable(ImportTool.jav

时出 NullPointerException Sqoop apache hadoop parquet

hadoop - super 用户未授权连接 : hcat"when trying to query Hive through WebHCat

我正在尝试使用WebHCat/Templeton执行Hive查询。我将查询发布到/templeton/v1/hive，并将“执行”参数设置为等于我的查询(现在是一个简单的“selectcount(*)”查询)。但是当我这样做的时候，我总是得到这个错误:{"error":"Unauthorizedconnectionforsuper-user:hcatfromIP172.31.27.207"}从目前我所发现的情况来看，这些“super用户未经授权的连接”错误似乎通常与代理用户设置有关，因此我将以下内容添加到我的core-site.xml中:hadoop.proxyuser.hcat.ho

WebHCat through apache hadoop section hive bigdata

database - 将 CSV 加载到表格时出错

我的CSV文件包含有关公司员工的详细信息。一栏包含员工的薪水(例如-4,000美元)。因此，当我编写脚本以通过“，”分隔将数据加载到表中时，它将我的薪水列分别作为4和000。如何处理？CSV文件示例-澳大利亚，35-39岁，咨询，创业(1-25)，Web应用程序开发人员，"$10,001-$25,000",企业表格代码-createtablesurvey(countrystring,agestring,industryTypestring,companyTypestring,occupationstring,salarystring,projectstring)rowformatdel

时出 database string code section csv hadoop hive rdbms

206 207 208209210 211 212