草庐IT

database-partitioning

全部标签

database - 当我加载数据时,配置单元在幕后做了什么?

我知道hive将数据作为分区保存到hadoop文件系统中。但是,当我在配置单元中执行LOADDATA时,具体过程是如何工作的?感谢您的回答! 最佳答案 Iknowthathivesavesdataaspartiotionsintothehadoopfilesystem.Hive不存储数据。Hive可以被认为是MapReduce计算模型之上的更高层次的抽象。假设数据已经存在于HDFS中并且表是在Hive中创建的,LOADDATA命令只会将HDFS中的数据映射到Hive中创建的表。映射存储在Hivemetastore数据库中,默认情况下

hadoop - 谷歌大查询 : Incompatible table partitioning specification

从未分区的临时表向按天分区的最终表提交复制作业时,我收到了cause:java.io.IOException:ErrorMessage:Incompatibletablepartitioningspecification.Expectspartitioningspecificationinterval(type:day),butinputpartitioningspecificationisnone;那么复制作业到分区表的输入表是否有任何限制,如何克服这些限制?使用Load作业在hadoopbigquery-connector类中创建临时表。而JobConfigurationLoad根

hadoop - Spark : Minimize task/partition size skew with textFile's minPartitions option?

我正在通过sc.textFile("/data/*/*/*")之类的方式将数万个文件读入rdd>一个问题是这些文件中的大多数都是微小的,而其他的则巨大。这会导致任务不平衡,从而导致各种众所周知的问题。我能否通过sc.textFile("/data/*/*/*",minPartitions=n_files*5)读取数据来拆分最大的分区,其中n_files是输入文件的个数吗?如约定elsewhere在stackoverflow上,minPartitions被传递到hadooprabithole,并在org.apache.hadoop.mapred.TextInputFormat.getSp

database - 在 Hadoop 或分布式计算框架中管理多个集群

我有五台联网的电脑。其中一台为主控机,四台为从机。每台从机都有自己的一组数据(一个非常大的整数矩阵)。我想在四个不同的从机上运行四个不同的集群程序。然后,将结果带回主控计算机进行进一步处理(如可视化)。我最初想使用Hadoop。但是,我找不到任何好的方法将上述问题(特别是输出结果)转换为MapReduce框架。有没有什么好的开源分布式计算框架可以轻松完成上述任务?提前致谢。 最佳答案 你应该使用YARN用于管理多个集群或资源YARN是企业Hadoop的先决条件,提供资源管理和中央平台,以跨Hadoop集群提供一致的操作、安全和数据治

database - 如何找出 Hive 数据库的总大小

我有一个包含10个表的数据库。所有10个表数据都存储在不同的不同位置。在10个表中,一些是托管表,一些是外部表。一些表位置是/apps/hive/warehouse/一些表位置是/warehouse/hive/managed/一些表位置是/warehouse/hive/external/有什么方法可以找出数据库的总大小而无需进入每个位置并找到大小,还有其他选择吗? 最佳答案 在HiveMetastoreDB中运行时的以下查询将帮助您获得Hive中所有表占用的总大小。注意:只有当所有表的统计信息都已更新时,您为该查询获得的结果才会10

database - 如何仅当 hdfs 中有文件时才执行命令

我在Ambari的HDPsnadbox中使用NiFi和Hive。我有一个NiFi流,我将修改后的文件上传到hdfs,然后使用generateflowfile,我将查询loaddatainpath'hdfs/path/'intotabletablename传递给puthiveql处理器。效果很好,但我只想在“hdfs/path”指定的路径中有文件时这样做,因为当命令loadinpath执行时,hdfs目录会清空。我不知道我该怎么做。非常感谢! 最佳答案 使用ListHDFS处理器并将处理器配置为频繁运行(例如每分钟..等),Direc

database - 将 GZIP HDFS 数据复制到 vertica

我想将HDFS(gzip压缩)数据复制到Vetica。我正在使用以下命令。但它不起作用COPYpix001SOURCEHdfs(url='http://hadoopnemenode.com:50070/webhdfs/v1/bq-upload/pix/m=03/d=01/03-01.txt.gz',username='xyz')GZIPDELIMITERE'\t';谁知道更好的方法谢谢 最佳答案 是的,有GZIP支持,只需要编译GZIP库[VerticaGuys终于帮了我:)]步骤如下:#cd/opt/vertica/sdk/exa

oracle - 使用 sqoop 将数据从 oracle 导入到 hive - 不能使用 --hive-partition-key

我有一个简单的表格:createtableosoba(idnumber,imievarchar2(100),nazwiskovarchar2(100),wiekinteger);insertintoosobavalues(1,'pawel','kowalski',36);insertintoosobavalues(2,'john','smith',55);insertintoosobavalues(3,'paul','psmithski',44);insertintoosobavalues(4,'jakub','kowalski',70);insertintoosobavalues(5

hadoop - 无法将 TotalOrderPartitioner 与 Hive : Can't read partitions file 一起使用

我们正在尝试使用生成HBaseHfiles从Hive批量加载。我们的主要问题是,当使用org.apache.hadoop.mapred.lib.TotalOrderPartitioner;它找不到自定义分区程序文件:java.lang.IllegalArgumentException:Can'treadpartitionsfile更多详情:自定义分区程序文件是从Hive表创建的:CREATEEXTERNALTABLEnetezza.ais_lowres_mmsi_range_keys(hbase_key_range_startstring)ROWFORMATSERDE'org.apac

database - 将 CSV 加载到表格时出错

我的CSV文件包含有关公司员工的详细信息。一栏包含员工的薪水(例如-4,000美元)。因此,当我编写脚本以通过“,”分隔将数据加载到表中时,它将我的薪水列分别作为4和000。如何处理?CSV文件示例-澳大利亚,35-39岁,咨询,创业(1-25),Web应用程序开发人员,"$10,001-$25,000",企业表格代码-createtablesurvey(countrystring,agestring,industryTypestring,companyTypestring,occupationstring,salarystring,projectstring)rowformatdel