搞机分区

scala - 如何对 RDD 进行分区

我有一个文本文件，其中包含大量由空格分隔的随机浮点值。我正在将此文件加载到Scala中的RDD中。这个RDD是如何分区的？此外，是否有任何方法可以生成自定义分区，以便所有分区具有相同数量的元素以及每个分区的索引？valdRDD=sc.textFile("hdfs://master:54310/Data/input*")keyval=dRDD.map(x=>process(x.trim().split('').map(_.toDouble),query_norm,m,r))我在这里从HDFS加载多个文本文件，进程是我调用的函数。我可以使用mapPartitonsWithIndex解决方案

hadoop - 当使用 alter drop 命令删除分区时，如何从配置单元中删除分区元数据

我已经使用alter命令删除了hive表中的所有分区altertableempdroppartition(hiredate>'0');删除分区后我仍然可以看到分区元数据。如何删除这个分区元数据？我可以为新分区使用同一张表吗？最佳答案分区是在创建表时定义的。通过运行ALTERTABLE...DROPPARTITION...，您只是删除了匹配分区的数据和元数据，而不是表本身的分区。此时您最好的选择是重新创建没有分区的表。如果您尝试保存一些数据，请重命名当前表，创建新表(没有分区)，然后从旧表运行INSERT到新表。

配置单 hadoop section code stackoverflow apache-hive

hadoop - 为什么分区连接(随机播放)并不总是比广播连接好？

我已经进行了深入的研究，但我找不到足够详细的信息..我读过这些:1)http://www.cloudera.com/content/www/en-us/documentation/enterprise/latest/PDF/cloudera-impala.pdf2)http://www.cidrdb.org/cidr2015/Papers/CIDR15_Paper28.pdf但是我没有找到任何答案..有人能解释一下为什么分区连接并不总是更好吗？我的意思是，如果我们有两个表T1(大表)和T2(小表)，如果我使用分区策略，它们都会被分区，并且我们将T1/n-1子集发送到其他节点，T2也是如

hadoop 连接 section l_orderkey orderkey hive hdfs cloudera impala

hadoop - 插入 Hive 表 - 非分区表到分区表 - 无法插入目标表，因为列号/类型

当我尝试插入分区表时出现以下错误SemanticException[错误10044]:第1:23行无法插入目标表，因为列号/类型不同“US”:表inclause-0有2列，但查询有3列。我的输入数据1,aaa,US2,bbb,US3,ccc,IN4,ddd,US5,eee,IN6,fff,IN7,ggg,US已创建hive表txcreatetabletx(noint,namestring,countrystring)ROWFORMATDELIMITEDFIELDSTERMINATEDBY',';已创建分区表t1按国家/地区分区createtablet1(noint,namestring

hadoop Hive strong country code

java - 使用 Apache Spark 重新分区

问题:我正在尝试对数据集进行重新分区，以便在指定的整数列中具有相同编号的所有行都在同一分区中。什么是有效的:当我将1.6API(在Java中)与RDD一起使用时，我使用了哈希分区程序，这按预期工作。例如，如果我为每一行打印此列的每个值的模数，我将在给定分区中获得相同的模数(我通过手动读取使用saveAsHadoopFile保存的内容来读取分区)。使用最新的API时没有按预期工作但现在我正在尝试使用2.0.1API(在Scala中)和具有重新分区方法的数据集，该方法采用多个分区和一列并将此数据集保存为Parquet文件。如果我在给定此列的行未分区的分区中查看结果是不一样的。

Apache Spark code section strong java scala hadoop apache-spark

hadoop - 中间有列的 Hive 表分区

我想用Hadoop上现有文件的分区创建一个表。我需要分区的日期值在文件中可用，但日期值列位置不是最后一个。它在中间。如何创建相同的表？示例如下:1John2012-01-10Miller2Austin2012-02-22Powers 最佳答案举个例子:你想要一个包含三列的分区Hive表(idINT,fnameSTRING,dtSTRING,lnameSTRING)whereid,fname,lname是分别存储一个整数id,stringfirstname和一个stringlastname的列，dt是一个string类型的分区列，包

hadoop Hive code STRING section

hadoop - Hive:尝试创建动态分区时出现 fatal error

createtableMY_DATA0(session_idSTRING,useridBIGINT,date_timeSTRING,ipSTRING,URLSTRING,countrySTRING,stateSTRING,citySTRING)ROWFORMATDELIMITEDFIELDSTERMINATEDBY','LINESTERMINATEDBY'\n'STOREDASTEXTFILE;LOADDATAINPATH'/inputhive'OVERWRITEINTOTABLEMY_DATA0;createtablepart0(session_idSTRING,useridBIGI

时出 hadoop STRING section partitions hive bigdata hiveql

hadoop - 通过分区控制 Impala 中的数据局部性

如果在表创建时理想的数据位置或布局已知，我想避免Impala节点不必要地通过网络从其他节点请求数据。这对于“非加性”操作很有帮助，其中分区中的所有记录无论如何都需要在同一位置(节点)(例如百分位数)。是否可以告诉Impala分区中的所有数据都应该始终位于任何HDFS副本的单个节点上？在Impala-SQL中，我不确定“PARTITIONEDBY”子句是否提供此功能。据我了解，Impala将其分区分块到HDFS上的单独文件中，但HDFS不保证相关文件的共同定位，默认情况下也不block(而是试图实现相反的目标)。找到一些关于Impala对HDFS开发的影响的信息，但不清楚这些是否已经实现

hadoop Impala section HDFS partitioning database-partitioning

java - HBase 分区域负载均衡

我有一个5节点的HBase集群，主要有获取顺序数据的输入请求。为了优化存储，我在高负载区域上运行了手动区域拆分，但它并没有优化太多，因为它拆分了区域，但主要是在同一个区域服务器上。如何以这种方式控制区域分割r-1(k1tok2)onservers1,r-2(k2tok3)onservers2,r-3(k3tok4)onservers3,r-4(k4tok5)onservers4,r-5(k5tok6)onservers5,r-6(k6tok7)onservers1,即拆分后，没有连续的region去同一台服务器控制同一台服务器上的负载。最佳答案

HBase java section code server hadoop

python - 我可以在分区的配置单元表上使用 mrjob python 库吗？

我有一个hadoop服务器/集群的用户访问权限，其中包含的数据仅存储在hive(avro)的分区表/文件中。我想知道我是否可以在这些表上使用pythonmrjob执行mapreduce？到目前为止，我一直在本地对存储在CDH5上的文本文件测试mrjob，开发的简易性给我留下了深刻的印象。经过一番研究，我发现有一个名为HCatalog的库，但据我所知，它不适用于python(仅适用于Java)。不幸的是，我没有太多时间学习Java，我想坚持使用Python。你知道在hive存储的数据上运行mrjob的方法吗？如果这是不可能的，有没有办法将python编写的mapreduce代码流式传输到

配置单 python section hadoop streaming hive mrjob

87 88 899091 92 93