space-partitioning

android - 将 Apache Pig 导入 Android 项目导致 "Unable to execute dex: Java heap space"错误

我试图在我的Android应用程序中序列化一个TreeMap，这样我就可以将它保存到一个SharedPreferences，如thisStackOverflowQ&A中所建议的那样.它用于ArrayList，但我还是捕获了机会。重点是使用ApachePig项目中的ObjectSerializer类将TreeMap序列化为String并将其保存在共享首选项中的该数据类型中。然而，当我在不使用Hadoop的情况下导入.jar后，我就开始遇到很多错误。当我在模拟器中运行我的应用程序时(我使用的是Eclipse)，我的IDE底部的状态栏永远不会超过消息“正在启动[应用程序名称]100%...”

hadoop - 配置单元加载数据 :how to specify file column separator and dynamic partition columns?

好吧，我有一些关于将mysql数据加载到hive2的问题，并且不知道如何指定分隔符，我尝试了serval次但一无所获。下面是hive表，id是分区列，0:jdbc:hive2://localhost/>desctest;+-----------+------------+----------+|col_name|data_type|comment|+-----------+------------+----------+|a|string|||id|int||+-----------+------------+----------+当我执行loaddatalocalinpath'fil

配置单 separator code section pre hadoop hive

hadoop - Hive "add partition"并发

我们有一个用于处理原始日志文件数据的外部Hive表。这些文件按小时计算，并按日期和源主机名分区。目前，我们正在使用每小时触发几次的简单python脚本导入文件。该脚本根据需要在HDFS上创建子文件夹，从临时本地存储复制新文件并将任何新分区添加到Hive。今天，使用“ALTERTABLE...ADDPARTITION...”创建新分区。但是，如果另一个Hive查询正在该表上运行，它将被锁定，这意味着添加分区命令将失败(如果查询运行时间足够长)，因为它需要独占锁。此方法的替代方法是使用“MSCKREPAIRTABLE”，出于某种原因，它不似乎在表上获取任何锁。但是，我的印象是不建议在生产环

amp partition section Hive https hadoop

sql - Hive: java.lang.OutOfMemoryError: Java heap space and Job running in-process (local Hadoop)

我的设置:运行NixOSLinux的GoogleCloudPlatform中的4节点集群(1个主节点，3个工作节点)。我一直在使用TPC-DS工具包来生成数据和查询都是标准的。在较小的数据集/更简单的查询上，它们工作得很好。我从这里获取的查询:https://github.com/hortonworks/hive-testbench/tree/hdp3/sample-queries-tpcds这是第一个，query1.sql:WITHcustomer_total_returnAS(SELECTsr_customer_skASctr_customer_sk,sr_store_skASct

OutOfMemoryError in-process Stage customer store sql hadoop hive mapreduce hdfs

Hadoop:如何使用上下文对象在减少步骤中找出partition_Id

在HadoopAPI版本中。0.20及更高版本引入了Context对象，而不是JobConf。我需要使用Context对象找出:当前Reducer的partition_id输出文件夹使用过时的JobConf，我可以通过以下方式找到当前Reducer的partition_id:publicvoidconfigure(JobConfconf){intcurrent_partition=conf.getInt("mapred.task.partition",-1);}我认为我需要在方法内部使用Context对象publicvoidsetup(Contextc)但是怎么办？输出文件夹名称呢？

partition_Id partition hadoop section mapreduce

hadoop - 弹性 MapReduce 上的 Mahout : Java Heap Space

我在AmazonElasticMapReduce集群上从命令行运行Mahout0.6，试图canopy-cluster~1500个短文档，但作业一直失败并显示“错误:Java堆空间”消息。根据之前在这里和其他地方的问题，我调高了我能找到的每个内存旋钮:conf/hadoop-env.sh:在小实例上将所有堆空间设置为1.5GB，在大实例上甚至设置为4GB。conf/mapred-site.xml:添加mapred.{map,reduce}.child.java.opts属性，并将它们的值设置为-Xmx4000m$MAHOUT_HOME/bin/mahout:增加JAVA_HEAP_MA

MapReduce hadoop JobClient mapred INFO heap-memory amazon-emr mahout

apache-spark - Spark RDD : partitioning according to text file format

我有一个包含数十GB数据的文本文件，我需要从HDFS加载它并将其并行化为RDD。此文本文件使用以下格式描述项目。请注意，字母字符串不存在(每行的含义是隐含的)并且每行可以包含空格以分隔不同的值:0001(id)100010002000(dimensions)0100(weight)0030(amount)0002(id)111010005000(dimensions)0220(weight)3030(amount)我认为并行化此文件的最直接方法是将其从本地文件系统上传到HDFS，然后通过执行sc.textFile(filepath)创建一个RDD。但是，在这种情况下，分区将取决于与文件

apache-spark partitioning code String dimensions hadoop rdd hadoop-partitioning

hadoop - distcp 失败，错误为 "No space left on device"

我正在将HDFS快照复制到S3存储桶，出现以下错误:我正在执行的命令是:hadoopdistcp/.snapshot/$SNAPSHOTNAMEs3a://$ACCESSKEY:$SECRETKEY@$BUCKET/$SNAPSHOTNAME15/08/2006:50:07INFOmapreduce.Job:map38%reduce0%15/08/2006:50:08INFOmapreduce.Job:map39%reduce0%15/08/2006:52:15INFOmapreduce.Job:map41%reduce0%15/08/2006:52:37INFOmapreduce.J

amp hadoop java apache amazon-s3 hdfs snapshot distcp

hadoop - Hive:当插入分区表时，在大多数行中，hive double url-encode partition key column

我创建了一个分区表:createtablet1(amountdouble)partitionedby(events_partition_keystring)storedaspaquet;向tmp_table添加了一些数据，其中'events_partition_key'列包含以下格式的时间戳(字符串类型):“2018-02-2500:00:00”然后我向分区表中插入一些数据。insertintotablet1partition(events_partition_key)selectamount,events_partition_keyfromtmp_table当从新的分区表t1中选择时

url-encode partition events_partition_key section hadoop hive apache-spark-sql hadoop-partitioning

hadoop - 获取 "No space left on device"大约。 EMR m1.large 实例上的 10 GB 数据

当我使用m1.large作为作业流创建的hadoop实例的实例类型运行我的AmazonEMR作业时，我收到错误“设备上没有剩余空间”。该工作产生约。最大10GB的数据，因为m1.large实例的容量应该是420GB*2(根据:EC2instancetypes)。我很困惑为什么只有10GB的数据会导致“磁盘空间已满”之类的消息。我知道如果我们完全耗尽了文件系统上允许的inode总数，也可能会产生这种错误，但这就像一个数百万的大数字，我很确定我的工作不是产生那么多文件。我已经看到，当我尝试独立于m1.large类型创建一个EC2实例时，默认情况下它会为其分配一个8GB的根卷。这是否也是

amp 大约 type section code hadoop amazon-web-services amazon-ec2 elastic-map-reduce diskspace

40 41 424344 45 46