running_processes

sql - Hive: java.lang.OutOfMemoryError: Java heap space and Job running in-process (local Hadoop)

我的设置:运行NixOSLinux的GoogleCloudPlatform中的4节点集群(1个主节点，3个工作节点)。我一直在使用TPC-DS工具包来生成数据和查询都是标准的。在较小的数据集/更简单的查询上，它们工作得很好。我从这里获取的查询:https://github.com/hortonworks/hive-testbench/tree/hdp3/sample-queries-tpcds这是第一个，query1.sql:WITHcustomer_total_returnAS(SELECTsr_customer_skASctr_customer_sk,sr_store_skASct

hadoop - 错误 : Failed to create Data Storage while running embedded pig in java

我写了一个简单的程序来测试java中的嵌入式pig在mapreduce模式下运行。我运行的服务器hadoop版本是0.20.2-cdh3u4a，pig版本是0.10.0-cdh3u4a。当我尝试在本地模式下运行时，它运行成功。但是当我尝试以mapreduce模式运行时，它给了我错误。我使用以下命令运行我的程序，如http://pig.apache.org/docs/r0.9.1/cont.html#embed-java中所示javac-cppig.jarEmbedPigTest.javajavac-cppig.jar:.:/etc/hadoop/confEmbedPigTest.jav

embedded Storage java pig apache hadoop apache-pig

hadoop - Pig : How to send all Tuples to a UDF to be Processed without Grouping them? 或者如何在不分组的情况下将元组转换为包？

这就是我想要做的:A=LOAD'...'USINGPigStorage(',')AS(col1:int,col2:chararray);B=ORDERAbycol2;C=CUSTOM_UDF(A);CUSTOM_UDF遍历需要按顺序排列的元组。UDF会为每几个输入元组输出一个聚合元组；即，我不会以1:1的方式返回元组。本质上:publicclassCustomUdfextendsEvalFunc{publicTupleexec(Tupleinput)throwsIOException{AggregateaggregatedOutput=null;DataBagvalues=(DataB

何在 Processed input tuple hadoop mapreduce apache-pig cloudera

hadoop - fs.rename(newPath(raw FileName), in Path(process FileName)) 不工作

我正在研究基于Scala的ApacheSpark实现，用于将数据从远程位置加载到HDFS，然后将数据从HDFS提取到Hive表。使用我的第一个spark作业，我已将数据/文件载入HDFS中的某个位置-hdfs://sandbox.hortonworks.com:8020/data/analytics/raw/folder让我们考虑一下，在载入CT_Click_Basic.csv和CT_Click_Basic1.csv.gz文件后，我在HDFS中有以下文件[共享位置的文件名将是此处的文件夹名称，其内容将出现在part-xxxxx文件中]:[root@sandbox~]#hdfsdfs-l

FileName newPath analytics pathSplit pathSplitSize hadoop apache-spark spark-dataframe hadoop2 hadoop-partitioning

hadoop - Spark 1.3.0 : Running Pi example on YARN fails

我有Hadoop2.6.0.2.2.0.0-2041和Hive0.14.0.2.2.0.0-2041使用命令构建Spark后:mvn-Pyarn-Phadoop-2.4-Dhadoop.version=2.6.0-Phive-Phive-thriftserver-DskipTestspackage我尝试使用以下命令在YARN上运行Pi示例:exportHADOOP_CONF_DIR=/etc/hadoop/conf/var/home2/test/spark/bin/spark-submit\--classorg.apache.spark.examples.SparkPi\--maste

Running example hadoop yarn 1427875242006 apache-spark hadoop-yarn

java - 亚马逊电子病历 : running Custom Jar with input and output from S3

我正在尝试运行具有自定义jar步骤的EMR集群。该程序从S3获取输入并输出到S3(或者至少这是我想要完成的)。在步骤配置中，我在参数字段中有以下内容:v3.MaxTemperatureDrivers3n://hadoopbook/ncdc/alls3n://hadoop-szhu/max-temp其中hadoopbook/ncdc/all是包含输入数据的存储桶的路径(作为旁注，我正在运行的示例来自此book)，并且hadoop-szhu是我自己的存储桶，我想在其中存储输出。按照这个post，我的MapReduce驱动程序如下所示:packagev3;importorg.apache.h

病历 running hadoop apache java amazon-web-services amazon-s3 emr

parallel-processing - HBase 如何跨区域服务器分区表？

请告诉我HBase如何跨区域服务器分区表。例如，假设我的行键是0到10M之间的整数，并且我有10个区域服务器。这是否意味着第一个区域服务器将存储键值为0-10M、第二个1M-2M、第三个2M-3M、...第十个9M-10M的所有行？我希望我的行键是时间戳，但我认为大多数查询将适用于最新日期，所有查询将仅由一个区域服务器处理，是这样吗？或者这些数据可能会以不同的方式传播？或者也许我可以以某种方式创建比我拥有的区域服务器更多的区域，所以(根据给定的示例)服务器1将具有key0-0,5M和3M-3,5M，这样我的数据会更平均地分布，是吗可能的？更新我刚刚发现有选项hbase.hregion.

parallel-processing processing section 意味着的 hadoop hbase

hadoop - IO异常 : Filesystem closed exception when running oozie workflow

我们在oozie中运行一个工作流。它包含两个操作:第一个是在hdfs中生成文件的mapreduce作业，第二个是将文件中的数据复制到数据库的作业。两个部分都成功完成，但oozie在最后抛出一个异常，将其标记为失败的过程。这是异常(exception)情况:2014-05-2017:29:32,242ERRORorg.apache.hadoop.security.UserGroupInformation:PriviledgedActionExceptionas:lpinsight(auth:SIMPLE)cause:java.io.IOException:Filesystemclosed

Filesystem exception hadoop apache java oozie

hadoop - java.net.ConnectException : Connection refused error when running Hive 异常

我正在尝试完成配置单元教程，我在其中输入了以下内容:loaddatalocalinpath'/usr/local/Cellar/hive/0.11.0/libexec/examples/files/kv1.txt'overwriteintotablepokes;这会导致以下错误:FAILED:RuntimeExceptionjava.net.ConnectException:Calltolocalhost/127.0.0.1:9000failedonconnectionexception:java.net.ConnectException:Connectionrefused我看到SA上

ConnectException Connection section code hadoop hive

hadoop - 为什么 YARN 作业不转换到 RUNNING 状态？

我有许多要运行的Samza作业。我可以让第一个运行正常。但是，第二个作业似乎处于ACCEPTED状态，并且在我杀死第一个作业之前永远不会转换到RUNNING状态。这是YARNUI的View:这是第二个作业的详细信息，您可以在其中看到没有分配任何节点:我有2个数据节点，所以我应该能够运行多个作业。这是我的yarn-site.xml的相关部分(我在文件中唯一的其他配置是与HA配置、Zookeeper等有关):yarn.scheduler.minimum-allocation-mb128Minimumlimitofmemorytoallocatetoeachcontainerrequesta

RUNNING hadoop resourcemanager yarn hadoop-yarn apache-samza

216 217 218219220 221 222