草庐IT

multiple-processes

全部标签

hadoop - Spark 流 : How to process using multiple inputs to job?

输入1:KV数据流。输入2:一些静态数据分区(用于处理输入1中的流)问题可以建模为下图:与HDFS/RDD分区共置:我们如何确保流式任务Map1、Map2和Map3在存在HDFS/RDD分区的机器上运行?图像描述:假设K是流式key(不是元组)。FirstMap将其转换为元组(具有空值)并将其广播给3个映射器。每个映射器都在不同的节点上运行,这些节点包含RDD(或HDFS文件,这是第二个输入和静态数据)的不同分区。每个Mapper使用RDD分区来计算键的值。最后,我们要聚合键的值(使用reduceByKey_+_)。 最佳答案 如果

sql - Hive: java.lang.OutOfMemoryError: Java heap space and Job running in-process (local Hadoop)

我的设置:运行NixOSLinux的GoogleCloudPlatform中的4节点集群(1个主节点,3个工作节点)。我一直在使用TPC-DS工具包来生成数据和查询都是标准的。在较小的数据集/更简单的查询上,它们工作得很好。我从这里获取的查询:https://github.com/hortonworks/hive-testbench/tree/hdp3/sample-queries-tpcds这是第一个,query1.sql:WITHcustomer_total_returnAS(SELECTsr_customer_skASctr_customer_sk,sr_store_skASct

hadoop - Pig : How to send all Tuples to a UDF to be Processed without Grouping them? 或者如何在不分组的情况下将元组转换为包?

这就是我想要做的:A=LOAD'...'USINGPigStorage(',')AS(col1:int,col2:chararray);B=ORDERAbycol2;C=CUSTOM_UDF(A);CUSTOM_UDF遍历需要按顺序排列的元组。UDF会为每几个输入元组输出一个聚合元组;即,我不会以1:1的方式返回元组。本质上:publicclassCustomUdfextendsEvalFunc{publicTupleexec(Tupleinput)throwsIOException{AggregateaggregatedOutput=null;DataBagvalues=(DataB

hadoop - fs.rename(newPath(raw FileName), in Path(process FileName)) 不工作

我正在研究基于Scala的ApacheSpark实现,用于将数据从远程位置加载到HDFS,然后将数据从HDFS提取到Hive表。使用我的第一个spark作业,我已将数据/文件载入HDFS中的某个位置-hdfs://sandbox.hortonworks.com:8020/data/analytics/raw/folder让我们考虑一下,在载入CT_Click_Basic.csv和CT_Click_Basic1.csv.gz文件后,我在HDFS中有以下文件[共享位置的文件名将是此处的文件夹名称,其内容将出现在part-xxxxx文件中]:[root@sandbox~]#hdfsdfs-l

Python Streaming : how to reduce to multiple outputs?(尽管使用 Java 是可能的)

我读了HadoopinAction并发现在Java中使用MultipleOutputFormat和MultipleOutputs类,我们可以将数据减少到多个文件,但我不确定如何实现使用Python流式处理也是一样。例如:/out1/part-0000mapper->reducer\out2/part-0000如果有人知道,听说过,做过类似的事情,请告诉我 最佳答案 DumboFeathers,一组与Dumbo一起使用的java类(一个python库,可以轻松为hadoop编写高效的p​​ythonM/R程序),在其outputcla

parallel-processing - HBase 如何跨区域服务器分区表?

请告诉我HBase如何跨区域服务器分区表。例如,假设我的行键是0到10M之间的整数,并且我有10个区域服务器。这是否意味着第一个区域服务器将存储键值为0-10M、第二个1M-2M、第三个2M-3M、...第十个9M-10M的所有行?我希望我的行键是时间戳,但我认为大多数查询将适用于最新日期,所有查询将仅由一个区域服务器处理,是这样吗?或者这些数据可能会以不同的方式传播?或者也许我可以以某种方式创建比我拥有的区域服务器更多的区域,所以(根据给定的示例)服务器1将具有key0-0,5M和3M-3,5M,这样我的数据会更平均地分布,是吗可能的?更新我刚刚发现有选项hbase.hregion.

hadoop - Spark : multiple spark-submit in parallel

我有一个关于ApacheSpark的一般性问题:我们有一些使用Kafka消息的spark流脚本。问题:它们在没有特定错误的情况下随机失败...有些脚本在我手动运行时什么都不做,其中一个失败并显示此消息:ERRORSparkUI:FailedtobindSparkUIjava.net.BindException:Addressalreadyinuse:Service'SparkUI'failedafter16retries!所以我想知道是否有一种特定的方法可以并行运行脚本?它们都在同一个jar里,我用Supervisor运行它们。Spark安装在ClouderaManager5.4onY

hadoop - pig 拉丁语 : Load multiple files from a date range (part of the directory structure)

我有以下场景-pig版使用0.70示例HDFS目录结构:/user/training/test/20100810//user/training/test/20100811//user/training/test/20100812//user/training/test/20100813//user/training/test/20100814/正如您在上面列出的路径中看到的,其中一个目录名称是一个日期戳。问题:我想加载日期范围为20100810到20100813的文件。我可以将日期范围的“从”和“到”作为参数传递给Pig脚本,但我如何在LOAD语句中使用这些参数。我能够做到以下几点te

php - Form::model 绑定(bind) Laravel 与 <select multiple>

我刚刚发现Form::model绑定(bind)存在,我很高兴(这太棒了)。我尝试过使用文本、电子邮件甚至选择,每次都有效。我的问题是,它可以与一起使用吗??如果是这样,我应该如何使用它以及在数据库中保存数组的正确方法是什么?(这可能很糟糕,但我将数组的所有选项与分隔符连接起来并将其保存为文本,我确信这不是正确的方法)。 最佳答案 就像这样:Form::select('menus[]',$menus,null,array('multiple'=>true,'class'=>'form-control'));做笔记:param1:应该

c# - 在 PHP 中是否有与 C# 的 Process.Start 等效的东西?

在.NET中Process类包含几个有用的属性/方法,允许开发人员访问进程相关信息。PHP中是否有任何等效的方法或类?PHP中是否有类似C#方法“Process.Start()”的等效方法? 最佳答案 1.参见ProgramexecutionFunctions除了PHP标准函数中没有方法/类/属性/命名空间的概念。PHP本质上是一种过程式编程语言,在上一个主要版本(5.3)中添加了很少的OOP结构和namespace支持作为新功能。这是人们批评它是一种“玩具”语言的原因之一。您可以随时访问所有PHP内置函数,没有讨厌的namespa