草庐IT

hadoop - 减少许多 hive -e 调用的 hive 启动时间

我以这种方式从命令行调用hive-e数百次:cathive_script.hql|parallel--gnuhive-e'{}'hive_script.hql中的每一行都可以以任意顺序独立运行。有没有--hiveconf参数可以减少启动时间?Apache网页似乎暗示可能在https://cwiki.apache.org/confluence/display/Hive/LanguageManual+VariableSubstitution"ThisisfrustratingasHivebecomescloselycoupledwithscriptinglanguages.TheHives

hadoop - 许多输入文件到 SINGLE 映射。哈多普。如何?

如何对多个输入文件只使用一张map?因为Hadoop为一个文件创建了一个映射器。对于所有文件,我只需要一个映射器。我尝试使用CombineFileInputFormat。它有一个映射器,但映射输入只包含一个文件。我需要该输入映射值来包含来自所有文件(文本格式)的数据,如下所示:输入map值:datafromfile1.txtdatafromfile2.txtdatafromfile3.txtpublicclassWholeFileInputFormatextendsCombineFileInputFormat{publicWholeFileInputFormat(){super();s

algorithm - Hadoop MapReduce - 具有少量键和每个键许多值的 Reducer

Hadoop天生就是为处理大数据而创建的。但是,如果Mappers的输出也很大,太大而无法容纳Reducers内存,会​​发生什么情况?假设我们正在考虑要聚类的大量数据。我们使用一些分区算法,它会找到指定数量的元素“组”(簇),这样一个簇中的元素是相似的,但属于不同簇的元素是不同的。通常需要指定簇数。如果我尝试将K-means实现为最著名的聚类算法,一次迭代将如下所示:映射阶段-将对象分配到最近的质心Reducephase-根据集群中的所有对象计算新的质心但是如果我们只有两个集群会怎样?在那种情况下,大数据集将被分成两部分,并且只有两个键,每个键的值将包含大数据集的一半。我不明白的是-

hadoop - 我的 hdfs 总是向许多损坏的 block 报告

我有一个运行hdfs(hadoop2.6.0)的集群,但它的名称节点向我报告了一个关于丢失block的错误:Thereare102missingblocks.Thefollowingfilesmaybecorrupted:当我跳转到名称节点并读取登录(名称节点文件日志)时,我收到许多警告,例如:ErrorreportfromDatanodeRegistration(10.3.24.71,datanodeUuid=b1aa43eb-bd9c-4e1a-b919-d7c99ad0fcdf,infoPort=50075,ipcPort=50020,storageInfo=lv=-56;cid

apache-spark - Spark Streaming 创建许多小文件

我已经实现了一个SparkStreaming作业,它将过去6个月收到的事件流式传输到HDFS。它在HDFS中创建许多小文件,我希望它们的每个文件大小为HDFS的128MB(block大小)。如果我使用追加模式,所有数据都将写入一个parquet文件。如何配置Spark为每128MB数据创建一个新的HDFSparquet文件? 最佳答案 Spark会在写入之前在对象上写入与分区一样多的文件。这可能真的很低效。要减少部分文件的总数,试试这个,它会检查对象的总字节大小并将其重新调整为+1最佳大小。importorg.apache.spar

hadoop - 允许多个 hadoop/EMR 任务在关闭前失败

我正在尝试在AmazonElasticMapReduce上使用hadoop,我有数千个maptask要执行。如果一小部分任务失败,我没关系,但是,亚马逊关闭了工作,当第一个映射器失败时,我丢失了所有结果。有没有我可以用来增加允许的失败作业数量的设置?谢谢。 最佳答案 这是hadoop的答案:Isthereanypropertytodefinefailedmapperthreshold要在EMR中使用上述设置,请查看:http://docs.aws.amazon.com/ElasticMapReduce/latest/Develope

优雅切换许多功能

假设我有一些可以做事的功能:functiondoStuff(){console.log('doingstuff');}functiondoThings(){console.log('doingthings');}functiondoIt(){console.log('doingit');}functiondoThis(){console.log('doingthis');}functiondoThat(){console.log('doingthat');}然后与许多禁用其行为的许多人:functionstopStuff(){console.log('stoppingstuff');}func

Hadoop HDFS - 保留许多部分文件或 concat?

在Hadoop中运行map-reduce作业后,结果是一个包含部分文件的目录。part文件的数量取决于reducer的数量,可以达到几十个(在我的例子中是80个)。保留多个部分文件是否会影响futuremap-reduce操作的性能,是好是坏?采取额外的缩减步骤并合并所有部分会提高还是降低进一步处理的速度?请仅引用map-reduce性能问题。我不关心以任何其他方式拆分或合并这些结果。 最佳答案 在零件目录上运行进一步的mapreduce操作应该对整体性能几乎没有影响。原因是Hadoop做的第一步是根据大小拆分输入目录中的数据,并将

hadoop - Hive 中的许多分区

对于“id”列,我有大约200,000个不同的值,我将它用作动态分区Hive表之一的分区键。现在分区已创建,当我尝试查询时(我使用了简单的Select*查询),它总是返回以下错误:FAILED:SemanticExceptionorg.apache.hadoop.hive.ql.metadata.HiveException:org.apache.thrift.transport.TTransportException:java.net.SocketTimeoutException:Readtimedout谁能告诉我为什么? 最佳答案

C# 计时器(Timer )WPF窗体出现“System.InvalidOperationException:“调用线程必须为 STA,因为许多 UI 组件都需要。””

大家在WPF窗体使用计时器(Timer)的时候可能会出现一个这样的错误“System.InvalidOperationException:“调用线程必须为STA,因为许多UI组件都需要。””,这个错误一般都是线程的问题,我们可以使用另一种计时器(DispatcherTimer)来避免发生这种问题。//创建一个定时器,每隔5秒执行一次Task方法DispatcherTimertimer;//////DispatcherTimer计时器/////////privatevoidDispatcherTimerFuction(){timer=newDispatcherTimer();timer.Inte