草庐IT

process_txt

全部标签

hadoop - Pig Cassandra process very slow (Heart beat) with oozie

我有一个pig脚本,它将从cassandra获取所有数据,进行少量转换并存储到hdfs上。在pig的grunt控制台执行时,cassandra数据量大,耗时将近30分钟。但是当我使用oozie工作流执行相同的操作时,它执行但需要很长时间,将近一个半小时。当我检查hadoop日志时,这就是它所说的。2013-11-1901:20:00,871[main]INFOorg.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher-Moreinformationat:master:50030/jobde

hadoop - Nutch 2.0 和 Hadoop。如何防止缓存 conf/regex-urlfilter.txt

我在一台机器上安装了nutch2.x和hadoop1.2.1。我配置seed.txt、conf/regex-urlfilter.txt并运行命令crawlurls/seed.txtTestCrawlhttp://localhost:8088/solr/2然后我想更改conf/regex-urlfilter.txt中的规则我在2个文件中更改了它:~$find.-name'regex-urlfilter.txt'./webcrawer/apache-nutch-2.2.1/conf/regex-urlfilter.txt./webcrawer/apache-nutch-2.2.1/runt

hadoop - 本地主机 : ERROR: Cannot set priority of datanode process 2984

我设置并配置了一个多节点的Hadoop。启动时会出现我的Ubuntu是16.04,Hadoop是3.0.2Startingnamenodeson[master]Startingdatanodeslocalhost:ERROR:Cannotsetpriorityofdatanodeprocess2984Startingsecondarynamenodes[master]master:ERROR:Cannotsetpriorityofsecondarynamenodeprocess31752018-07-1702:19:39,470WARNutil.NativeCodeLoader:Una

scala - 我应该添加哪个依赖项以使用 intelliJ 使用 scala-spark 在 s3 中获取 txt 文件?

我正在使用IntelliJide和scala语言,我想使用IAM用户凭证访问存储在AWSS3中的文本文件。我还没有使用依赖项在我的系统上下载Hadoop。我已经使用Aws依赖项和jets3t依赖项完成了此操作。但我想用Spark来做。我遇到的基本错误是:java.lang.RuntimeException:java.lang.ClassNotFoundException:Classorg.apache.hadoop.fs.s3a.S3AFileSystemnotfound,java.lang.RuntimeException:java.lang.ClassNotFoundExcepti

image-processing - 使用 Hadoop MapReduce 进行图像处理

很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开,visitthehelpcenter.关闭11年前。我正在motionestimation上做一个项目在视频序列的两帧之间使用BlockMatchingAlgorithm并使用SAD指标。它涉及在窗口大小中计算引用帧的每个block和候选帧的每个block之间的SAD,以获得两个帧之间的运动矢量。我想使用MapReduce实现相同的功能。以键值对的形式拆分框架,但我无法弄清楚逻辑,因为我到处都能看到wordCount或查询搜索问题,这与我的不相似

java - SequenceFile 到 .txt 转换

有什么方法可以将序列文件转换为.txt文件吗?sequencefile是在hadoop作业之后生成的,当我尝试使用SequenceFileReader读取它时给我一个EOFException,尽管作业成功完成。所以我虽然可以将序列文件复制到我的本地系统,然后在可能的情况下将其转换为txt格式。 最佳答案 将文件从seq更改为text不是一个合适的解决方案..试着看看这个问题..你可以尝试这样的事情来读取键/值对-publicclassSequenceFileReader{publicstaticvoidmain(Stringargs

java - Hadoop Process从Java代码开始

我目前正在尝试在我的Java代码中启动ApacheHadoop作业。在进入我的问题之前,我想提供一些有关我的代码和工作环境的信息。由于我在开发环境(Ubuntu14.04、EclipseKepler、OpenJDKv7)上工作,所以我在独立模式下设置了Hadoop。详细地说,我只在我的.bashrc文件中做了以下更改:exportJAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64exportHADOOP_INSTALL=/home/db2inst1/hadoopexportPATH=$PATH:$HADOOP_INSTALL/bin:$HADOOP_

hadoop - Dataproc 上的 "processing node"是什么?

数据处理documentation表示抢占式虚拟机仅作为处理节点附加。什么是处理节点? 最佳答案 当在Dataproc中使用可抢占VM时,可抢占VM将不会用作HDFSDataNode。这样做的主要目的是为了在VM被抢占时不会丢失或复制不足的数据。 关于hadoop-Dataproc上的"processingnode"是什么?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/3961

scala - 卡夫卡+ Spark 流: Multi topic processing in single job

Kafka中有40个主题和编写的SparkStreaming作业,每个主题处理5个表。sparkstreaming作业的唯一目标是读取5个kafka主题并将其写入相应的5个hdfs路径。大多数时候它工作正常,但有时它会将主题1数据写入其他hdfs路径。下面的代码试图归档一个sparkstreaming作业来处理5个主题并将其写入相应的hdfs,但是这个将主题1数据写入HDFS5而不是HDFS1。请提供您的建议:importjava.text.SimpleDateFormatimportorg.apache.kafka.common.serialization.StringDeseria

hadoop - Spark 流 : How to process using multiple inputs to job?

输入1:KV数据流。输入2:一些静态数据分区(用于处理输入1中的流)问题可以建模为下图:与HDFS/RDD分区共置:我们如何确保流式任务Map1、Map2和Map3在存在HDFS/RDD分区的机器上运行?图像描述:假设K是流式key(不是元组)。FirstMap将其转换为元组(具有空值)并将其广播给3个映射器。每个映射器都在不同的节点上运行,这些节点包含RDD(或HDFS文件,这是第二个输入和静态数据)的不同分区。每个Mapper使用RDD分区来计算键的值。最后,我们要聚合键的值(使用reduceByKey_+_)。 最佳答案 如果