草庐IT

email_from

全部标签

bash - JQ,Hadoop : taking command from a file

我一直在享受JQ(Doc)提供的强大过滤器。Twitter的公共(public)API提供格式良好的json文件。我可以访问其中的大量内容,并且可以访问Hadoop集群。在那里,我决定不使用Elephantbird将它们加载到Pig中,而是在mapperstreaming中尝试JQ看看它是否更快。这是我的最终查询:nohuphadoopjar$HADOOP_HOME/share/hadoop/tools/lib/hadoop-streaming-2.5.1.jar\-files$HOME/bin/jq\-Dmapreduce.map.memory.mb=2048\-Dmapred.ou

hadoop - LAN 虚拟机上的 Web 应用程序 : curl -L works from other vms, 浏览器/主机上的 curl 没有

我正在我的LAN上设置Hadoop虚拟机集群,其中一个虚拟机(ResourceManager)上的进程提供了一个表现出奇怪行为的WebUI。所有虚拟机都从我的桌面运行,并已分配ips。我定位的URL是resourcemanager:8088,这是行为。从我桌面上运行的其他虚拟机:curl-vresourcemanager:8088返回HTTP302Found响应,Location:http://resourcemanager:8088/cluster。向上看,我看到这是一个重定向,curl-Lresourcemanager:8088成功检索到HTML。从运行虚拟机的桌面:尝试从(Chr

hadoop - 使用 spark/scala,我使用 saveAsTextFile() 到 HDFS,但是 hiveql("select count(*) from...) return 0

我创建了如下外部表...hive-e"createexternaltabletemp_db.temp_table(achar(10),bint)PARTITIONEDBY(PART_DATEVARCHAR(10))ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t'STOREDASTEXTFILELOCATION'/work/temp_db/temp_table'"我在IntelliJIDEA中将saveAsTextFile()与scala一起使用,如下所示...itemsRdd.map(_.makeTsv).saveAsTextFile("hdfs://w

mysql - 如何将配置单元日期转换为以下格式 : from 2016-11-28 to 28-Nov-16?

如何将配置单元日期转换为以下格式:从2016-11-28到28-Nov-16? 最佳答案 好吧,我实际上找到了一个更简单的解决方案:selectdate_format(current_date(),'dd-MMM-yy')这完成了所需要的。 关于mysql-如何将配置单元日期转换为以下格式:from2016-11-28to28-Nov-16?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/quest

hadoop - Spark : Not able to read data from hive tables

我已经创建了一个Maven项目作为pom.xml1.3.0org.apache.sparkspark-core_2.11${spark.version}org.scala-langscala-libraryorg.apache.sparkspark-sql_2.11${spark.version}mysqlmysql-connector-java5.1.6-->org.apache.sparkspark-hive_2.11${spark.version}我的类(class)正在从配置单元表中读取数据:importorg.apache.spark.sql.SQLContextimport

eclipse - IOException : Type mismatch in key from map: Text, 收到 LongWritable

我知道这个话题过去已经讨论过。但不幸的是我没能解决这个问题。我不断收到相同的IOException错误。我是Java和Hadoop的新手,这是我第一次尝试WordCount练习。对于任何语法错误或格式问题,我深表歉意。请让我知道我哪里出错了。Error:java.lang.Exception:java.io.IOException:Typemismatchinkeyfrommap:expectedorg.apache.hadoop.io.Text,receivedorg.apache.hadoop.io.LongWritable这是我的代码:MyDriverpackagep1;impo

hadoop - 具有身份映射器的 MapReduce 作业失败,返回 "Type mismatch in key from map"

只是为了学习基础,我正在尝试创建一个MapReduce程序,而无需在驱动程序类中定义映射器和化简器,以防万一它使用身份映射器和化简器。如果我只评论reducer但当我评论两者时给出错误,它工作正常。下面是我的驱动程序类代码。请提出建议。任何帮助将不胜感激。提前致谢!Jobjob=Job.getInstance(getConf(),"wordcount");job.setJarByClass(WordCountRun.class);//job.setMapperClass(WordCountMapper.class);//job.setReducerClass(WordCountRedu

scala - Spark : How to get the latest file from s3 in the last 10 days

当输入中不存在文件时,我试图在过去10天内从s3获取最新文件。问题是路径包含日期。我的路径是这样的:valpath="s3://bucket-info/folder1/folder2"valdate="2019/04/12"##YYYY/MM/DD我正在做这个=valupdate_path=path+"/"+date//thiswillbecomes3://bucket-info/folder1/folder2/2019/04/12deffileExist(path:String,sc:SparkContext):Boolean=FileSystem.get(getS3OrFileUr

java - Hadoop : Multiple Emits from one Map function

我正在用java编写一个小的hadoop程序,我的要求是从一个Map方法执行两个Emits,并在一个Reduce方法中处理这两个Emits。这可能吗?如果可能,我如何区分这两个Emits以便我可以在我的Reduce方法中以不同方式处理它们?我对此进行了很多搜索,但无法获得任何具体信息。我不允许使用任何外部库。 最佳答案 map/reduce任务将键/值作为输入。值不必是像WordCount这样的大多数示例中的字符串,它也可以是复杂的结构。你可以有一个结构,其中有两个字段对应于两个发射器,并且该键/值对将自动发送到一个缩减器。

hadoop - java.io.IOException : Type mismatch in value from map: expected org. apache.hadoop.io.IntWritable,收到 org.apache.hadoop.io.Text

我在主block中配置了Mapper、reducer类以及map输出键值类。我不明白抛出错误的代码有什么问题Typemismatchinvaluefrommap:expectedorg.apache.hadoop.io.IntWritable,recievedorg.apache.hadoop.io.Text有人可以帮忙吗?谢谢。代码是:importjava.io.IOException;importjava.lang.String;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntWritable;import