草庐IT

parquet-mr

全部标签

java - 我的 cdh5.2 集群在运行 hbase MR 作业时出现 FileNotFoundException

我的cdh5.2集群无法运行hbaseMR作业。例如,我将hbase类路径添加到hadoop类路径中:vi/etc/hadoop/conf/hadoop-env.sh添加行:exportHADOOP_CLASSPATH="/usr/lib/hbase/bin/hbaseclasspath:$HADOOP_CLASSPATH"当我运行时:hadoopjar/usr/lib/hbase/hbase-server-0.98.6-cdh5.2.1.jar行计数器“我的表”我得到以下异常:14/12/0903:44:02WARNsecurity.UserGroupInformation:Priv

hadoop - 在独立模式下编写 Parquet 文件是可行的..多工作模式失败

在Spark版本1.6.1(代码在Scala2.10中)中,我试图将数据帧写入Parquet文件:importsc.implicits._valtriples=file.map(p=>_parse(p,"",true)).toDF()triples.write.mode(SaveMode.Overwrite).parquet("hdfs://some.external.ip.address:9000/tmp/table.parquet")当我在开发模式下执行时,一切正常。如果我在同一台机器上的docker环境(单独的docker容器)中以独立模式设置一个master和一个worker,

hadoop - 将数据作为 Parquet 从 SQL Server 加载到 S3 - AWS EMR

我们目前在SQLServer中有我们的数据,我们正在尝试将它们作为Parquet文件移动到我们的s3存储桶中。目的是在AWSEMR(主要是Spark、Hive和Presto)中分析这个s3数据。我们不想将数据存储在HDFS中。这里有哪些选择?据我们所知,似乎我们可以使用spark或sqoop进行此导入。虽然在这种情况下sqoop由于并行性(并行数据库连接)比Spark快,但似乎无法将parquet文件从sqoop写入s3-Sqoop+S3+ParquetresultsinWrongFSerror.解决方法是移动到hdfs,然后移动到s3。但是,这似乎效率不高。如何使用SparkSQL从

hadoop - 这种架构在 Hadoop MR 中可行吗?

在HadoopMapReduce中是否可能存在以下架构?使用分布式键值存储(HBase)。因此,除了值之外,还会有一个与值关联的时间戳。Map&Reduce任务迭代执行。map,在每次迭代中应该接受在前一次迭代中添加到商店的值(也许是具有最新时间戳的值?)。Reduce应该接收Map的输出以及存储中的键与reduce在当前迭代中必须处理的键匹配的对。reduce的输出进入商店。如果可能,应扩展哪些类(例如:InputFormat、Reduce的run()),以便代替常规操作进行上述操作。如果这是不可能的,是否有任何替代方法可以实现同样的目标? 最佳答案

java - 如何从 Hadoop MR 中的非结构化数据生成 JSON 对象?

我有一个数据集parent,child--------------一、二一、三b,db,ec,fc,gg,h克,我p,qp,rq,sq,t我想转换成JSON对象。我正在尝试做但不知道正确的方法。所以我只是创建了一个可能有助于解决它的数据集的树结构。你能给我建议怎么做才能实现这一目标吗?我面临问题,如何识别父节点。如果有两棵树,如图所示。请建议我该怎么做。这个输出应该是{a:{b:{d,e},c:{g:{h,i},f}},p:{q:{s,t},r}} 最佳答案 首先,我将从寻找所有根开始。这可以通过使用一些现有模块(我不知道是哪个..

hadoop - 如何避免 Parquet MemoryManager 异常

我正在从PIG(v0.15.0)脚本生成一些Parquet(v1.6.0)输出。我的脚本采用多个输入源并将它们与一些嵌套连接起来。脚本运行没有错误,但随后在STORE期间我得到的操作:2016-04-1917:24:36,299[PigTezLauncher-0]INFOorg.apache.pig.backend.hadoop.executionengine.tez.TezJob-DAGStatus:status=FAILED,progress=TotalTasks:249Succeeded:220Running:0Failed:1Killed:28FailedTaskAttempt

hadoop - MR reducer 中的输出 HBase 增量

我有一个写入HBase的mapreduce作业。我知道您可以使用TableMapReduceUtil从reducer输出Put和Delete。是否可以发出Increment来增加HBase表中的值,而不是发出Puts和Gets?如果是,怎么做,如果不是,那为什么?我正在使用CDH3publicstaticclassTheReducerextendsTableReducer{publicvoidreduce(Textkey,Iterablevalues,Contextcontext)throwsIOException,InterruptedException{///....DOSOMES

scala - 使用 Apache Spark 将 MongoDB 数据保存为 parquet 文件格式

我是Apachespark和Scala编程语言的新手。我想要实现的是从我的本地mongoDB数据库中提取数据,然后将其保存在parquetformat中。将ApacheSpark与hadoop连接器结合使用到目前为止,这是我的代码:packagecom.examplesimportorg.apache.spark.{SparkContext,SparkConf}importorg.apache.spark.rdd.RDDimportorg.apache.hadoop.conf.Configurationimportorg.bson.BSONObjectimportcom.mongodb

hadoop - 基于 Parquet 文件使用配置单元创建表

我有一个parquet文件存储在hdfs中,路径中名为small:/user/s/file.parquet并希望在配置单元中创建一个包含其内容的表。文件的架构非常复杂,我希望配置单元自动从文件中导入架构。我想做这样的事情:CREATEEXTERNALTABLEtableNameSTOREDASPARQUETLOCATION'file/path'这可能吗?谢谢你的帮助。 最佳答案 不幸的是,无法在Hive中的单个文件上创建外部表,只能用于目录。如果/user/s/file.parquet是目录中唯一的文件,您可以将位置指定为/user

hadoop - 如何中止映射器(或 reducer )内的 MR 作业

我试图在map方法中抛出IOExceptions,但MR作业没有停止。在抛出大量IOException后,作业将停止。有没有办法通过抛出异常或一些简单的调用来停止整个工作?谢谢。 最佳答案 这不是Hadoop的理想用例,也不是好的做法,但您可以直接从代码内部扼杀您的工作。因此,每当您达到希望工作停止的状态时,记录需要的内容并终止您的工作。这可以使用旧的mapredAPI或使用Job.killJob()来完成RunningJob.killjob()。您应该分别在configure()或setup()中获取对RunningJob或Job