parquet-mr

java - 我的 cdh5.2 集群在运行 hbase MR 作业时出现 FileNotFoundException

我的cdh5.2集群无法运行hbaseMR作业。例如，我将hbase类路径添加到hadoop类路径中:vi/etc/hadoop/conf/hadoop-env.sh添加行:exportHADOOP_CLASSPATH="/usr/lib/hbase/bin/hbaseclasspath:$HADOOP_CLASSPATH"当我运行时:hadoopjar/usr/lib/hbase/hbase-server-0.98.6-cdh5.2.1.jar行计数器“我的表”我得到以下异常:14/12/0903:44:02WARNsecurity.UserGroupInformation:Priv

时出 FileNotFoundException java hadoop apache mapreduce hbase cloudera-cdh

hadoop - 在独立模式下编写 Parquet 文件是可行的..多工作模式失败

在Spark版本1.6.1(代码在Scala2.10中)中，我试图将数据帧写入Parquet文件:importsc.implicits._valtriples=file.map(p=>_parse(p,"",true)).toDF()triples.write.mode(SaveMode.Overwrite).parquet("hdfs://some.external.ip.address:9000/tmp/table.parquet")当我在开发模式下执行时，一切正常。如果我在同一台机器上的docker环境(单独的docker容器)中以独立模式设置一个master和一个worker，

可行编写 34 scala apache hadoop apache-spark hdfs parquet spark-jobserver

hadoop - 将数据作为 Parquet 从 SQL Server 加载到 S3 - AWS EMR

我们目前在SQLServer中有我们的数据，我们正在尝试将它们作为Parquet文件移动到我们的s3存储桶中。目的是在AWSEMR(主要是Spark、Hive和Presto)中分析这个s3数据。我们不想将数据存储在HDFS中。这里有哪些选择？据我们所知，似乎我们可以使用spark或sqoop进行此导入。虽然在这种情况下sqoop由于并行性(并行数据库连接)比Spark快，但似乎无法将parquet文件从sqoop写入s3-Sqoop+S3+ParquetresultsinWrongFSerror.解决方法是移动到hdfs，然后移动到s3。但是，这似乎效率不高。如何使用SparkSQL从

Parquet hadoop java SQLOperation section amazon-s3 hive sqoop

hadoop - 这种架构在 Hadoop MR 中可行吗？

在HadoopMapReduce中是否可能存在以下架构？使用分布式键值存储(HBase)。因此，除了值之外，还会有一个与值关联的时间戳。Map&Reduce任务迭代执行。map，在每次迭代中应该接受在前一次迭代中添加到商店的值(也许是具有最新时间戳的值？)。Reduce应该接收Map的输出以及存储中的键与reduce在当前迭代中必须处理的键匹配的对。reduce的输出进入商店。如果可能，应扩展哪些类(例如:InputFormat、Reduce的run())，以便代替常规操作进行上述操作。如果这是不可能的，是否有任何替代方法可以实现同样的目标？最佳答案

可行 hadoop section 的 Reduce mapreduce hbase

java - 如何从 Hadoop MR 中的非结构化数据生成 JSON 对象？

我有一个数据集parent，child--------------一、二一、三b,db,ec,fc,gg,h克，我p,qp,rq,sq,t我想转换成JSON对象。我正在尝试做但不知道正确的方法。所以我只是创建了一个可能有助于解决它的数据集的树结构。你能给我建议怎么做才能实现这一目标吗？我面临问题，如何识别父节点。如果有两棵树，如图所示。请建议我该怎么做。这个输出应该是{a:{b:{d,e},c:{g:{h,i},f}},p:{q:{s,t},r}} 最佳答案首先，我将从寻找所有根开始。这可以通过使用一些现有模块(我不知道是哪个..

结构化 Hadoop section strong br java json mapreduce apache-pig

hadoop - 如何避免 Parquet MemoryManager 异常

我正在从PIG(v0.15.0)脚本生成一些Parquet(v1.6.0)输出。我的脚本采用多个输入源并将它们与一些嵌套连接起来。脚本运行没有错误，但随后在STORE期间我得到的操作:2016-04-1917:24:36,299[PigTezLauncher-0]INFOorg.apache.pig.backend.hadoop.executionengine.tez.TezJob-DAGStatus:status=FAILED,progress=TotalTasks:249Succeeded:220Running:0Failed:1Killed:28FailedTaskAttempt

MemoryManager Parquet code hadoop mapreduce apache-pig

hadoop - MR reducer 中的输出 HBase 增量

我有一个写入HBase的mapreduce作业。我知道您可以使用TableMapReduceUtil从reducer输出Put和Delete。是否可以发出Increment来增加HBase表中的值，而不是发出Puts和Gets？如果是，怎么做，如果不是，那为什么？我正在使用CDH3publicstaticclassTheReducerextendsTableReducer{publicvoidreduce(Textkey,Iterablevalues,Contextcontext)throwsIOException,InterruptedException{///....DOSOMES

reducer hadoop code section 射器 mapreduce hbase counter increment

scala - 使用 Apache Spark 将 MongoDB 数据保存为 parquet 文件格式

我是Apachespark和Scala编程语言的新手。我想要实现的是从我的本地mongoDB数据库中提取数据，然后将其保存在parquetformat中。将ApacheSpark与hadoop连接器结合使用到目前为止，这是我的代码:packagecom.examplesimportorg.apache.spark.{SparkContext,SparkConf}importorg.apache.spark.rdd.RDDimportorg.apache.hadoop.conf.Configurationimportorg.bson.BSONObjectimportcom.mongodb

MongoDB parquet code section import scala hadoop apache-spark mongodb-hadoop

hadoop - 基于 Parquet 文件使用配置单元创建表

我有一个parquet文件存储在hdfs中，路径中名为small:/user/s/file.parquet并希望在配置单元中创建一个包含其内容的表。文件的架构非常复杂，我希望配置单元自动从文件中导入架构。我想做这样的事情:CREATEEXTERNALTABLEtableNameSTOREDASPARQUETLOCATION'file/path'这可能吗？谢谢你的帮助。最佳答案不幸的是，无法在Hive中的单个文件上创建外部表，只能用于目录。如果/user/s/file.parquet是目录中唯一的文件，您可以将位置指定为/user

配置单 Parquet section code hadoop hive bigdata schema

hadoop - 如何中止映射器(或 reducer )内的 MR 作业

我试图在map方法中抛出IOExceptions，但MR作业没有停止。在抛出大量IOException后，作业将停止。有没有办法通过抛出异常或一些简单的调用来停止整个工作？谢谢。最佳答案这不是Hadoop的理想用例，也不是好的做法，但您可以直接从代码内部扼杀您的工作。因此，每当您达到希望工作停止的状态时，记录需要的内容并终止您的工作。这可以使用旧的mapredAPI或使用Job.killJob()来完成RunningJob.killjob()。您应该分别在configure()或setup()中获取对RunningJob或Job

射器 reducer code section stackoverflow hadoop mapreduce

24 25 262728 29 30