parquet-mr

hadoop - 带有 MR1 的 CDH5.2 中的 distcp2

当distcp从s3到本地集群时，我们需要限制映射器带宽。所以我从https://repository.cloudera.com下载了hadoop-distcp-2.5.0-cdh5.2.0-20141009.063640-188.jar这是链接:https://repository.cloudera.com/artifactory/public/org/apache/hadoop/hadoop-distcp/2.5.0-cdh5.2.0-SNAPSHOT/hadoop-distcp-2.5.0-cdh5.2.0-20141009.063640-188.jar然后按照distcp命令运

java - 输入输出同一个目录，MR会不会覆盖记录？

我想在MR运行期间过滤掉过时的记录并添加新记录。我计划编写一个映射器，它将从临时目录(新输入)和存储库目录(以前的结果)中读取记录。当映射器运行时，它将新旧一起摄取。如果映射器只写出时间戳小于30天的记录，并且我也使用存储库目录进行输出，那么新结果是否会覆盖旧结果，从而有效地添加新内容并删除过时的内容？我在Java1.7中使用Apache库。最佳答案它会抛出一个错误。Hadoop不会输出到现有目录。它总是创建目录。因此，输出目录一定不存在。如果是这样，它会抛出一个错误。我假设您使用的是标准FileOutputFormat或其某些

java 输入输出 section 射器储库 hadoop mapreduce

hadoop - 如果我只想将 HCatalog 与 Pig 和 MR 一起使用，是否需要安装 Hive？

想要使用HDP2.2发行版，但计划仅将Pig+MR用于我的ETL作业。希望使用HCatalog记录模式，但希望避免必须设置Hive。我需要它来拥有HCatalog吗？最佳答案由于HCatalog是Hive的一部分，是的，您需要安装Hive才能使用HCatalog。(引用https://hive.apache.org/javadocs/r1.0.0/api/hcatalog/core/index.html) 关于hadoop-如果我只想将HCatalog与Pig和MR一起使用，是否需要

HCatalog hadoop section https hive apache-pig

hadoop - 无法创建列数据类型为 'STRING' 的 Parquet 配置单元表

我正在使用hive-0.12。我使用以下查询成功创建了Parquet表。hive>createtableptest1(aINT,bDOUBLE)ROWFORMATSERDE'parquet.hive.serde.ParquetHiveSerDe'storedasINPUTFORMAT'parquet.hive.DeprecatedParquetInputFormat'OUTPUTFORMAT'parquet.hive.DeprecatedParquetOutputFormat';OKTimetaken:0.124seconds但是当我使用“STRING”作为列数据类型时，它失败了。hi

配置单 amp parquet jar hive hadoop

hadoop - 通过 Pig 转储中间 MR 作业数据

我对Pig的正常行为有疑问。假设我正在编写如下Pig脚本:A=LOADsomeInput;B=FILTERABY`somecondition1`;C=FILTERABY`somecondition2`;D=GROUPBBY`somecolumn1`;E=GROUPCBY`somecolumn1`;storeD;storeE;现在在这里，当Pig实际传递数据时，假设Pig创建了2个作业来执行此脚本:Job1:FiltersByCondition1andCondition2Job2:PerformstheGroupByOperation.因此Job1的输出数据被Job2用作输入；Pig是将

hadoop Pig section some apache-pig

hadoop - 使用 Apache Spark Streaming 和 Dataframes 交互式搜索 Parquet 存储的数据

我有大量数据作为Parquet文件存储在我的HadoopHDFS上我正在使用Spark流以交互方式接收来自Web服务器的查询，并将接收到的查询转换为SQL，以便使用SparkSQL在我的数据上运行。在此过程中，我需要运行多个SQL查询，然后通过合并或减去各个查询的结果来返回一些聚合结果。有没有什么方法可以优化和提高流程速度，例如，对已收到的数据帧而不是整个数据库运行查询？有没有更好的方式来交互查询Parquet存储的数据并给出结果？谢谢! 最佳答案如果您在同一个RDD上运行多个查询，您可以通过在查询之前使用.cache()缓存RD

Dataframes Streaming section noreferrer noopener hadoop apache-spark apache-spark-sql spark-streaming parquet

hadoop - Sqoop + S3 + Parquet 导致 Wrong FS 错误

尝试使用Sqoop将Parquet格式的数据导入S3时，如下:bin/sqoopimport--connect'jdbc:[conn_string]'--table[table]--target-dirs3a://bucket-name/--hive-drop-import-delims--as-parquetfile...我收到以下错误:ERRORtool.ImportTool:ImportedFailed:WrongFS:s3a://bucket-name/,expected:hdfs://localhost:9000我在导入非parquet数据或直接通过HDFS使用s3a时没有问

amp Parquet section code stackoverflow hadoop amazon-s3 sqoop

scala - 使用 Spark 将 csv.gz 文件转换为 Parquet

我需要使用Spark(首选Scala)将AWSS3和HDFS中文件夹中的csv.gz文件转换为Parquet文件。数据的一列是时间戳，我只有一周的数据集。时间戳格式为:'yyyy-MM-ddhh:mm:ss'我想要的输出是，对于每一天，都有一个文件夹(或分区)，其中包含该特定日期的Parquet文件。所以会有7个输出文件夹或分区。我对如何执行此操作只有一个模糊的想法，我脑子里只有sc.textFile。Spark中是否有可以转换为Parquet的函数？我如何在S3和HDFS中实现它？谢谢你的帮助。最佳答案如果您查看SparkDa

Parquet scala section Spark hadoop amazon-s3 apache-spark

hadoop - 具有复杂数据类型的 parquet 格式的 Hive DDL

有人可以帮我为这个以Parquet格式处理和存储的数据集创建HiveDDL吗。属性:{"freq":"8600","id":"23266","array":[{"ver":"201.0.0.F","key_ver":"201.0.0.F","key":"001I1SS","code":"ACDEE","prod_code":"DSADVVSS","prod_key":"001123"}],"ipm":null,"offline":"1234234209600"} 最佳答案 CREATETABLEmy_table(freqINT,id

parquet hadoop 34 code section hive ddl

sql - 尝试将数据从 Impala Parquet 表复制到非 Parquet 表

我在Impala中移动数据，而不是我的设计，我丢失了一些数据。我需要将数据从Parquet表复制回它们原来的非Parquet表。最初，开发人员使用脚本中的一个简单的一行来完成此操作。由于我对数据库一无所知，尤其是对Impala，我希望你能帮助我。这是用于转换为我需要反转的Parquet表的一行。impalaShell-iusedbINVALIDATEMETADATA;CREATETABLELIKESTOREDASPARQUETTABLE;INSERTOVERWRITESELECT*FROM;谢谢。最佳答案你有没有试过简单地做CR

Parquet Impala section table sql hadoop

13 14 151617 18 19