Schema

hadoop - 不能在 PigStorage LOAD 中同时使用 -tagPath 和 schema

我对PigStorage及其-tagPath选项有一个有趣的行为，我不知道我是否做错了什么(模式定义错误？)或如果这是Pig中的限制/错误。我的文件看起来像这样(最基本的，我能想到的):AB现在我可以像这样加载和子选择这个文件了:vals=LOAD'/user/guest/test.txt'USINGPigStorage(';')AS(char:chararray);DUMPvalsone_column=FOREACHvalsGENERATEchar;DUMPone_column结果:(A)(B)(A)(B)但是，当我尝试使用-tagPath获取文件路径时(我在访问整个数据文件夹时需要

hadoop - Pig 中的包和元组模式

我试图为我尝试使用JsonLoader加载的一些数据指定模式，我要上传的数据的格式为Features:["Speedy","New","Automatic",..]对于每条记录，特征的数量不是固定的，它可以不同。我在模式中将其表示为:Features:bag{a:tuple(t:chararray)}但是它不起作用。有人可以用正确的语法帮助我并指出我错在哪里吗？最佳答案字段名称规范是不必要的，因为您有没有任何字段名称的简单数组。试试这个:a=load'a.json'usingJsonLoader('value:int,featu

hadoop Pig section 34 code tuples schema apache-pig cloudera

csv - 最佳实践 : how to handle data records with changing "schema"/ "columns"

这是一个最佳实践问题。我们的设置是一个hadoop集群，将(日志)数据存储在hdfs中。我们获取csv格式的数据，每天一个文件。在hadoop中对这些文件运行MR作业没问题，只要文件的“架构”(尤其是列数)不变即可。但是，我们面临的问题是，我们要分析的日志记录最终会发生变化，因为可能会添加或删除列。我想知道你们中的一些人是否愿意分享针对此类情况的最佳实践。我们目前能想到的最好的方式是将数据存储为json格式而不是csv。但是，这会增加(至少增加一倍)所需的存储空间。我们还遇到了ApacheAvro和ApacheParquet，并且刚刚开始对此进行研究。欢迎就此问题提出任何想法和意见。

amp 34 section stackoverflow 的 csv hadoop bigdata avro parquet

hadoop - PIG UDF 中的表架构

在将数据加载到Hive表之前，我必须在平面文件中格式化数据。CF32|4711|00010101Z|+34.883|98562AS1D|N8594ãä|00|2该文件是管道分隔的，我需要在平面文件的不同列上应用不同的清理和格式化功能。我有Clean_Text、Format_Date、Format_TimeStamp、Format_Integer等多个函数。我的想法是将架构作为构造函数传递给我的UDF，并在pig中调用平面文件上的不同函数。A=LOAD'call_detail_records'USINGorg.apache.hcatalog.pig.HCatLoader();DESCRI

hadoop PIG code section schema hive apache-pig hcatalog udf

map - PigLatin 映射键值

我是第一次使用一些PigLatin代码，希望能够通过首先将键值生成为字符数组，然后使用该键来访问map中的值。例如，categoryIds是我的map，catIds=foreachfilteredContextsgenerateelementId,SUBSTRING(categoryAndConfidence,0,2)ascatId;categoryNames=foreachcatIdsgenerateelementId,categoryIds#catIdascatName;这是我收到的错误:ERROR1000:解析时出错。在第28行第64列遇到“”catId“”。期待其中之一:“无效

PigLatin map Schema null FieldSchema hadoop apache-pig

hadoop - 来自 avro.serde.schema 的错误 - "CannotDetermineSchemaSentinel"

在Hadoop(CDH4.6和Hive0.10)上运行作业时，出现以下错误:avro.serde.schema{“类型”:“记录”，“名称”:“CannotDetermineSchemaSentinel”，“命名空间”:“org.apache.hadoop.hive”，“字段”:[{"name":"ERROR_ERROR_ERROR_ERROR_ERROR_ERROR_ERROR","type":"string"},{"name":"Cannot_determine_schema","type":"string"},{"name":"check","type":“字符串”}，{"nam

CannotDetermineSchemaSentinel amp section schema string hadoop hive avro

hadoop - 如何将mysql DDL转换成hive DDL

给定一个包含用于在MySQL数据库中创建表的DDL的SQL脚本，我想将该脚本转换为HiveDDL，以便我可以将表创建到hive中。我本可以自己编写一个解释器，但我认为我可能会错过一些细节(例如数据格式转换、int、bigint、时间、日期等)，因为我对hiveDDL还很陌生。我看过这个帖子Howtotransfermysqltabletohive?,其中提到了sqoophttp://archive.cloudera.com/cdh/3/sqoop/SqoopUserGuide.html.然而，据我所知，sqoop肯定会翻译DDL，但只是作为一个中间步骤(因此翻译后的DDL无处可寻)。我

DDL hadoop keyword code keyword_id schema translation hive

使用 Hadoop Streaming 进行 avro 转换的 python 脚本

我有10GB的输入文件，我正在尝试使用pythonhadoop流将其转换为avro，工作成功但我无法使用avro阅读器读取输出。它给出“utf8”编解码器无法解码位置13924中的字节0xb4:无效的起始字节。这里的问题是我将标准输出用于hadoop流的映射器输出，如果我使用文件名并在本地使用脚本，则avro输出是可读的。任何想法，如何解决这个问题？我认为问题在于处理流媒体中的键/值....hadoopjar/opt/cloudera/parcels/CDH/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming.jar

Streaming Hadoop 34 import schema python

hadoop - 即时消息的 HBASE 模式设计

我们一直在实现即时消息服务，并希望使用HBEASE来存储消息历史记录(并使用Redis来缓存正在进行的对话)。用户的传入消息看起来像Userid(给谁)时间邮件正文(与发件人、邮件正文组合......)关于架构设计:选项A:每行一条消息行键:md5(userid)+timesample列/valye:空/消息选项B:每行一个用户行键:md5(userid)column/valye:时间/消息你能帮我弄清楚pro和cont吗？谢谢聊天类型包括:peer-2-peer，群聊最佳答案据我所知，Facebook在消息系统使用hbase方

即时 hadoop section facebook noreferrer schema hbase

hadoop - 使用架构文件创建一个 Parquet 支持的 Hive 表

Clouderadocumentation，展示了一种简单的方法来“使用Avro模式文件创建Avro支持的Hive表。”这很好用。我想对Parquet支持的Hive表做同样的事情，但是相关的documentation在这种情况下，列出了每个列类型，而不是从模式中读取。是否有可能以与Avro数据相同的方式从模式中读取Parquet列？最佳答案目前，答案似乎是否。Hive有一个Unresolved问题。https://issues.apache.org/jira/browse/PARQUET-76这个问题最近很活跃，所以希望Hive

Parquet hadoop section documentation noreferrer hive schema avro

45 46 474849 50 51