HIVE

hadoop - "Hello World !"用于 hadoop/hbase？

我刚刚设置了我的前4个节点、HadoopDataPlatform2.0堆栈、集群。有没有好的“HelloWorld”入门程序数据库？pig？hive？我最终将解决的实际生产问题太复杂了，甚至无法部分重现。我希望找到一些比'http://hbase.apache.org/book/quickstart.html稍深的入门文档。'我认为Hive和Pig在食物链中是竞争对手，但我们必须针对我们的特定用例对两者进行评估，直到确定一个。最佳答案 (如果您分享到目前为止所看到的内容，您可能会得到更好的回应)Pig、Hive、Hbase的一些入

hadoop - 有没有办法为预期的输出编写配置单元脚本

log1event1foo_id1event1foo_id2event1foo_id3event1foo_id4event1foo_id1event1foo_id1event1foo_id2event1foo_id1event1foo_id1event1foo_id3日志2event2foo_id1od_id1event2foo_id1od_id13event2foo_id1od_id15event2foo_id2od_id2event2foo_id2od_id14event2foo_id3od_id3event2foo_id5od_id9event2foo_id8od_id10eve

配置单编写 event foo_id event2 hadoop hive

hadoop - 来自 avro.serde.schema 的错误 - "CannotDetermineSchemaSentinel"

在Hadoop(CDH4.6和Hive0.10)上运行作业时，出现以下错误:avro.serde.schema{“类型”:“记录”，“名称”:“CannotDetermineSchemaSentinel”，“命名空间”:“org.apache.hadoop.hive”，“字段”:[{"name":"ERROR_ERROR_ERROR_ERROR_ERROR_ERROR_ERROR","type":"string"},{"name":"Cannot_determine_schema","type":"string"},{"name":"check","type":“字符串”}，{"nam

CannotDetermineSchemaSentinel amp section schema string hadoop hive avro

hadoop - apache pig rank 运算符不适用于多个 reducer

我正在尝试使用pig的rank运算符为给定字符串分配整数。虽然当我将parallel子句设置为1时它起作用，但它没有更高的值(如200)。我需要使用多个reducer来加速处理，因为默认情况下，pig只使用一个reducer，这需要很长时间。我的查询如下:rank=按col1ASC并行200对tupl1进行排名；最佳答案实际上根据pig文档(https://pig.apache.org/docs/r0.11.1/perf.html#parallel):YoucanincludethePARALLELclausewithanyop

运算符 reducer section pig hadoop hive apache-pig

hadoop - 最简单的 Hive 查询不起作用

当我尝试获取查询时SELECT*FROMA我得到了所有信息，但是当尝试获取存在列名(或连接)的查询时SELECTaFROMA它返回一些异常:TotalMapReducejobs=1LaunchingJob1outof1Numberofreducetasksissetto0sincethere'snoreduceoperatororg.apache.hadoop.ipc.RemoteException:java.io.IOException:File/tmp/hive-merza/hive_2014-06-25_09-12-19_567_6884805431385202274/-mr-1

hadoop Hive java apache mapreduce hbase

csv - 使用逗号分隔值和 .csv 或 .txt 文件格式将 Hive 输出到 s3。使用 sqoop 从 hive 导出到 s3 的替代方法也可以使用

我一直在尝试使用hive输出到s3。我在这方面取得了成功，但结果输出不是逗号分隔的，而是有一个分隔符，例如^A我想。我还致力于使用sqoop将数据从s3导入和导出到psql，但我无法在hive上执行此操作，即使我得到了解决方案也可以。我试过的是sethive.io.output.fileformat=CSVTextFile;INSERTOVERWRITEDIRECTORY"s3n://akshayhazari/results"select*frombooks;这是工作:Totaljobs=3LaunchingJob1outof3Numberofreducetasksissetto0si

csv sqoop code table pre hadoop amazon-s3 hive

mongodb - 动态模式的 Hive 表创建

我们正在研究Hive是否允许我们运行一些类似SQL的查询mongo风格的动态模式作为我们map-reduce作业的先驱。数据以几个TiB的BSON文件的形式出现；每个文件包含JSON“样本”。示例示例如下:{"_id":"SomeGUID","SomeScanner":{"B64LR":22,"Version":192565886128245},"Parser":{"Size":73728,"Headers":[{"VAddr":4096,"VSize":7924....etc....作为动态模式，只有少数字段保证存在。我们希望能够针对可能是某物的输入集运行查询喜欢SomeScanne

mongodb Hive code 34 hadoop bson hiveql

hadoop - 更改 HIVE 中的目标目录

我正在将一张表从NETEZZA导入HIVE。我在SQOOP命令中明确提到了我的目标目录，但它始终采用默认路径:/user/hive/warehouse如何更改这个默认路径？？最佳答案在$HIVE_CONF/conf/hive-site.xml你必须把这个:hive.metastore.warehouse.diryour/directory/in/hdfs然后重启hive。关于hadoop-更改HIVE中的目标目录，我们在StackOverflow上找到一个类似的问题：

hadoop HIVE section strong bigdata sqoop hiveql

java - 什么是 hbase 压缩文件大小

我最近读到，在Hbase主要压缩之后，如果存储文件的大小变得大于hbase.hregion.max.filesize，即256MB，那么它再次溢出到2。所以谁能解释压缩是在什么文件上完成的尺寸。majorcompaction后形成的storefile会有多少列族的数据？最佳答案 hbase.hregion.max.filesize顾名思义，指的是区域大小。区域本质上是您的hbase数据的分区(存储为hfile)。HBase会将您的数据存储到区域中，如果区域变得太大(太大由hbase.hregion.max.filesize定义)，

hbase java section code hadoop hive apache-pig

regex - 使用 RegexSerDe 在 Hive 中创建 DDL 时出错

我有分隔符为“,|”的数据。我按如下方式创建了配置单元DDL:CREATETABLEplayer_profile(player_idBIGINTCOMMENT'PlayerProfileIdentifier',change_tsSTRINGCOMMENT'ChangeDatetime',child_birth_yearINTCOMMENT'ChildBirthYear',countrySTRINGCOMMENT'CountryCode',)ROWFORMATSERDE'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'WITHSERDEP

时出中创 section apache RegexSerDe regex hadoop hive

80 81 828384 85 86