import-all-table

hadoop - Pig Latin 中的 STRSPLIT 和 REGEXP_EXTRACT_ALL

我有以下文件:File----12-3John1215-1Sam122该文件是制表符(\t)分隔的。我将行加载为line:chararray，因为我希望数据不会在各个字段中拆分。现在，我想提取详细信息(12-3和5-1)并将其存储为单独的数据。我正在尝试使用STRSPLIT和REGEX_EXTRACT_ALL，但数据似乎不匹配。splitdata=FOREACHfiledata{regex=REGEX_EXTRACT_ALL(line,'^([0-9]*)\\-([0-9]*)');split=STRSPLIT(line,'\\t',1);GENERATEregex,split;};这

hadoop - 亚马逊 EMR 和 Hive : Getting a "java.io.IOException: Not a file" exception when loading subdirectories to an external table

我正在使用AmazonEMR。我在s3中有一些日志数据，都在同一个桶中，但在不同的子目录下喜欢:"s3://bucketname/2014/08/01/abc/file1.bz""s3://bucketname/2014/08/01/abc/file2.bz""s3://bucketname/2014/08/01/xyz/file1.bz""s3://bucketname/2014/08/01/xyz/file3.bz"我正在使用:Sethive.mapred.supports.subdirectories=true;Setmapred.input.dir.recursive=true

subdirectories IOException code bucketname section hadoop amazon-web-services amazon-s3 hive emr

hadoop - import org.apache.hadoop.mapreduce 无法解析

我正在尝试执行下面的代码packagetest;importjava.io.IOException;importjava.util.*;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.conf.*;importorg.apache.hadoop.io.*;importorg.apache.hadoop.util.*;importorg.apache.hadoop.mapreduce.Mapper;importorg.apache.hadoop.mapreduce.Reducer;importorg.apache.hadoo

hadoop mapreduce apache import hive hadoop-streaming hadoop-plugins

hadoop - Sqoop import --as-parquetfile with CDH5

我正在尝试将数据直接从mysql导入到parquet，但它似乎无法正常工作...我正在使用包含Sqoop1.4.5的CDH5.3。这是我的命令行:sqoopimport--connectjdbc:mysql://xx.xx.xx.xx/database--usernameusername--passwordmypass--query'SELECTpage_id,user_idFROMpages_usersWHERE$CONDITIONS'--split-bypage_id--hive-import--hive-tabledefault.pages_users3--target-dirh

as-parquetfile parquetfile sqoop pages_users hadoop

sql - 具有 Union All 的 Nullpointer Exception Hive

我有一个查询，它使用unionall合并来自两个表的数据。unionall之前的第一个查询返回记录，但第二个查询不返回任何记录(仅此运行为零记录。我们可能有下一次加载的记录)。问题是当我没有来自第二个查询的任何记录时，配置单元会抛出空指针异常。selectcol1,col2,col3fromAunionallselectcol1,col2,col3fromB我在A表中有记录。但是，B表中的记录数可能会因每次加载而异。当B表中有记录时，查询工作完美。我知道这是0.12版之前hive中的一个错误。但我使用的是0.14版。任何想法可能是根本原因。注意:我的B表是分区的。当我删除分区时，我没有

Nullpointer Exception section col select sql hadoop hive

Scala 和 Hive : best way to write a generic method that works with all types of Writable

我正在玩在Scala中为Hive编写通用UDF。我的第一个测试是编写一个函数来对数组(复杂数据类型)求和。我的代码stub如下所示(因为这是stub，请忽略asInstanceOf的用法:D):...classSumElementsextendsGenericUDF{protectedvalexpectedCategories:Array[Category]=Array(ObjectInspector.Category.LIST)protectedvarlistInspector:ListObjectInspector=_@throws(classOf[UDFNullArgumentE

Writable generic code listInspector section scala hadoop generics hive

hadoop - Apache Hadoop 单节点设置中的 start-all.sh 失败

我在Ubuntu12.04上安装了ApacheHadoop1.0.4。我按照http://hadoop.apache.org/docs/stable/single_node_setup.html上的说明进行操作，并到达“执行”部分。我在$bin/start-all.sh上失败了，错误信息如下。我的用户名是anson。$start-all.shmkdir:cannotcreatedirectory`/var/log/hadoop/anson':Permissiondeniedchown:cannotaccess`/var/log/hadoop/anson':Nosuchfileordir

start-all hadoop anson directory

hadoop - 运行命令 stop-all.sh 时没有 JobTracker 和 NameNode 停止

在我的案例中，jobtracker和namenode已启动，但无法通过运行stop-all.sh命令停止它当我键入jps时得到以下消息:[root@iqhadoop]#jps25258JobTracker8082SecondaryNameNode7944DataNode8404Jps8321TaskTracker24237NameNode但是当我尝试通过在命令行上运行stop-all.sh来停止它时，收到以下消息:[root@iqbin]#bashstop-all.shnojobtrackertostoplocalhost:stoppingtasktrackernonamenodeto

JobTracker NameNode section hadoop stop

hadoop - Pig : How to send all Tuples to a UDF to be Processed without Grouping them? 或者如何在不分组的情况下将元组转换为包？

这就是我想要做的:A=LOAD'...'USINGPigStorage(',')AS(col1:int,col2:chararray);B=ORDERAbycol2;C=CUSTOM_UDF(A);CUSTOM_UDF遍历需要按顺序排列的元组。UDF会为每几个输入元组输出一个聚合元组；即，我不会以1:1的方式返回元组。本质上:publicclassCustomUdfextendsEvalFunc{publicTupleexec(Tupleinput)throwsIOException{AggregateaggregatedOutput=null;DataBagvalues=(DataB

何在 Processed input tuple hadoop mapreduce apache-pig cloudera

java - Spring Boot JPA 使用 Hibernate 在 TABLE 中插入大写名称

我有一个表实体映射为:@EntitypublicclassItemsToRegisterimplementsSerializable{@Id@Column(name="ID_ITEM_TO_REGISTER")@GeneratedValue(strategy=GenerationType.AUTO)privateintid;.....当我尝试在数据库中插入新记录时，表名被翻译成小写为:items_to_register，但我的表名是ITEMS_TO_REGISTER如何在不更改MySql配置的情况下解决我的问题？(my.cnf)我的application.properties文件中有:

Hibernate Spring section code java mysql jpa spring-data-jpa

339 340 341342343 344 345