Pig

hadoop - PIG 不读取我的自定义 InputFormat

我有一个自定义的MyInputFormat可以处理multi-linedinputs的记录边界问题.但是当我将MyInputFormat放入我的UDF加载函数时。如下:importorg.apache.hadoop.mapreduce.InputFormat;publicclassEccUDFLogLoaderextendsLoadFunc{@OverridepublicInputFormatgetInputFormat(){System.out.println("IamingetInputFormatfunction");returnnewMyInputFormat();}}impo

自定 InputFormat code MyRecordReader createRecordReader hadoop user-defined-functions apache-pig amazon-emr

hadoop - 执行连接时 Hive vs Pig

我有一些脚本可以处理我网站的日志。我已将此数据加载到Hive中的多个表中。我每天运行这些脚本来分析流量。最近我发现我在这些脚本中编写的配置单元查询花费了太多时间。以前，生成报告大约需要10-15分钟，但现在需要数小时才能完成。我对数据进行了分析，数据集增加了大约5-10%。我的一个friend建议我，在连接多个Hive表时，Hive不好，我应该将我的脚本切换到Pig。与Pig相比，Hive是否不擅长连接表？最佳答案 IsHivebadatjoiningtables没有。Hive实际上非常好，但有时需要花点时间使用查询优化器。根据您

hadoop Hive section strong apache-pig piglet

hadoop - 在多节点 Cassandra 集群上运行 pig

我正在研究将从cassandra读取数据的BI流程，使用MapReduce创建摘要并写回不同的键空间。从单个节点开始，一切都按我预期的那样工作，但是当移动到多节点时，我不确定我是否完全理解拓扑和配置。我有一个包含3个节点的设置。每个都有一个Cassandra节点(版本1.1.9)、数据节点和任务跟踪器(版本0.20.2+923.421-CDH3U5)。NameNode和作业跟踪器在不同的服务器上。此时我正在尝试从DataNode服务器运行Pig脚本。我不确定的是pig参数PIG_INITIAL_ADDRESS。我假设查询会在所有Cassandra节点上运行，每个任务跟踪器只会查询本地C

Cassandra hadoop 跟踪器 section apache-pig

hadoop - Pig 将架构更改为所需类型

我是Pig的新用户。我有一个要修改的现有架构。我的源数据如下，有6列:NameTypeDateRegionOpValue-----------------------------------------------------johnab20130106DX20johnab20130106DC19jphnab20130106DT8jphnab20130106EC854jphnab20130106ET67jphnab20130106EX98等等。每个Op值始终是C、T或X。我基本上想按以下方式将我的数据分成7列:NameTypeDateRegionOpXOpCOpT-----------

hadoop Pig chararray code 20130106 apache-pig

java - 在JAVA文件中嵌入pig查询进行操作

我正在寻找将pig查询嵌入到javamap-reduce程序中的方法。我想知道这是否可能。如果可能，如何完成它。最佳答案我将从readingthedocumentationon"embededpig"开始关于java-在JAVA文件中嵌入pig查询进行操作，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/15519478/

java section stackoverflow noreferrer hadoop mapreduce apache-pig

hadoop - pig 加入Cloudera VM

我尝试在apachepig中执行一个简单的连接。我使用的数据集来自http://www.dtic.upf.edu/~ocelma/MusicRecommendationDataset/lastfm-1K.html这是我在pig壳里做的:profiles=LOAD'/user/hadoop/tests/userid-profile.tsv'AS(id,gender,age,country,dreg);songs=LOAD'/user/hadoop/tests/userid-timestamp-artid-artname-traid-traname.tsv'AS(userID,timest

Cloudera hadoop MapReduceLauncher executionengine mapReduceLayer nosql apache-pig

hadoop - 来自 Hadoop PIG 作业的 Lucene 查询

我在Lucene索引中索引了数千个客户名称、替代名称、公司名称等详细信息(索引未存储在HDFS中)。我在HDFS中有大量(>100M)的人员数据，我想使用Lucene索引扫描人员数据，我目前正在使用PIG从HDFS进行数据处理。我正在尝试寻找是否可以运行PIG作业来提取数据并并行执行对Lucene索引的查询(可能通过使用自定义编写的UDF)，我无法想象Lucene本地索引是如何加载的并在PIG作业中共享(在Lucene查询之后，如果找到匹配项，我需要匹配的文档ID)。可以使用PIG吗？或者我需要为此编写自定义map-reduce作业？或任何其他建议？谢谢。

hadoop section Lucene 自定 apache-pig

hadoop - Pig - 解析 XML 文件

我想在pig中解析这样的XML文件:person1blablablablablablaperson2blablablablablablablablabla我已经写了一个JAVA程序，它产生了这个输出:第一个文件，其中包含人名与其ID之间的映射:1,person12,person2然后我可以使用这个pig命令将文件加载到一个变量中:A=load'...'AS(id_person:int,name:chararray);第二个文件，用于映射人员及其经历1,1,blablabla1,2,blablabla2,1,blablabla2,2,blablabla2,3,blablabla我以这种方

hadoop Pig blablabla blockquote person user-defined-functions bigdata apache-pig

hadoop - 如何在 Pig 中跟踪文件组合过程

当我运行加载大量小文件的Pig作业时，它会在此步骤中暂停很长时间:2013-07-1516:44:00,464[JobControl]INFOorg.apache.hadoop.mapreduce.lib.input.FileInputFormat-Totalinputpathstoprocess:42772013-07-1516:44:00,465[JobControl]INFOorg.apache.pig.backend.hadoop.executionengine.util.MapRedUtil-Totalinputpathstoprocess:42772013-07-1516:

何在 hadoop section JobControl mapreduce apache-pig

optimization - 优化 Pig 请求

我想在嵌入式java程序中执行pig命令。目前，我在本地模式下尝试Pig。我的数据文件大小约为15MB，但此命令的执行时间很长，所以我认为我的脚本需要优化...我的脚本:A=LOAD'data'USINGPigPrismeLoader('data.xml');filter_response_time_less_than_1_s=FILTERABY(response_time=1000.0ANDresponse_time=2000.0);star__zne_asfo_access_log=FOREACH(COGROUPABY(date_day,url,date_minute,ret_co

optimization Pig response date time hadoop apache-pig

73 74 757677 78 79