hadoop - 用 pig 过滤空值

coder 2024-01-05 原文

这看起来是个愚蠢的问题，但我找不到从我的行中过滤空值的方法。这是我转储对象地理信息时的结果:

DUMP geoinfo;
([longitude#70.95853,latitude#30.9773])
([longitude#-9.37944507,latitude#38.91780853])
(null)
(null)
(null)
([longitude#-92.64416,latitude#16.73326])
(null)
(null)
([longitude#-9.15199849,latitude#38.71179122])
([longitude#-9.15210796,latitude#38.71195131])

这是描述

DESCRIBE geoinfo;
geoinfo: {geoLocation: bytearray}

我想做的是像这样过滤空值:

geoinfo_no_nulls = FILTER geoinfo BY geoLocation is not null;

但结果还是一样。没有过滤。

我也试过类似的方法

geoinfo_no_nulls = FILTER geoinfo BY geoLocation != 'null';

我得到了一个错误

org.apache.pig.backend.executionengine.ExecException: ERROR 1071: Cannot convert a map to a String

我做错了什么？

细节，在 ubuntu 上运行，hadoop-1.0.3 和 pig 0.9.3

pig 版 Apache Pig 版本 0.9.3-SNAPSHOT(已报告) 编译于 2012 年 10 月 24 日，19:04:03

Java 版本“1.6.0_24” OpenJDK 运行时环境 (IcedTea6 1.11.4) (6b24-1.11.4-1ubuntu0.12.04.1) OpenJDK 64 位服务器 VM(构建 20.0-b12，混合模式)

最佳答案

谢谢大家的回答。它帮助我找到路径。

最后问题似乎出在我使用的 JsonLoader 上。我不知道确切原因，但它似乎有一个空字符串错误。

我终于更改了我的代码以使用 https://github.com/kevinweil/elephant-bird .

代码现在看起来像这样:

    register 'elephant-bird-core-3.0.0.jar'
    register 'elephant-bird-pig-3.0.0.jar'
    register 'google-collections-1.0.jar'
    register 'json-simple-1.1.jar'

    json_lines = LOAD '/twitterecho/tweets/stream/v1/json/2012_10_10/08' USING com.twitter.elephantbird.pig.load.JsonLoader();

    geo_tweets = FOREACH json_lines GENERATE (CHARARRAY) $0#'id' AS id, (CHARARRAY) $0#'geoLocation' AS geoLocation;

    tweets_grp = GROUP geo_tweets BY id;
    unique_tweets = FOREACH tweets_grp {
          first_tweet = LIMIT inpt 1;
          GENERATE FLATTEN(first_tweet);
    };

    only_not_nulls = FILTER geo_tweets BY geoLocation is not null;
    store only_not_nulls into '/twitter_data/results/geo_tweets';

干杯

关于hadoop - 用 pig 过滤空值，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13165337/

有关hadoop - 用 pig 过滤空值的更多相关文章

ruby-on-rails - 事件管理员日期过滤器日期格式自定义 - 2
是否有简单的方法来更改默认ISO格式(yyyy-mm-dd)的ActiveAdmin日期过滤器显示格式？最佳答案您可以像这样为日期选择器提供额外的选项，而不是覆盖js:=f.input:my_date,as::datepicker,datepicker_options:{dateFormat:"mm/dd/yy"} 关于ruby-on-rails-事件管理员日期过滤器日期格式自定义，我们在StackOverflow上找到一个类似的问题： https://s
hadoop安装之保姆级教程（二）之YARN的配置 - 2
1.1.1 YARN的介绍为克服Hadoop1.0中HDFS和MapReduce存在的各种问题⽽提出的，针对Hadoop1.0中的MapReduce在扩展性和多框架⽀持⽅⾯的不⾜，提出了全新的资源管理框架YARN. ApacheYARN（YetanotherResourceNegotiator的缩写）是Hadoop集群的资源管理系统，负责为计算程序提供服务器计算资源，相当于⼀个分布式的操作系统平台，⽽MapReduce等计算程序则相当于运⾏于操作系统之上的应⽤程序。 YARN被引⼊Hadoop2,最初是为了改善MapReduce的实现，但是因为具有⾜够的通⽤性，同样可以⽀持其他的分布式计算模
ruby-on-rails - 在 Controller 中干净地处理多个过滤器(参数) - 2
我有一个名为Post的类，我需要能够适应以下场景:如果用户选择了一个类别，则只显示该类别的帖子如果用户选择了一种类型，则只显示该类型的帖子如果用户选择了一个类别和类型，则只显示该类别中该类型的帖子如果用户没有选择任何内容，则显示所有帖子我想知道我的Controller是否不可避免地会因大量条件语句而显得粗糙...这是我解决此问题的错误方法-有谁知道我如何才能做到这一点？classPostsController 最佳答案您最好遵循“胖模型，瘦Controller”的惯例，这意味着您应该将这种逻辑放在模型本身中。Post类应该能够报告
ruby-on-rails - 如何处理 Grape 中特定操作的过滤器之前？ - 2
我正在我的Rails项目中安装Grape以构建RESTfulAPI。现在一些端点的操作需要身份验证，而另一些则不需要身份验证。例如，我有users端点，看起来像这样:moduleBackendmoduleV1classUsers现在如您所见，除了password/forget之外的所有操作都需要用户登录/验证。创建一个新的端点也没有意义，比如passwords并且只是删除password/forget从逻辑上讲，这个端点应该与用户资源。问题是Grapebefore过滤器没有像except,only这样的选项，我可以在其中说对某些操作应用过滤器。您通常如何干净利落地处理这种情况？
ruby-on-rails - Rails 3 - 过滤器链暂停为 :authentication rendered or redirected - 2
我仍然收到标题中的“错误”消息，但不知道如何解决。在ApplicationController中，classApplicationController在routes.rb#match'set_activity_account/:id/:value'=>'users#account_activity',:as=>:set_activity_account--thisdoesn'tworkaswell..resources:usersdomemberdoget:action_a,:action_bendcollectiondoget'account_activity'endend和User
ruby-on-rails - ActiveAdmin 自定义选择过滤器下拉名称 - 2
对于用户模型，我有一个过滤器来检查用户的预订状态，该状态由整数值(0、1或2)表示。UserActiveAdmin索引页上的过滤器是通过以下代码实现的:filter:booking_status,as::select然而，这会导致下拉选项为0、1或2。当管理员用户从下拉列表中选择它们时，我更愿意自己将它们命名为“未完成”、“待定”和“已确认”之类的名称。有没有办法在不改变booking_status在模型中的表示方式的情况下做到这一点？最佳答案假设booking_status是模型中的枚举字段，您可以使用:过滤器:booking
ruby - 如何通过 belongs_to 按外部 id 和本地属性进行过滤？ - 2
以下模型通过belongs_to链接:require'mongoid'classSensorincludeMongoid::Documentfield:sensor_id,type:Stringvalidates_uniqueness_of:sensor_idend...require'mongoid'require_relative'sensor.rb'classSensorDataincludeMongoid::Documentbelongs_to:sensorfield:date,type:Datefield:ozonMax1h,type:Floatfield:ozonMax8h
ruby - Rails+ActiveAdmin - 使用 ransacker 过滤会抛出错误 PG::SyntaxError: ERROR: syntax error at or near "," - 2
我在RubyonRails4.1.4上有一个项目，使用来自git://github.com/activeadmin/activeadmin的activeadmin1.0.0.pre，pg0.17.1，PostgreSQL9.3在项目中我有这些模型:类用户has_one:账户类账户属于:用户有很多:project_accountshas_many:项目,:through=>:project_accounts类项目#该项目有一个bool属性'archive'has_many:project_accounts类ProjectAccount属于:帐户属于:项目我有一个任务是在索引页面上实现一个
ruby-on-rails - Rails 中的协同过滤 - 2
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visitthehelpcenter指导。关闭9年前。我正在寻找一种在Rails中进行协作过滤的解决方案，甚至是可能的示例。到目前为止，我只发现了acts_as_recommendable，它看起来很有用，但我注意到它在过去2年中没有任何更新。有人知道任何其他解决方案和/或示例吗？
ruby - 在 Jekyll 中过滤 site.related_posts - 2
我对Jekyll和Ruby很陌生(但是，非常兴奋)。在不使用插件的情况下，我试图找到一种方法来过滤site.related_posts。例如，我正在阅读标题为Foo且类别为A、B的帖子。该站点总共包含3个帖子:Foo(类别:A、B)条形图(类别:A、C、D)动物园(类别:B、F)默认情况下，在Jekyll中我们这样做:{%forpostinsite.related_postslimit:5%}{%endfor%}但是，上面的代码返回所有(3)个帖子。一个帖子包含很多类别，所以类别应该是一个数组。如何修改代码并仅返回类别与当前帖子类别相交的类别？(在此示例中，我希望代码仅返回Foo和Zo

hadoop - 用 pig 过滤空值

有关hadoop - 用 pig 过滤空值的更多相关文章

随机推荐