草庐IT

php - 你如何实现一个好的脏话过滤器?

coder 2024-04-22 原文

我们中的许多人都需要处理用户输入、搜索查询以及输入文本可能包含亵渎或不良语言的情况。这通常需要过滤掉。

在哪里可以找到各种语言和方言的脏话 list ?

是否有 API 可用于包含良好列表的来源?或者可能是一个带有一些参数的简单说“是的,这是干净的”或“不,这是脏的”的 API?

有哪些好方法可以捕捉试图欺骗系统的人,例如 a$$、azz 或 a55?

如果您提供 PHP 解决方案,则可加分。 :)

编辑:对简单地避免编程问题的答案的回应:

我认为当用户可以使用公共(public)图片搜索来查找添加到敏感社区池中的图片时,这种过滤器会有用武之地。如果他们可以搜索“阴茎”,那么他们可能会得到很多照片,是的。如果我们不想要那个的图片,那么阻止这个词作为搜索词是一个很好的守门人,尽管这不是一个万无一失的方法。首先获取单词列表才是真正的问题。

所以我实际上指的是一种方法来判断单个 token 是否脏,然后简单地禁止它。我不会费心阻止像完全搞笑的“长颈长颈鹿”引用这样的情绪。在那里你无能为力。 :)

最佳答案

Obscenity Filters: Bad Idea, or Incredibly Intercoursing Bad Idea?

还有,不能忘记The Untold History of Toontown's SpeedChat ,其中甚至使用“安全词白名单”导致 14 岁的人迅速绕过它: “我想把我的长颈长颈鹿粘在你毛茸茸的白色兔子身上。”

底线:归根结底,对于您实现的任何系统,人工审核(无论是同行还是其他方式)绝对无法替代。随意实现基本工具来摆脱偷渡客,但对于坚定的巨魔,您绝对必须采用非基于算法的方法。

消除匿名并引入问责制的系统(Stack Overflow 做得很好)也很有帮助,特别是为了帮助打击 John Gabriel's G.I.F.T.

您还询问了从哪里可以获得亵渎列表以帮助您入门——一个开源项目是 Dansguardian。 -- 查看其默认亵渎列表的源代码。还有一个额外的第三方Phrase List您可以下载代理,这对您来说可能是一个有用的收集点。

针对问题编辑进行编辑:感谢您澄清您正在尝试做什么。在这种情况下,如果您只是想做一个简单的单词过滤器,有两种方法可以做到。一种方法是创建一个包含所有要审查的禁用短语的长正则表达式,然后仅用它进行正则表达式查找/替换。像这样的正则表达式:

$filterRegex = "(boogers|snot|poop|shucks|argh)"

并使用 preg_match() 在您的输入字符串上运行它进行批发测试,

preg_replace()将它们清空。

您还可以使用数组而不是单个长正则表达式加载这些函数,对于长单词列表,它可能更易于管理。查看preg_replace()有关如何灵活使用数组的一些很好的例子。

有关其他 PHP 编程示例,请参阅此页面以获取 somewhat advanced generic class用于从被审查的单词中过滤出中心字母的单词过滤,以及这个 previous Stack Overflow question还有一个 PHP 示例(其中主要有值(value)的部分是基于 SQL 的过滤词方法——如果您觉得不需要,可以省略 leet-speak 补偿器)。

您还添加了:“首先获取单词列表才是真正的问题。”——除了之前的一些 Dansgaurdian 链接之外,您可能会发现 this handy .zip 458 个单词是有帮助的。

关于php - 你如何实现一个好的脏话过滤器?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8483663/

有关php - 你如何实现一个好的脏话过滤器?的更多相关文章

  1. ruby - 如何使用 Nokogiri 的 xpath 和 at_xpath 方法 - 2

    我正在学习如何使用Nokogiri,根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div

  2. ruby - 如何从 ruby​​ 中的字符串运行任意对象方法? - 2

    总的来说,我对ruby​​还比较陌生,我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础,我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用

  3. python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声? - 2

    关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。

  4. ruby-on-rails - 如何验证 update_all 是否实际在 Rails 中更新 - 2

    给定这段代码defcreate@upgrades=User.update_all(["role=?","upgraded"],:id=>params[:upgrade])redirect_toadmin_upgrades_path,:notice=>"Successfullyupgradeduser."end我如何在该操作中实际验证它们是否已保存或未重定向到适当的页面和消息? 最佳答案 在Rails3中,update_all不返回任何有意义的信息,除了已更新的记录数(这可能取决于您的DBMS是否返回该信息)。http://ar.ru

  5. ruby-on-rails - 'compass watch' 是如何工作的/它是如何与 rails 一起使用的 - 2

    我在我的项目目录中完成了compasscreate.和compassinitrails。几个问题:我已将我的.sass文件放在public/stylesheets中。这是放置它们的正确位置吗?当我运行compasswatch时,它不会自动编译这些.sass文件。我必须手动指定文件:compasswatchpublic/stylesheets/myfile.sass等。如何让它自动运行?文件ie.css、print.css和screen.css已放在stylesheets/compiled。如何在编译后不让它们重新出现的情况下删除它们?我自己编译的.sass文件编译成compiled/t

  6. ruby - 如何将脚本文件的末尾读取为数据文件(Perl 或任何其他语言) - 2

    我正在寻找执行以下操作的正确语法(在Perl、Shell或Ruby中):#variabletoaccessthedatalinesappendedasafileEND_OF_SCRIPT_MARKERrawdatastartshereanditcontinues. 最佳答案 Perl用__DATA__做这个:#!/usr/bin/perlusestrict;usewarnings;while(){print;}__DATA__Texttoprintgoeshere 关于ruby-如何将脚

  7. ruby - 如何指定 Rack 处理程序 - 2

    Rackup通过Rack的默认处理程序成功运行任何Rack应用程序。例如:classRackAppdefcall(environment)['200',{'Content-Type'=>'text/html'},["Helloworld"]]endendrunRackApp.new但是当最后一行更改为使用Rack的内置CGI处理程序时,rackup给出“NoMethodErrorat/undefinedmethod`call'fornil:NilClass”:Rack::Handler::CGI.runRackApp.newRack的其他内置处理程序也提出了同样的反对意见。例如Rack

  8. ruby - 使用 Vim Rails,您可以创建一个新的迁移文件并一次性打开它吗? - 2

    使用带有Rails插件的vim,您可以创建一个迁移文件,然后一次性打开该文件吗?textmate也可以这样吗? 最佳答案 你可以使用rails.vim然后做类似的事情::Rgeneratemigratonadd_foo_to_bar插件将打开迁移生成的文件,这正是您想要的。我不能代表textmate。 关于ruby-使用VimRails,您可以创建一个新的迁移文件并一次性打开它吗?,我们在StackOverflow上找到一个类似的问题: https://sta

  9. ruby-on-rails - Rails - 一个 View 中的多个模型 - 2

    我需要从一个View访问多个模型。以前,我的links_controller仅用于提供以不同方式排序的链接资源。现在我想包括一个部分(我假设)显示按分数排序的顶级用户(@users=User.all.sort_by(&:score))我知道我可以将此代码插入每个链接操作并从View访问它,但这似乎不是“ruby方式”,我将需要在不久的将来访问更多模型。这可能会变得很脏,是否有针对这种情况的任何技术?注意事项:我认为我的应用程序正朝着单一格式和动态页面内容的方向发展,本质上是一个典型的网络应用程序。我知道before_filter但考虑到我希望应用程序进入的方向,这似乎很麻烦。最终从任何

  10. ruby-on-rails - 渲染另一个 Controller 的 View - 2

    我想要做的是有2个不同的Controller,client和test_client。客户端Controller已经构建,我想创建一个test_clientController,我可以使用它来玩弄客户端的UI并根据需要进行调整。我主要是想绕过我在客户端中内置的验证及其对加载数据的管理Controller的依赖。所以我希望test_clientController加载示例数据集,然后呈现客户端Controller的索引View,以便我可以调整客户端UI。就是这样。我在test_clients索引方法中试过这个:classTestClientdefindexrender:template=>

随机推荐