数美科技风控前沿| AIGC需要什么内容风控基建？ChatGPT本“人”有话要说

数美科技 2023-05-25 原文

ChatGPT的风从11月发布之日起吹到现在。

这是一款聊天机器人软件，和“前作”们相比，它变得更像一个“人”了，能完成最简单快速的资料检索和整合，也能进行一定程度上的AI写作。

看得见的讨论，从一开始ChatGPT的回答如何变得更像人更智能，到其开发公司OpenAI的背景和技术及其商业化前景，再到ChatGPT或其更广范围的AIGC如何颠覆内容生产模式，直到原美团创始人王慧文在即刻发布一条英雄帖，宣布进入AI领域，将科技圈对AIGC的热情推向最高点。

而看不见的，是一些黑灰产借助国内外的信息差，卖账号、卖教程、卖镜像化ChatGPT服务或整合的AIGC平台服务，少则9.99元/20次（三个月有效），多则999.99元/无限次（一年内有效），据传最早一批的“淘金者”，已实现月入数十万元。

和ChatGPT的火热讨论同时发生的，还有国内某家向ChatGPT宣战的AI公司，因回答中的言论不妥，其小程序在“宣战”三天后便被封。

AIGC

凡为内容，皆有风险

首先界定AIGC的概念，AIGC指的是AI generated content，是继PGC、UGC之后的又一种内容生产方式。ChatGPT属于生成式AI，红杉资本将生成式AI分为文本、代码、图片、语言、视频、3D等数个应用场景。红杉资本认为，生成式AI至少可以提高10%的效率或创造力，有潜力产生数万亿美元的经济价值。

目前AIGC比较受关注的商业化方向有AI写作、AI做图、AI底层建模等，未来还有可能出现AI生成音频、视频、动画、混合现实/虚拟现实等方向，不论形式如何，凡为内容，皆有风险。不论是UGC、PGC还是AIGC。

理论上说，AI生成的内容基于大量的数据筛选和模型训练，不具备任何价值观，但数据的筛选、清洗，以及不同地区的内容监管尺度差异，会导致最终的内容产出存在不同的风险。

AIGC的内容风险有什么？

内容风险、版权、信息霸权

刀刀架在AIGC脖子上

本文仅分析产出的内容角度讨论其隐藏的风险，主要表现在以下四个方面。

1. 内容风险：受当地法律监管，特定领域需要有问责主体

无论AIGC生成的内容是文字还是图片，抑或是更高级的音视频、混合现实/虚拟现实，都一定处于当地的法律监管下，比如《网络信息内容生态治理规定》《民法典人格权编》《网络数据安全管理条例（征求意见稿）》《互联网信息服务算法推荐管理规定》《互联网信息服务深度合成管理规定（征求意见稿）》等，一旦平台上出现了违法违规内容并大量传播，平台可能会承担连带责任。

另一方面，即使在数据训练阶段有一定的数据清洗流程和审核技术，但AIGC的背后是人，人的表达有无穷尽的隐喻和暧昧，AI不产出风险内容，却可能被人“当枪使”。比如21世纪经济报道在一篇文章中提到，在某些用户提问的诱导下，ChatGPT可能会给出一些“反社会”的回答。

如国外一名工程师Zac Denham在其博客中指出，尽管直接提问带有风险的问题会被聊天机器人直接拒绝回答，他仍旧一步步引导ChatGPT制定出了如何“毁灭人类”的计划。此外，也有一些用户利用AIGC生成具有暴力、色情等违禁元素的画作，对社会风气造成破坏。

上海大邦律师事务所高级合伙人、资深律师游云庭认为，这种情况下ChatGPT是适用“工具无罪论”的，在如何引导AI进行正向回复这个问题上，平台还需要探索很久。不过它也表示，“如果AI大量应用到自动驾驶等科技领域，则需要一个包括平台在内的问责主体。”

2. 垃圾信息泛滥，导致信息污染

随着人工智能技术不断成熟，机器深度学习后生成的内容愈发逼真，能够达到“以假乱真”的效果。相应地，应用门槛也在不断降低，人人都能轻松实现“换脸”、“变声”，甚至成为“网络水军”中的一员。由于契合民众“眼见为实”的认知共性，技术滥用后很可能使造假内容以高度可信的方式通过互联网即时触达用户，导致公众在观念博弈中判断失灵，难以甄别水军和虚假信息。

内容的追踪难度和复杂性与日俱增，而AIGC目前处在大规模发展阶段，监管尚在探索，相对模糊和滞后，对于那些擦边球性质的造假行为存在难以界定的现实困境，大量无意义的垃圾信息泛滥，很可能污染整个网络空间。

3. 版权风险：法律滞后，难以界定

这里的版权分为两类，一类是自身具备AIGC内容生产技术的公司，如OpenAI的ChatGPT，一类是通过接入ChatGPT向国内用户提供服务的公司，如大量打着ChatGPT名号“搬运”ChatGPT并借此收费敛财的公众号或小程序。

第一类公司的版权风险在于，AI生成的内容是否构成‘作品’？如果构成作品，著作权人是谁？未经授权使用作品构成侵犯著作权，侵犯的著作权具体又是什么？目前尚且没有确定的标准和法律，但它一定是未来的隐忧。

第二类公司其实具备一定的黑灰产属性，主要通过信息不对等赚一波快钱。对这类公司而言，本身就侵犯了OpenAI公司的知识产权，甚至可能因搬运AI生成内容构成不正当竞争。其次，如小程序、公众号等，都建构在腾讯等平台上，也需要接受平台的监督，有的小程序因此被封。

4. 信息霸权

在偏见与歧视方面，算法以数据为原料，如果初始使用的是有偏见的数据，这些偏见可能会随着时间流逝一直存在，无形中影响着算法运行结果，最终导致 AI 算法生成的内容存在偏见或歧视，引发用户对于算法的公平性争议。

而筛选信息的人也会存在意识形态的差异，模型反映出来的其实就是爬取数据所在国家人群的价值观，去生成图片也会有所在国家或地域的一些特色在里面，在此背景下，信息霸权是无法避免的问题。

风险规避，内容审核

ChatGPT有话要说

数美科技针对AIGC内容审核也推出了对应的内容审核解决方案，欢迎点击【阅读原文】咨询详情。

AIGC需要有自己的内容审核系统，这一点毋庸置疑，但UGC、PGC内容的差别在于，用户提问和设定条件的差异，会“诱导”AI创作出可能违法违规的内容，需要在数据喂养和模型训练阶段就加入审核机制。

就此问题，我们询问了ChatGPT本“人”，关于ChatGPT的审核系统、审核机制、违规内容判定标准，以及AIGC图像生成的风险和审核。

基建 ChatGPT style xff0c xff0 内容审核内容合规

有关数美科技风控前沿| AIGC需要什么内容风控基建？ChatGPT本“人”有话要说的更多相关文章

ruby - 为什么我可以在 Ruby 中使用 Object#send 访问私有(private)/ protected 方法？ - 2
类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc
ruby-on-rails - Rails - 子类化模型的设计模式是什么？ - 2
我有一个模型:classItem项目有一个属性“商店”基于存储的值，我希望Item对象对特定方法具有不同的行为。Rails中是否有针对此的通用设计模式？如果方法中没有大的if-else语句，这是如何干净利落地完成的？最佳答案通常通过Single-TableInheritance. 关于ruby-on-rails-Rails-子类化模型的设计模式是什么？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.co
ruby - 什么是填充的 Base64 编码字符串以及如何在 ruby 中生成它们？ - 2
我正在使用的第三方API的文档状态:"[O]urAPIonlyacceptspaddedBase64encodedstrings."什么是“填充的Base64编码字符串”以及如何在Ruby中生成它们。下面的代码是我第一次尝试创建转换为Base64的JSON格式数据。xa=Base64.encode64(a.to_json) 最佳答案他们说的padding其实就是Base64本身的一部分。它是末尾的“=”和“==”。Base64将3个字节的数据包编码为4个编码字符。所以如果你的输入数据有长度n和n%3=1=>"=="末尾用于填充n%
ruby - 解析 RDFa、微数据等的最佳方式是什么，使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2
我主要使用Ruby来执行此操作，但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式，例如使用这个yaml文件，它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
ruby - 将数组的内容转换为 int - 2
我需要读入一个包含数字列表的文件。此代码读取文件并将其放入二维数组中。现在我需要获取数组中所有数字的平均值，但我需要将数组的内容更改为int。有什么想法可以将to_i方法放在哪里吗？ClassTerraindefinitializefile_name@input=IO.readlines(file_name)#readinfile@size=@input[0].to_i@land=[@size]x=1whilex 最佳答案只需将数组映射为整数:@land边注如果你想得到一条线的平均值，你可以这样做:values=@input[x]
ruby - 为什么 4.1%2 使用 Ruby 返回 0.0999999999999996？但是 4.2%2==0.2 - 2
为什么4.1%2返回0.0999999999999996？但是4.2%2==0.2。最佳答案参见此处:WhatEveryProgrammerShouldKnowAboutFloating-PointArithmetic实数是无限的。计算机使用的位数有限(今天是32位、64位)。因此计算机进行的浮点运算不能代表所有的实数。0.1是这些数字之一。请注意，这不是与Ruby相关的问题，而是与所有编程语言相关的问题，因为它来自计算机表示实数的方式。关于ruby-为什么4.1%2使用Ruby返
ruby - ruby 中的 TOPLEVEL_BINDING 是什么？ - 2
它不等于主线程的binding，这个toplevel作用域是什么？此作用域与主线程中的binding有何不同？>ruby-e'putsTOPLEVEL_BINDING===binding'false 最佳答案事实是，TOPLEVEL_BINDING始终引用Binding的预定义全局实例，而Kernel#binding创建的新实例>Binding每次封装当前执行上下文。在顶层，它们都包含相同的绑定(bind)，但它们不是同一个对象，您无法使用==或===测试它们的绑定(bind)相等性。putsTOPLEVEL_BINDINGput
ruby - Infinity 和 NaN 的类型是什么？ - 2
我可以得到Infinity和NaNn=9.0/0#=>Infinityn.class#=>Floatm=0/0.0#=>NaNm.class#=>Float但是当我想直接访问Infinity或NaN时:Infinity#=>uninitializedconstantInfinity(NameError)NaN#=>uninitializedconstantNaN(NameError)什么是Infinity和NaN？它们是对象、关键字还是其他东西？最佳答案您看到打印为Infinity和NaN的只是Float类的两个特殊实例的字符串
ruby-on-rails - 如果 Object::try 被发送到一个 nil 对象，为什么它会起作用？ - 2
如果您尝试在Ruby中的nil对象上调用方法，则会出现NoMethodError异常并显示消息:"undefinedmethod‘...’fornil:NilClass"然而，有一个tryRails中的方法，如果它被发送到一个nil对象，它只返回nil:require'rubygems'require'active_support/all'nil.try(:nonexisting_method)#noNoMethodErrorexceptionanymore那么try如何在内部工作以防止该异常？最佳答案像Ruby中的所有其他对象
ruby - 为什么 SecureRandom.uuid 创建一个唯一的字符串？ - 2
关闭。这个问题需要detailsorclarity.它目前不接受答案。想改进这个问题吗？通过editingthispost添加细节并澄清问题.关闭8年前。Improvethisquestion为什么SecureRandom.uuid创建一个唯一的字符串？SecureRandom.uuid#=>"35cb4e30-54e1-49f9-b5ce-4134799eb2c0"SecureRandom.uuid方法创建的字符串从不重复？