一开始我们内部AI老友热议ChatGPT的时候,大家首先思考的是,ChatGPT怎么和搜索技术结合起来,它能颠覆搜索吗?
搜索是可追踪的,返回的每条结果都有记录,谈不上信息融合。ChatGPT是不可追踪的,长于信息融合:ChatGPT本质上不存在抄袭的可能性,它给你吐出来的每句话,都是自己消化之后的语言。可见,传统搜索与ChatGPT是两个完全不同的处理方式,各有优缺点。
搜索是信息服务之王,无处不在,有自己的巨头(谷歌,还有中国的百度)和非常稳定的商业模式。自从Web1.0时代搜索崛起以来,搜索的形态和模式基本没有改变,二十多年了。其实,多年来一直不断有新技术和创业者企图挑战搜索,风险投资界也一直关注可能成为“next Google”的潜在的搜索颠覆者,但搜索的地位一直固若金汤。但这一次有所不同,微软携ChatGPT的独家代码授权,大刀阔斧高调发布所谓“new Bing”。躺着赚钱的谷歌不得不紧急动员,正面迎战。一场搜索+LLM的大戏正在上演,像个活话剧,告诉我们虽然融合两项技术还有很多困难需要克服,但大势所趋,重塑搜索新生态势在必行。

除了搜索,那些被打磨得很圆的定向信息产品和服务,现在全部面临被重新审视和洗礼的宿命,包括聊天、功能对话、文法纠错、机器翻译、文摘、知识问答等等,这些方面的代表作品(Siri、小冰、Gramnarly等)以前曾有的技术护栏,一下子被降低了,真好像大水冲了龙王庙。
NLP龙王庙中,虽然不少产品由于多年的打磨以及用户的惰性,还不至于面临灭顶之灾,有的还可能存续很长时间,毕竟都在走下坡的路。这是通用AI对于传统AI的划时代胜利。是我们以前不敢相信的,曾经那么地怀疑通用路线,就等着看鼓吹AGI人的笑话,谁想到人家不笑则已,一笑倾城,甚至“倾国倾球”,所向披靡。
看看13年前苹果就发布的Siri。13年比深度学习革命黄金十年的历史还要长,但搞到现在Siri才刚刚推出两轮或者三轮的对话能力。现在来了个ChatGPT降维打击,苹果怎么办?肯定只有拥抱LLM。亚马逊的风云产品Alexa也是一样,也打磨了好几年了,积累了那么多的用户数据。虽然它在边边角磨得很圆,不可能马上被取代,但依然会面临技术上的调整。

再者是大家常见的电商客服,众所周知,无论是阿里、还是京东的在线售后客服都打磨得很圆了。因为售后服务的问题相对比较集中,问题集不大,在积累了足够数据以后,用户体验就慢慢好起来了。但客服不仅仅局限于售后的问题答复,当客户提出的问题超越了预期的问题集的时候,目前客服常常显得“人工智障”,无论理解和回应都捉襟见肘。面对ChatGPT的问答超能力和多轮对话的丝滑性,怎么办?除了拥抱它,没有别的出路。
在ChatGPT之前,小冰算是把多轮聊天推到了极致,据报道有人痴迷于与她聊天,聊一个晚上还意犹未尽。它打造具有人格化的形象,可以与人做情感上的交流。在前ChatGPT时代,小冰是聊天的绝对天花板,多轮交互的能力把对手远远抛在后面。谁料想半路杀出个程咬金,ChatGPT出来后,小冰的地位就显得非常尴尬。ChatGPT可不是为了闲聊设计的,chat只是它为了达到多任务的一个桥梁,本质上是人机接口,聊天只是它的副产品,即便如此,通用大模型还是实现了降维横扫定向产品的效果。在ChatGPT的丝滑度和通用性面前,一个人格化的聊天机器人跟它不在一个层次上。除了去拥抱它,仍别无他法。
在国外,怎么修改作文的拼写、语法错误这一块,用户体验做得最好,唯一活下来站稳市场的只有Grammarly,有上亿用户了。现在它的地位也极为尴尬,因为同样的辅助写作,ChatGPT也是拿手好戏。长远一点来看,Grammarly的选择也终将如此,要么去拥抱ChatGPT,要么就走向末路。
谷歌MT是机器翻译领域的代表,国内的有道、搜狗和百度也是用的神经机器翻译,但同属神经路线的ChatGPT出来以后,仍然是一种降维打击。用ChatGPT去做机器翻译,译文更加地道而且多样化。生成大模型的随机本性使得每次翻译出来的结果都有所不同,你可以拿同一个文本不断的试它,然后挑其中一个你最满意的。专项机器翻译系统显然面临如何拥抱LLM的问题。
最后谈谈教育。ChatGPT大模型降维碾压所有的教育产品,是很显然的。在教育赛道,搞生态产品应用的人,都需要在大模型的框架下重新审视一遍怎样拥抱这个LLM新时代。教育本身是跟语言打交道的,无论文理。虽然现在的大模型理工科能力不怎么强,但这个知识短板应该很快就会得到不同程度的弥补。ChatGPT必然对教育带来颠覆,同时也为教育现代化提供了一个最大的机遇。语言学习与电脑编程教育就不用说了,ChatGPT本身就是一个语言大模型。虽然目前它的编程还不到专业工程师的水平,但是常用的代码形式已经学得很好了,至少它能辅助你的编程,实际上,GPT赋能的Co-pilot已经成为越来越多码农的辅助工具了。

往后退一步,我们同时也面临着一个巨大的风险,比如说假新闻。如果你希望吹捧一家公司,你可以让ChatGPT生成出五花八门的软文来,讲得头头是道。那些大众点评将来也会被真假莫辨的评论所掩盖,因为制造假新闻的成本趋近于零。如果没有很好的防范措施,这一切就会把人类置于真假莫辨的世界之中。我们现在一直在讲它的好处,LLM怎样赋能新生态,相信在新生态下,今后的五到十年一定会出现新的阿里、百度等等,这是从发展的角度看技术生态的大转变。但我们面对的LLM滥用的危险同样巨大,人类准备好了吗?显然还没有。当然,这是另一个话题,我们这里就点到为止。
以ChatGPT为巅峰的LLM好比核弹,有了它,还有更多的产品形态和赛道等待创业者开拓和落地。

关于这个话题,我们需要特别强调ChatGPT带来的前所未有的创业条件:ChatGPT本身已经成为一个产品的试验场,它就是一个门槛无限低、人人可玩的playground(游乐园)。门槛低是因为前面提到的人机接口的范式改变(paradigm shift)。AI历史上第一次,机器开始迁就人,而不是人迁就机器。是人类语言,而不是计算机代码成为人机交互的工具,这个改变对于NLP新生态大爆发的意义,怎么强调也不过分。实际上,这是为“万众创业”提供了条件。
AI创过业的人应该都有这个体会。创业团队要有成功的机会,最基本的一条是产品老总与技术老总能够密切配合和沟通。产品老总凭着自己的市场直觉和对于客户需求的了解,努力寻找技术转化为服务的最佳市场切入角度,形成产品的设计方案。这个设计方案的可行性需要技术老总来验证和背书。然而,很多时候,由于不同的专业背景和知识结构,产品老总与技术老总鸡同鸭讲的情况也不罕见,一旦出现这种情况,这个创业公司基本上注定没戏。
ChatGPT根本上杜绝了鸡同鸭讲的问题。以前只有技术老总和码农可以验证一个方案的可行性,现在好了,产品老总/CXO、工程技术人员、数据分析员、用户这些不同背景和专长的人,都有一个统一的平台ChatGPT,可以交流产品的创意。大家可以在上面去做模拟的服务。不仅是人机之间,而且人类之间的交流障碍都被克服了。这个东西的发生,就是一个产品大爆发和万众创业的先机条件。
在美国,有好几百家初创公司,现在跟着大模型去做,你上游的大模型还没有完全理顺,他们在下游做的东西就是正在进行时了。还有无数的普通大众,不断的在网上现身说法,告诉大家如何两三个小时就能利用ChatGPT赚到5000块钱,这一类分享越来越多,这意味着草根群众的创业积极性被调动起来了。每个人似乎都可以利用这个机会去找到一个创业视角。归纳总结这些草根的创意,也可能找到可以流程化规模化的满足市场需求的信息服务的新赛道。
ChatGPT这样的大模型最终是一种操作系统级别的存在,每一个与AI有关的,特别是语言和知识有关的信息产品和服务,都离不开它。当年英特尔主导的时候,那个著名的logo是Intel Inside,将来就是Chat-Inside,这还不够准确,应该叫Chat-In&Out。怎么讲?ChatGPT这样的大模型赋能产品的时候,它既是服务员也是大厨,服务员可以跟你接单子,对话交互,了解需求,同时,它还自己去做工,满足你的信息需求,交付也还是它。既有表又有里,既用到它的语言天才,也要用它的知识技能。
这就是我说的在未来的五年可能是最大发展的一个新生态形式,叫做LLM专家坐台,它或许会打开了无数的创业大门。基本的服务形态就是各行各业的在线信息服务,不管是在线教育、在线律师、在线顾问、在线金融、在线旅游,都是奔着大幅度提高服务的效率去的。有了ChatGPT之后,你只需要雇一个专家,来代替以前需要10个专家甚至100个专家才能应对的任务,最后迎来的就是生产力大爆发。
至此,应用生态很清晰了,也靠谱。原则就是对结果要专家最后把关(human judge as final filter)。这是最基本的设置,当然也不排除专家对于输入做提示词的调配,以便激发LLM回应更好的结果。

对几乎每一个场景应用,都有一个打造专家工作台(“坐台”)的任务。下游创业沿着这个思路去,有无数切入市场的机会,包括补充现有产品或服务的不足,例如在线教育的每一个细分场景,还有在线医生,在线律师,在线金融咨询,等等,也包括去开拓以前不敢想或没想到的业务场景。这是看得见的即将发生的生态形态的大变革,或重新洗牌,提供的是高效专家建议(expert-in-loop services)。
说到坐台,国内电商大厂都曾经打造过有相当规模的客服坐台,那是在用户需求和满意度无法用全自动方案满足,更无法用全人工应对的压力下出台的。现在有了LLM,继承这种形态推广到所有在线服务领域的条件已经成熟。这件事所能带来的生产率大爆发,超出想象。
“Human as judge”的设计理念在近几年的低代码平台(例如RPA平台、parser-enabed信息抽取平台等)已经验证了其有效性和有效率性。我的最新几个专利就专门讲的这个过程(human as judge to replace human as coder),但这是说的低代码快速开发环境,这个human虽然不必要手工写代码,但还是要熟悉软件开发的流程,例如单元测试、回归测试和debug等等,不是仅仅就做个judge。这里说的是全新的形态,human只需要做judge即可完成服务。现在完全有可能打造针对各种细分赛道或场景的在线信息服务“坐台”。具体说,专家的作用只是在最终go or no-go 的当口,以他的知识和经验做出判定。做裁判比做运动员,效率要高太多了。
值得强调的是,这次ChatGPT横空出世带来的新鲜事儿是,ChatGPT既是后台也坐前台。这就好比找对象娶媳妇,通常都是漂亮的见识短,能干的不漂亮。突然来了一位既“万能”又漂亮的,这无法不激发无数追求者的想象极限。我们信息产业的创业者就是ChatGPT的追求者。上得厅堂下得厨房,说的就是ChatGPT,这是因为chat只是ChatGPT的表,本质是人机接口,而能够完成NLP各种任务才是它的里子。有表有里,就可以围绕它建立下游生态的产品或服务。英特尔时代,电脑产品的品牌广告记得是Intel inside,今后的新生态应该叫chat in&out,指的就是LLM赋能的新生态,不仅赋能人机交互的表面,同等重要的,或者更重要的(看具体落地服务的性质了),是也赋能产品服务的内涵,只是要让专家最后把个关。在这种形态下,专家也还是隐身在台后的。就是说,活交给它做,出面交付也还是它,只是后面安插一个专家督导和裁决而已。再打个比方,LLM既是服务员也是大厨,只是出餐前需要一个经理过一下目,为服务质量把关,也承担责任(例如在线医生、在线律师、在线咨询师等)。
在这样的生态下,今后5年会是在线服务的大爆发时期。赶巧的是,三年疫情也极大推动了在线服务的草根意识(awarenss),帮助养成了用户的在线习惯,培育了市场。例如我个人疫情前从来不用外卖的apps,也不用在线医生,可是现在二者都用了,比以前自己到餐馆点外卖,为个伤风感冒自己去预约诊所,不知道方便了多少,再也不想回到以前的低效率线下服务了。天时地利,借着这个东风,新生态不可能没有机会。

怎样建造坐台?既然已经LLM in&out了,听上去好像这个坐台谁都可以建,每个坐台配上专家,明天就可以在线开业服务了,那还有创业者什么事儿?当然不是这么简单。这是因为ChatGPT这样的LLM作为工作引擎(work horse),显示出各种专业知识的潜力,但这种潜力却是漏洞百出、有内伤的。这些内伤前面论过,按照现在的路线是不可根治的。就是说,表面光,里子并不扎实,结果不可靠,甚至会要人命的。坐台的建设就是要试图解决这个问题:如何加强内功,使得其在线服务,仅仅需要expert的流程化介入,而不是专家的生产性投入(例如RPA)。要的是坐台部署以后output一端的结果审核(go/no-go及校订post-editing),这都是在线的介入,而不是离线的调教(fine tune)。离线调教是坐台建设者的任务,这就开始有点渐入新生态的深水区了,其中有些路线图是蛮清晰的,有些是可以预见不久会解决的,还有较少的一些点,目前不够清晰,还需要探索和进一步验证。
细看一下这里的主要问题在哪里,有哪些可能的突破点和解决方案呢?首先,论专业知识的广度,LLM很厉害。没办法,人家记忆力强,肚子大,消化的材料多,这些都超出了专家,你可以用一个领域的专有术语去试试就知道了,LLM对任何一个很偏很狭窄的主题都会有自己的消化总结,成套成套的,可能细处有错漏,但在面面俱到方面碾压专家。为什么这一点也很重要,因为LLM弥补了人类包括专家的缺陷,用软件的话说,人类precision(精度)有余,recall(召回)不足;而LLM正相反,precision不足,recall有余。LLM可以把可能遗漏的东西,从大数据的黑洞翻上来,随时提到人类认知的雷达上。因此,坐台建设的重中之重就是要克服LLM的precision瓶颈。
我们并不企图彻底解决这个问题:话说回来,如果彻底解决了,就没有人类什么事儿了,前景很诡异,不论。我们是要把精度提高到这样的程度,其结果不至于严重影响坐台的在线专家的工作效率。LLM如果用一堆垃圾轰炸专家肯定是不行的。只要LLM输出的结果有1/4可以达到手工专家自己调研所能达到的水平,这个坐台的效率就得到了保障,这个在线服务就可能站得住。因为专家不过就是4个go/no-go的裁决而已,由于这4个结果的最优解的出场是随机的,对于专家的实际工作体验,大约也就是每看两个结果,就可以放行一个,GO!这不是负担,也不会降低在线服务的效率和竞争性。1/4是一个容错性很大的预期,现在的求精方案达到这个门槛,总体是具有可行性的。正因为有了这个总体具有可行性的基本判断,才可以结论说:LLM新生态下的创业大门的确是打开了。
导读语言模型给我们的生产生活带来了极大便利,但同时不少人也利用他们从事作弊工作。如何规避这些难辨真伪的文字所产生的负面影响也成为一大难题。在3月9日智源Live第33期活动「DetectGPT:判断文本是否为机器生成的工具」中,主讲人Eric为我们讲解了DetectGPT工作背后的思路——一种基于概率曲率检测的用于检测模型生成文本的工具,它可以帮助我们更好地分辨文章的来源和可信度,对保护信息真实、防止欺诈等方面具有重要意义。本次报告主要围绕其功能,实现和效果等展开。(文末点击“阅读原文”,查看活动回放。)Ericmitchell斯坦福大学计算机系四年级博士生,由ChelseaFinn和Chri
英文版英文链接关注公众号在“亚特兰蒂斯的回声”中踏上一段难忘的冒险之旅,深入未知的海洋深处。足智多谋的考古学家AriaSeaborne偶然发现了一件古代神器,揭示了一张通往失落之城亚特兰蒂斯的隐藏地图。在她神秘的导师内森·兰登教授的指导和勇敢的冒险家亚历克斯·默瑟的帮助下,阿丽亚开始了一段危险的旅程,以揭开这座传说中城市的真相。他们的冒险之旅带领他们穿越险恶的大海、神秘的岛屿和充满陷阱和谜语的致命迷宫。随着Aria潜在的魔法能力的觉醒,她被睿智勇敢的QueenNeria的幻象所指引,她让她为即将到来的挑战做好准备。三人组揭开亚特兰蒂斯令人惊叹的隐藏文明,并了解到邪恶的巫师马拉卡勋爵试图利用其古
2022年底,OpenAI的预训练模型ChatGPT给人工智能领域的爱好者和研究人员留下了深刻的印象和启发,他展现的惊人能力将人工智能的研究和应用热度推向高潮,网上也充斥着和ChatGPT的各种聊天,他可以作诗、写小说、写代码、讨论疫情问题等。下面就是一些他的神回复:人命关天的坑: 写歌,留给词作者的机会不多了。。。 回答人类怎么样面对人工智能: 什么是ChatGPT?借用网上的一段介绍,ChatGPT是由人工智能研究实验室OpenAI在2022年11月30日发布的全新聊天机器人模型,一款人工智能技术驱动的自然语言处理工具。它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动
目录ChatGPT简介技术原理应用未来发展ChatGPT的10 种用法ChatGPT简介ChatGPT是一种基于深度学习的大型语言模型,由OpenAI公司开发。技术原理GPT是GenerativePre-trainedTransformer的缩写,意为生成式预训练变压器。它的技术原理是使用了一个基于注意力机制的变压器(Trans
♥️作者:白日参商🤵♂️个人主页:白日参商主页♥️坚持分析平时学习到的项目以及学习到的软件开发知识,和大家一起努力呀!!!🎈🎈加油!加油!加油!加油🎈欢迎评论💬点赞👍🏻收藏📂加关注+!「想体验ChatGPT中文聊天?」那快进来,你用不上算我输项目场景:项目条件一、那就开始吧1、安装ChatGPT-Desktop2、OpenAPI设置二、使用实例恭喜你!!!配置成功了!!!API和URL都是博主免费提供给大家的!!!恭喜你!!!配置成功了!!!API和URL都是博主免费提供给大家的!!!🎈🎈加油!加油!加油!加油🎈欢迎评论💬点赞👍🏻收藏📂加关注+!项目场景:近几个月可以说ChatGPT是火得一
文章目录概述背景为何要存算分离优势**应用场景**存算分离产品技术流派华为JuiceFSHashDataXSKY概述背景Hadoop一出生就是奔存算一体设计,当时设计思想就是存储不动而计算(code也即是代码程序)动,负责调度Yarn会把计算任务尽量发到要处理数据所在的实例上,这也是与传统集中式存储最大的不同。为何当时Hadoop设计存算一体的耦合?要知道2006年服务器带宽只有100Mb/s~1Gb/s,但是HDD也即是磁盘吞吐量有50MB/s,这样带宽远远不够传输数据,网络瓶颈尤为明显,无奈之举只好把计算任务发到数据所在的位置。众观历史常言道天下分久必合合久必分,随着云计算技术的发展,数据
ChatGPT掀起了AI股历史上最疯狂的一轮市值狂飙。自春节后至今,ChatGPT概念股开始了暴走模式,短短半月时间,海天瑞声、开普云等ChatGPT概念股市值累计增加了近1400亿。如此的爆炸效应,得益于ChatGPT所展现出商业化落地的巨大潜力。要知道,在此之前,无论是十年AI投入超千亿的百度,还是困在硬件化里的AI四小龙,都在重复着AI商业化难落地的故事。ChatGPT的出现,让AI从生产力的赋能者直接成为一种创造生产力的工具。随着订阅模式的推出,ChatGPT已经成为第一个以AI技术为核心直接变现的消费者应用。本文持有以下核心观点:1、ChatGPT是AI技术迭代的受益者。过去受限技术
文章目录前言1.AI的发展历程2.我是如何接触到人工智能的概念和产品的3.对于ChatGPT的一点看法4.AI对大学毕业生的职业发展的利与弊5.对于AI的思考和问题前言随着ChatGPT的爆火,生成式AI,大模型的人工智能被越来越多的人注意到,同时他也带来了许多问题。本文将对几方面进行探讨。1.AI的发展历程远古时期在公元前第一个千禧年,中国,印度和希腊哲学家都提出了一些推理的研究理论,比如亚里士多德(Aristotle)进行了演绎推理三段论的完整分析,欧几里得(Euclid)所著Elements是一种形式推理的模型,MuḥammadibnMūsāal-Khwārizmī,发明了代数学,即我们
目录1古彝文与古典保护2古文识别的挑战2.1西文与汉文OCR2.2古彝文识别难点3合合信息:古彝文保护新思路3.1图像矫正3.2图像增强3.3语义理解3.4工程技巧4总结1古彝文与古典保护彝文指的是云南、贵州、四川等地的彝族人使用的文字,区别于现代意义上的彝文,古彝文指的是在民间流通使用的原生态彝文,多达87046字。古彝文的起源距今至少数千年,是世界上最古老的文字之一。对古彝文字集研究有助于理解尚未被翻译成汉文、用字尚未规范化的古籍,更深层、透彻地作用于传统文化保护。古彝文字义对照图(网络资料+邵文苑供图)古籍是不可再生的宝贵资源,应当得到妥善保护。中国的古籍在历史上迭经水火兵燹等自然灾害、
给定以下内容,如何获取URL的完整路径uri=URI("http://foo.com/posts?id=30&limit=5#time=1305298413")我只想要posts?id=30&limit=5#time=1305298413我试过uri.path并返回/posts和ui.query返回'id=30&limit=5' 最佳答案 您要找的方法是request_uriuri.request_uri=>"/posts?id=30&limit=5"如果需要,您可以使用任何您想要删除前导/的方法。编辑:要获取#符号后的部分,请使用