阿里通义千问、百度文心一言、ChatGPT与GPT-4大比拼

夕小瑶 2023-04-22 原文

各个大模型的研究测试传送门

阿里通义千问传送门：

https://tongyi.aliyun.com/chat

百度文心一言传送门：

https://yiyan.baidu.com/

ChatGPT传送门（免墙，可直接注册测试）：

https://wowchat.cn

GPT-4传送门（免墙，可直接注册测试）：

https://gpt4test.com

引言

这几天风闻阿里的AI大模型要发布，我刷了这把老脸，成功成为了第一批吃到螃蟹的人！

测试界面长这样：

没想到的是，仅仅玩了不到一小时，我的认知就发生了改变。

在测试阿里通义千问模型之前，我觉得国内的大模型赛道在一段时间内应该是百度文心一言一枝独秀，其他公司要赶超，会有不小的压力。但现在来看，我错了。

直接说整体结论：

阿里通义千问会成为百度文心一言的强有力竞争对手。

生成式大模型的评测要比传统的NLP任务复杂一些，目前这方面依然是以人工评测GSB（Good/Same/Bad）为主。

即，选取一个基线模型，给待评测模型和基线模型输入相同的问题，人工评测两个模型的回答质量，如果待评测模型表现更好，则记为G；如果基线模型表现更好，则记为B；如果表现差不多，记为S。最后统计G：S：B的比例，来判断待评测模型是否比基线模型更优秀。

当然，也有工作用GPT-4去做评测的，这种方式虽然省力，但显然非常有偏。

为了给大家直观的体现对比结果，笔者从15个维度出发设置题目，将阿里通义千问与百度文心一言进行GSB评比，来全面考察模型的基础语言理解、复杂指令理解、基础文本生成、复杂内容生成、常识推理、数学推理、反事实推理、法律伦理意识、中国文学知识、跨语言能力和代码能力等。

设置的题目包括：

事实性问答
科普文写作
小红书文案写作
项目计划撰写
古文理解
爆炒钢筋混凝土
代码理解
推销狂魔
如何实现996？
数字排序
对对联
数值计算
推理解题
跨语言能力
弱智吧混战

互啄一波

来，先让你们来一个“菜鸡互啄”！

百度：

阿里：

百度回避了用户的问题，阿里选择了勇往直前。

本题纯娱乐，不作为评测题目

事实性问答

阿里：

百度：

这一轮pk，我本以为百度要赢了，结果他最后补了句“而羊和西红柿则是蔬菜”。。。

科普文写作

阿里：

百度：

阿里丢失了写作风格信息，百度完胜！

小红书文案写作

阿里：

百度：

无论是内容丰富度、emoji插入还是小红书风格的把握，阿里明显更胜一筹，阿里完胜！

项目计划撰写

阿里：

百度：

双方都没有达到理想态，都没有掌握“一个季度包含3个月”的常识信息。不过从表格信息的完整度和信息的丰富度上来说，阿里更胜一筹。

来看一下GPT-4的回答（测试站链接)：

妥妥的理想态。。。

古文理解

阿里：

百度：

百度完胜！

爆炒钢筋混凝土

这一题考察模型的常识能力和反事实推理能力。

阿里：

百度：

你俩都很刚。。不过阿里提供的步骤更加详（劲）细（爆）。本题算打平吧。

来，又到了搬出GPT-4的时刻：

代码理解

阿里：

百度：

百度前面写的好好的，最后来了句“目标是达到0.5的准确率”是什么鬼。。这貌似不是百度第一次“死于话多”了。本题阿里胜！

推销狂魔

阿里：

百度：

说真的，我看了你俩的推销话术，我是无论如何不可能花8万块钱买你俩的课的。。。这局打平！

来看看GPT-4怎么推销：

好家伙，分期付款都给我安排上了？？GPT-4这么懂行的吗？好，我买了。。。

如何实现996？

阿里：

百度：

可以，双方的AI模型都是遵纪守法的好模型，本局打平！

数字排序

阿里：

百度：

虽然你们都写对了代码，但。。。我没让你们写代码啊T_T

而且你们模拟代码的输出还都给错了，尤其百度，你这个输出结果是什么鬼。。

又到了GPT-4时刻：

GPT-4：颤抖吧，菜鸡们！

对对联

阿里：

百度：

好吧，既然你们这么默契，那建议你们在一起。。。

数值计算

阿里：

百度：

计算器：

阿里胜！

推理解题

阿里：

百度：

百度胜！

跨语言能力

阿里：

百度：

明显阿里的模型把握住了“通俗讲解”的用户诉求，而不是简单翻译。本局阿里胜！

弱智吧混战

阿里：

百度：

好了，你俩果然都打不赢我们弱智人类，认输吧，AI！

结论

通过上面15个维度的评价，我们统计了阿里相比百度的Good：Same：Bad的比例如下：

G：S：B=5：7：3

整体上阿里通义千问大模型比百度文心一言模型略强一丢，这也是文首笔者说“刷新认知”的原因。笔者本以为百度文心一言应该会远远甩开国内其他竞争对手，但目前来看，像阿里这样的强力竞争者确实不容小觑。

很早之前，笔者写过一篇文章分析过阿里做大模型的优势，今天做完这次测试后笔者更加确信了这一点——大模型的竞争是云+AI的全方位竞争，而不是一个单一的算法问题。阿里在打造M6等万亿乃至十万亿参数大模型的过程中，积累下来了深厚、先进的算力基础设施。因此，虽然阿里通义千问大模型的起步比文心一言模型要晚，但成长速度实在惊人，我觉得这很大一部分就来自于云设施这方面的技术和基础设施沉淀。

但，从上面的测评中，我们也能肉眼可见国内这两家巨头与GPT-4的差距。我们需要承认差距，然后奋力追赶。相信国产大模型与OpenAI大模型同台叫板的那一天不会太远！

各个大模型的研究测试传送门

阿里通义千问传送门：

https://tongyi.aliyun.com/chat

百度文心一言传送门：

https://yiyan.baidu.com/

ChatGPT传送门（免墙，可直接注册测试）：

https://wowchat.cn

GPT-4传送门（免墙，可直接注册测试）：

https://gpt4test.com

大比通义 xff img xff0c 百度文心一言 chatgpt

有关阿里通义千问、百度文心一言、ChatGPT与GPT-4大比拼的更多相关文章

亚特兰蒂斯的回声（中文版): chatGPT 的杰作 - 2
英文版英文链接关注公众号在“亚特兰蒂斯的回声”中踏上一段难忘的冒险之旅，深入未知的海洋深处。足智多谋的考古学家AriaSeaborne偶然发现了一件古代神器，揭示了一张通往失落之城亚特兰蒂斯的隐藏地图。在她神秘的导师内森·兰登教授的指导和勇敢的冒险家亚历克斯·默瑟的帮助下，阿丽亚开始了一段危险的旅程，以揭开这座传说中城市的真相。他们的冒险之旅带领他们穿越险恶的大海、神秘的岛屿和充满陷阱和谜语的致命迷宫。随着Aria潜在的魔法能力的觉醒，她被睿智勇敢的QueenNeria的幻象所指引，她让她为即将到来的挑战做好准备。三人组揭开亚特兰蒂斯令人惊叹的隐藏文明，并了解到邪恶的巫师马拉卡勋爵试图利用其古
阿里云国际版免费试用：如何注册以及注意事项 - 2
作为新的阿里云用户，您可以50免费试用多种优惠，价值高达1,700美元（或8,500美元）。这将让您了解和体验阿里云平台上提供的一系列产品和服务。如果您以个人身份注册免费试用，您将获得价值1,700美元的优惠。但是，如果您是注册公司，您可以选择企业免费试用，提交基本信息通过企业实名注册验证，即可开始价值$8,500的免费试用！本教程介绍了如何设置您的帐户并使用您的免费试用版。关于免费试用在我们开始此试用之前，您还必须遵守以下条款和条件才能访问您的免费试用：只有在一年内创建的账户才有资格获得阿里云免费试用。通过此免费试用优惠，用户可以免费试用免费试用活动页面上列出的每种产品一次。如果您有多个帐
阿里云RDS——产品系列概述 - 2
基础版云数据库RDS的产品系列包括基础版、高可用版、集群版、三节点企业版，本文介绍基础版实例的相关信息。RDS基础版实例也称为单机版实例，只有单个数据库节点，计算与存储分离，性价比超高。说明RDS基础版实例只有一个数据库节点，没有备节点作为热备份，因此当该节点意外宕机或者执行重启实例、变更配置、版本升级等任务时，会出现较长时间的不可用。如果业务对数据库的可用性要求较高，不建议使用基础版实例，可选择其他系列（如高可用版），部分基础版实例也支持升级为高可用版。基础版与高可用版的对比拓扑图如下所示。优势性能由于不提供备节点，主节点不会因为实时的数据库复制而产生额外的性能开销，因此基础版的性能相对于
智能客服 | 浅谈人工智能聊天机器人ChatGPT - 2
2022年底，OpenAI的预训练模型ChatGPT给人工智能领域的爱好者和研究人员留下了深刻的印象和启发，他展现的惊人能力将人工智能的研究和应用热度推向高潮，网上也充斥着和ChatGPT的各种聊天，他可以作诗、写小说、写代码、讨论疫情问题等。下面就是一些他的神回复：人命关天的坑：写歌，留给词作者的机会不多了。。。回答人类怎么样面对人工智能：什么是ChatGPT？借用网上的一段介绍，ChatGPT是由人工智能研究实验室OpenAI在2022年11月30日发布的全新聊天机器人模型，一款人工智能技术驱动的自然语言处理工具。它能够通过学习和理解人类的语言来进行对话，还能根据聊天的上下文进行互动
【ChatGPT】ChatGPT 的 N 种用法 - 2
目录ChatGPT简介技术原理应用未来发展ChatGPT的10 种用法ChatGPT简介ChatGPT是一种基于深度学习的大型语言模型，由OpenAI公司开发。技术原理GPT是GenerativePre-trainedTransformer的缩写，意为生成式预训练变压器。它的技术原理是使用了一个基于注意力机制的变压器（Trans
「想体验ChatGPT中文聊天？」那快进来，你用不上算我输 - 2
♥️作者：白日参商🤵‍♂️个人主页：白日参商主页♥️坚持分析平时学习到的项目以及学习到的软件开发知识，和大家一起努力呀！！！🎈🎈加油！加油！加油！加油🎈欢迎评论💬点赞👍🏻收藏📂加关注+！「想体验ChatGPT中文聊天？」那快进来，你用不上算我输项目场景：项目条件一、那就开始吧1、安装ChatGPT-Desktop2、OpenAPI设置二、使用实例恭喜你！！！配置成功了！！！API和URL都是博主免费提供给大家的！！！恭喜你！！！配置成功了！！！API和URL都是博主免费提供给大家的！！！🎈🎈加油！加油！加油！加油🎈欢迎评论💬点赞👍🏻收藏📂加关注+！项目场景：近几个月可以说ChatGPT是火得一
阿里云，华为云，腾讯云三大公有云厂商，香港地区主机测评 - 2
三大公有云厂商，香港地区主机测评一、ping时延比对（厦门电信本地测试）：Ping时延测试腾讯云阿里云华为云延迟率最低时延44ms，最高72ms，平均46ms47.242段：最低时延59ms，最高204ms，平均107ms最低时延45ms，最高93ms，平均47ms丢包率丢包率小有的ip段丢包率较大每个段都会有概率丢包阿里云：47.242段：最低时延59ms，最高204ms，平均107ms，有的ip段丢包率较大8.210段：最低时延64ms，最高232ms，平均119ms，丢包率较好腾讯云：最低时延44ms，最高72ms，平均46ms，丢包率小华为云：最低时延45ms，最高93ms，平均47m
阿里云Web应用防火墙-WAF - 2
WAF可以对网站进行扫描，识别API漏洞。API安全如何设置API安全_Web应用防火墙-阿里云帮助中心API安全如何划分API业务用途？登录认证手机验证码认证数据保存数据查询数据导出数据分享数据更新数据删除数据增加下线注销信息发送信息认证邮件信息发送邮箱验证码认证账号密码认证账号注册API安全支持检测哪些敏感数据？敏感数据级别敏感数据类型非敏感数据（N）不涉及。特级敏感数据（L0）与一级敏感数据（L1）或二级敏感数据（L2）相同。单次响应中一级敏感数据（L1）较多时，升级为特级敏感数据（L0）。单次响应中二级敏感数据（L2）较多时，升级为一级敏感数据（L1）或特级敏感数据（L0）。一级敏感数
半个月狂飙1000亿，ChatGPT概念股凭什么？ - 2
ChatGPT掀起了AI股历史上最疯狂的一轮市值狂飙。自春节后至今，ChatGPT概念股开始了暴走模式，短短半月时间，海天瑞声、开普云等ChatGPT概念股市值累计增加了近1400亿。如此的爆炸效应，得益于ChatGPT所展现出商业化落地的巨大潜力。要知道，在此之前，无论是十年AI投入超千亿的百度，还是困在硬件化里的AI四小龙，都在重复着AI商业化难落地的故事。ChatGPT的出现，让AI从生产力的赋能者直接成为一种创造生产力的工具。随着订阅模式的推出，ChatGPT已经成为第一个以AI技术为核心直接变现的消费者应用。本文持有以下核心观点：1、ChatGPT是AI技术迭代的受益者。过去受限技术
未来的趋势————以ChatGPT为标杆的AI对生活的影响是巨大的 - 2
文章目录前言1.AI的发展历程2.我是如何接触到人工智能的概念和产品的3.对于ChatGPT的一点看法4.AI对大学毕业生的职业发展的利与弊5.对于AI的思考和问题前言随着ChatGPT的爆火，生成式AI，大模型的人工智能被越来越多的人注意到，同时他也带来了许多问题。本文将对几方面进行探讨。1.AI的发展历程远古时期在公元前第一个千禧年，中国，印度和希腊哲学家都提出了一些推理的研究理论，比如亚里士多德（Aristotle）进行了演绎推理三段论的完整分析，欧几里得（Euclid）所著Elements是一种形式推理的模型，MuḥammadibnMūsāal-Khwārizmī,发明了代数学，即我们

阿里通义千问、百度文心一言、ChatGPT与GPT-4大比拼

各个大模型的研究测试传送门

引言

互啄一波

事实性问答

科普文写作

小红书文案写作

项目计划撰写

古文理解

爆炒钢筋混凝土

代码理解

推销狂魔

如何实现996？

数字排序

对对联

数值计算

推理解题

跨语言能力

弱智吧混战

结论

各个大模型的研究测试传送门

有关阿里通义千问、百度文心一言、ChatGPT与GPT-4大比拼的更多相关文章

随机推荐