ChatGPT在源代码分析中可靠吗？

鸿渐科技 2023-05-16 原文

引文

ChatGPT自发布以来，它在各行各业都掀起了一股学习热潮。由于其惊人的语言理解和生成能力，ChatGPT已经备受全世界瞩目。它在智能对话、翻译、摘要、文本生成等领域中展现出了非凡的能力，让人们对其充满了好奇、敬畏和赞叹之情，同时开始怀疑自己的行业是否马上就会被人工智能所替代，甚至感到担忧。

作为代码分析领域中的从业者，GPT是否对这个领域具有较强的冲击力呢？本文将以敏感性这个代码分析中最重要的指标对GPT进行简单的测试以探究ChatGPT在敏感性相关的代码分析过程中的表现，我们以C/C++程序中关注度较高的内存泄漏为例进行测试。在测试中，我们发现ChatGPT展现出了一定的精度和检测能力，能够识别和定位部分代码中潜在的内存泄漏问题。但与绝大部分自动检测工具类似，也会在一些敏感性相关的代码分析中表现不足，出现较低级误报和漏报。

以下是一些内存泄漏相关的片段代码在ChatGPT中的分析结果与误漏报分析。

例0

基础代码片段

分析：ChatGPT对于该例子的判断和分析过程都是正确的。我们在此例子上增加敏感性看看他的表现。

例1

流敏感（误报）

误报分析：对代码稍做修改，增加流敏感性，将flag的初值设置为1，然后再改为0，chatGPT检测的结果是误报，且分析过程也出现了错误。采用我们的代码分析工具做了流敏感分析是不会出现该误报的。

例2

路径敏感（误报）

分析：虽然chatGPT给出的判断结果是正确的，但是分析过程存在一些问题。第一个条件语句中，如果a小于b，就将b重置为a-1，那么第二个条件的a<b就一定不成立，所以肯定会导致内存泄漏，但chatGPT分析不出来第一个条件分支执行后对第二个条件分支的影响，所以给出的分析是一些笼统的判断。

误报分析：这是一个路径敏感的小例子，ChatGPT给出的结果是误报。在第一个条件判断中，如果a>=b，那么b会被重置为a+1，以保证第二个条件语句的条件a<b一定成立，那么程序肯定会调用free(ptr)语句，因此不存在内存泄漏问题。所以chatGPT给出的判断和分析都不正确。采用我们的代码分析工具是做了常量传播是不会出现该误报的。

例3

上下文敏感（误报）

误报分析：这是一个典型的上下文敏感的例子，chatGPT给出的判断结果显然是误报。ptr1将调用函数Fun分配内存，ptr2同样调用了函数Fun，但并没有分配内存。在函数结尾处释放了ptr1，不存在内存泄漏问题。而chatGPT分析中得到了ptr2为NULL指针，却又说另一个内存块没有被释放，明显是错误的。

例4

域敏感（漏报）

漏报分析：chatGPT给出的判断是不存在内存泄漏，很明显这是漏报。分析中指出了分配了两块内存，只释放了一块内存，分析结果却是“没有任何未释放的内存块，不会发生内存泄漏”。采用我们的代码分析工具，对每个内存段都建立的模型就不会出现该漏报。

分析：同样的例子，当将参数改为free(ptr[1])，chatGPT给出的判断结果仍是不存在内存泄漏，所以仍是漏报。分析中指出了分配了两块内存，只释放了一块内存，分析过程说是剩余的内存由程序退出时释放。

分析：笔者反复将free(ptr[0])和free(ptr[1])修改几次，chatGPT给出的结果是free(ptr[1])判断有内存泄漏，free(ptr[0])没有内存泄漏。与前面的结果对比，在分析过程中出现了同样的代码，却给出了不同的判断结果，这种情况让使用者产生了极大的困惑。根据笔者的经验，在代码分析工具使用过程中，多次结果的不一致问题是不可接受的，可靠性同样是衡量工具优劣的重要指标之一。

总结

通过对上述片段代码在ChatGPT中进行简单测试后，不难发现，尽管ChatGPT在一定程度上能够帮助代码分析，但其分析结果的准确性仍具有很大的不确定性，特别是在处理敏感性相关的代码时，这种不确定性可能会更加明显，而这本身也是静态代码分析中的重点和难点。但是总体来说GPT仍旧具备一定的竞争力，

1、能够支持编译不通过即片段代码的分析，这也是大多数静态分析工具不具备的。

2、具备的静态分析工具的不具备的缺陷模式自动采集能力。绝大多数静态分析工具针对新的缺陷类型往往都是靠经验总结，新模式也需要在检测器中增加新的代码。但是GPT这些工作都是自动的，这也是传统代码分析工具无法做到的。

所以，我们认为GPT更多的是知识型的分析方法，不是符号逻辑型的。这两种方法是可以做到互补来提高代码分析工具的能力。当传统的代码分析工具，受困于状态爆炸必须进行折中而存在较高的误漏时，也可以结合AI的方式来进一步提高检测精度，突破现有分析能力的瓶颈。

鸿渐科技的代码分析技术正是结合了基于值依赖分析的符号逻辑分析技术和基于AI模式的自动模式生成技术以产生新的缺陷模式和函数摘要快速收集新的漏洞缺陷知识，同时也可以做到编译不通过情况下的片段代码分析，以达到更优的检测效果。

END

➦扫码关注我们

可靠 ChatGPT xff0c xff0 xff 软件测试人工智能

有关ChatGPT在源代码分析中可靠吗？的更多相关文章

ruby - 如何在 buildr 项目中使用 Ruby 代码？ - 2
如何在buildr项目中使用Ruby？我在很多不同的项目中使用过Ruby、JRuby、Java和Clojure。我目前正在使用我的标准Ruby开发一个模拟应用程序，我想尝试使用Clojure后端(我确实喜欢功能代码)以及JRubygui和测试套件。我还可以看到在未来的不同项目中使用Scala作为后端。我想我要为我的项目尝试一下buildr(http://buildr.apache.org/)，但我注意到buildr似乎没有设置为在项目中使用JRuby代码本身!这看起来有点傻，因为该工具旨在统一通用的JVM语言并且是在ruby中构建的。除了将输出的jar包含在一个独特的、仅限ruby
ruby-on-rails - Rails 源代码 : initialize hash in a weird way? - 2
在rails源中:https://github.com/rails/rails/blob/master/activesupport/lib/active_support/lazy_load_hooks.rb可以看到以下内容@load_hooks=Hash.new{|h,k|h[k]=[]}在IRB中，它只是初始化一个空哈希。和做有什么区别@load_hooks=Hash.new 最佳答案查看rubydocumentationforHashnew→new_hashclicktotogglesourcenew(obj)→new_has
ruby-on-rails - 浏览 Ruby 源代码 - 2
我的主要目标是能够完全理解我正在使用的库/gem。我尝试在Github上从头到尾阅读源代码，但这真的很难。我认为更有趣、更温和的踏脚石就是在使用时阅读每个库/gem方法的源代码。例如，我想知道RubyonRails中的redirect_to方法是如何工作的:如何查找redirect_to方法的源代码？我知道在pry中我可以执行类似show-methodmethod的操作，但我如何才能对Rails框架中的方法执行此操作？您对我如何更好地理解Gem及其API有什么建议吗？仅仅阅读源代码似乎真的很难，尤其是对于框架。谢谢! 最佳答案 Ru
ruby - 模块嵌套代码风格偏好 - 2
我的假设是moduleAmoduleBendend和moduleA::Bend是一样的。我能够从thisblog找到解决方案,thisSOthread和andthisSOthread.为什么以及什么时候应该更喜欢紧凑语法A::B而不是另一个，因为它显然有一个缺点？我有一种直觉，它可能与性能有关，因为在更多命名空间中查找常量需要更多计算。但是我无法通过对普通类进行基准测试来验证这一点。最佳答案这两种写作方法经常被混淆。首先要说的是，据我所知，没有可衡量的性能差异。(在下面的书面示例中不断查找)最明显的区别，可能也是最著名的，是你的
ruby - 寻找通过阅读代码确定编程语言的ruby gem？ - 2
几个月前，我读了一篇关于rubygem的博客文章，它可以通过阅读代码本身来确定编程语言。对于我的生活，我不记得博客或gem的名称。谷歌搜索“ruby编程语言猜测”及其变体也无济于事。有人碰巧知道相关gem的名称吗？最佳答案是这个吗:http://github.com/chrislo/sourceclassifier/tree/master 关于ruby-寻找通过阅读代码确定编程语言的rubygem？，我们在StackOverflow上找到一个类似的问题：
ruby - Net::HTTP 获取源代码和状态 - 2
我目前正在使用以下方法获取页面的源代码:Net::HTTP.get(URI.parse(page.url))我还想获取HTTP状态，而无需发出第二个请求。有没有办法用另一种方法做到这一点？我一直在查看文档，但似乎找不到我要找的东西。最佳答案在我看来，除非您需要一些真正的低级访问或控制，否则最好使用Ruby的内置Open::URI模块:require'open-uri'io=open('http://www.example.org/')#=>#body=io.read[0,50]#=>"["200","OK"]io.base_ur
程序员如何提高代码能力？ - 2
前言作为一名程序员，自己的本质工作就是做程序开发，那么程序开发的时候最直接的体现就是代码，检验一个程序员技术水平的一个核心环节就是开发时候的代码能力。众所周知，程序开发的水平提升是一个循序渐进的过程，每一位程序员都是从“菜鸟”变成“大神”的，所以程序员在程序开发过程中的代码能力也是根据平时开发中的业务实践来积累和提升的。提高代码能力核心要素程序员要想提高自身代码能力，尤其是新晋程序员的代码能力有很大的提升空间的时候，需要针对性的去提高自己的代码能力。提高代码能力其实有几个比较关键的点，只要把握住这些方面，就能很好的、快速的提高自己的一部分代码能力。1、多去阅读开源项目，如有机会可以亲自参与开源
亚特兰蒂斯的回声（中文版): chatGPT 的杰作 - 2
英文版英文链接关注公众号在“亚特兰蒂斯的回声”中踏上一段难忘的冒险之旅，深入未知的海洋深处。足智多谋的考古学家AriaSeaborne偶然发现了一件古代神器，揭示了一张通往失落之城亚特兰蒂斯的隐藏地图。在她神秘的导师内森·兰登教授的指导和勇敢的冒险家亚历克斯·默瑟的帮助下，阿丽亚开始了一段危险的旅程，以揭开这座传说中城市的真相。他们的冒险之旅带领他们穿越险恶的大海、神秘的岛屿和充满陷阱和谜语的致命迷宫。随着Aria潜在的魔法能力的觉醒，她被睿智勇敢的QueenNeria的幻象所指引，她让她为即将到来的挑战做好准备。三人组揭开亚特兰蒂斯令人惊叹的隐藏文明，并了解到邪恶的巫师马拉卡勋爵试图利用其古
7个大一C语言必学的程序 / C语言经典代码大全 - 2
嗨~大家好，这里是可莉！今天给大家带来的是7个C语言的经典基础代码~那一起往下看下去把【程序一】打印100到200之间的素数#includeintmain(){ inti; for(i=100;i 【程序二】输出乘法口诀表#includeintmain(){inti;for(i=1;i 【程序三】判断1000年---2000年之间的闰年#includeintmain(){intyear;for(year=1000;year 【程序四】给定两个整形变量的值，将两个值的内容进行交换。这里提供两种方法来进行交换，第一种为创建临时变量来进行交换，第二种是不创建临时变量而直接进行交换。1.创建临时变量来
git使用常见问题（提交代码，合并冲突） - 2
文章目录git常用命令（简介，详细参数往下看）Git提交代码步骤gitpullgitstatusgitaddgitcommitgitpushgit代码冲突合并问题方法一：放弃本地代码方法二：合并代码常用命令以及详细参数gitadd将文件添加到仓库：gitdiff比较文件异同gitlog查看历史记录gitreset代码回滚版本库相关操作远程仓库相关操作分支相关操作创建分支查看分支：gitbranch合并分支：gitmerge删除分支：gitbranch-ddev查看分支合并图：gitlog–graph–pretty=oneline–abbrev-commit撤消某次提交git用户名密码相关配置g

ChatGPT在源代码分析中可靠吗？

引文

有关ChatGPT在源代码分析中可靠吗？的更多相关文章

随机推荐