草庐IT

相似性

全部标签

安全研究 # 二进制代码相似性检测综述

本文参考:[1]方磊,武泽慧,魏强.二进制代码相似性检测技术综述[J].计算机科学,2021,48(05):1-8.(信息工程大学数学工程与先进计算国家重点实验室,国家重点研发课题,北大核心)摘要代码相似性检测常用于代码预测、知识产权保护和漏洞搜索等领域,可分为源代码相似性检测和二进制代码相似性检测。软件的源代码通常难以获得,因此针对二进制代码的相似性检测技术能够适用的场景更加广泛。根据关注的代码信息的不同,当前的二进制代码相似性检测技术分为4类:基于文本、基于属性度量、基于程序逻辑、基于语义的检测技术。需要解决的难题:跨编译器、跨编译器优化配置、跨指令架构检测等。代表性方法和工具:Karta

安全研究 # 二进制代码相似性检测综述

本文参考:[1]方磊,武泽慧,魏强.二进制代码相似性检测技术综述[J].计算机科学,2021,48(05):1-8.(信息工程大学数学工程与先进计算国家重点实验室,国家重点研发课题,北大核心)摘要代码相似性检测常用于代码预测、知识产权保护和漏洞搜索等领域,可分为源代码相似性检测和二进制代码相似性检测。软件的源代码通常难以获得,因此针对二进制代码的相似性检测技术能够适用的场景更加广泛。根据关注的代码信息的不同,当前的二进制代码相似性检测技术分为4类:基于文本、基于属性度量、基于程序逻辑、基于语义的检测技术。需要解决的难题:跨编译器、跨编译器优化配置、跨指令架构检测等。代表性方法和工具:Karta

向量距离与相似度函数

假设当前有两个n">nn维向量x">xx和y">yy (除非特别说明,本文默认依此写法表示向量),可以通过两个向量之间的距离或者相似度来判定这两个向量的相近程度,显然两个向量之间距离越小,相似度越高;两个向量之间距离越大,相似度越低。1.常见的距离计算方式1.1闵可夫斯基距离(MinkowskiDistance)\[Minkowski\;Distance={(\sum\limits_{i=1}^n{|{x_i}-{y_i}{|^p}})^{\frac{1}{p}}}\]MinkowskiDistane是对多个距离度量公式概括性的表述,当p=1">p=1p=1时,MinkowskiDistane

向量距离与相似度函数

假设当前有两个n">nn维向量x">xx和y">yy (除非特别说明,本文默认依此写法表示向量),可以通过两个向量之间的距离或者相似度来判定这两个向量的相近程度,显然两个向量之间距离越小,相似度越高;两个向量之间距离越大,相似度越低。1.常见的距离计算方式1.1闵可夫斯基距离(MinkowskiDistance)\[Minkowski\;Distance={(\sum\limits_{i=1}^n{|{x_i}-{y_i}{|^p}})^{\frac{1}{p}}}\]MinkowskiDistane是对多个距离度量公式概括性的表述,当p=1">p=1p=1时,MinkowskiDistane

中文标题相似度检测

前言对中文标题使用余弦相似度算法和编辑距离相似度分析进行相似度分析。准备数据集part1本次使用的数据集来源于前几年的硕士学位论文,可根据实际需要更换。结构如下所示:学位论文题名基于卷积神经网络的人脸识别研究P2P流媒体视频点播系统设计和研究校园网安全体系的设计与实现无线传感器网络中基于多中继切换的CARQ方案性能分析RFID和VLPR技术在酒钢智能门禁系统中的应用...基于MapReduce的Web链接结构分析算法研究环形交叉口混合交通流元胞自动机模型研究细菌觅食算法的优化及其在车间调度中的应用研究基于多载体图像的通用隐写分析方法研究基于加权网络的传染病免疫策略研究文件名:data.csv编

中文标题相似度检测

前言对中文标题使用余弦相似度算法和编辑距离相似度分析进行相似度分析。准备数据集part1本次使用的数据集来源于前几年的硕士学位论文,可根据实际需要更换。结构如下所示:学位论文题名基于卷积神经网络的人脸识别研究P2P流媒体视频点播系统设计和研究校园网安全体系的设计与实现无线传感器网络中基于多中继切换的CARQ方案性能分析RFID和VLPR技术在酒钢智能门禁系统中的应用...基于MapReduce的Web链接结构分析算法研究环形交叉口混合交通流元胞自动机模型研究细菌觅食算法的优化及其在车间调度中的应用研究基于多载体图像的通用隐写分析方法研究基于加权网络的传染病免疫策略研究文件名:data.csv编

局部敏感哈希-向量相似搜索

在搜索推荐中,通常使用相似Embedding进行推荐,此时就会有一个问题:如何快速找到与一个Embedding相近的其他Embedding如果两个Embedding在同一个向量空间中,我们就可以通过很多种方式(内积、余弦、欧氏距离等)计算其相似度;例如在推荐系统中,用户和物品的Embedding都在同一个空间中,物品总数为\(n\),那么计算一个用户和所以物品向量相似度的时间复杂度是\(O(n)\),而\(n\)通常都能达到百万甚至上亿,这样的计算方式是无法接受的;1朴素方法1.1聚类如果将相似点聚类在一起,在检索相似向量的时候则可以快速缩小范围,只计算目标Embedding所在的聚类范围内的

局部敏感哈希-向量相似搜索

在搜索推荐中,通常使用相似Embedding进行推荐,此时就会有一个问题:如何快速找到与一个Embedding相近的其他Embedding如果两个Embedding在同一个向量空间中,我们就可以通过很多种方式(内积、余弦、欧氏距离等)计算其相似度;例如在推荐系统中,用户和物品的Embedding都在同一个空间中,物品总数为\(n\),那么计算一个用户和所以物品向量相似度的时间复杂度是\(O(n)\),而\(n\)通常都能达到百万甚至上亿,这样的计算方式是无法接受的;1朴素方法1.1聚类如果将相似点聚类在一起,在检索相似向量的时候则可以快速缩小范围,只计算目标Embedding所在的聚类范围内的

评价指标:相似度、GAS消耗

【代码注释自动生成方法综述】这些评测指标主要来自机器翻译和文本总结等研究领域,可以评估候选文本(即基于代码注释自动方法而生成)和参考文本(即基于手工方式而生成)的相似度.BLEU指标[​[88](javascript:void(0);)^​]^:其全称是bilingualevaluationunderstudy.该指标是最早用于评估机器翻译的评测指标.用于比较候选文本和参考文本里n元词组(n-gram)的重合程度.其中,BLEU-1/2/3/4分别对应一元词组、二元词组、三元词组和四元词组的重合程度.其中,BLEU-1可以用于衡量单词翻译的准确性,而随着n的取值增大,BLEU指标则可以进一步衡

评价指标:相似度、GAS消耗

【代码注释自动生成方法综述】这些评测指标主要来自机器翻译和文本总结等研究领域,可以评估候选文本(即基于代码注释自动方法而生成)和参考文本(即基于手工方式而生成)的相似度.BLEU指标[​[88](javascript:void(0);)^​]^:其全称是bilingualevaluationunderstudy.该指标是最早用于评估机器翻译的评测指标.用于比较候选文本和参考文本里n元词组(n-gram)的重合程度.其中,BLEU-1/2/3/4分别对应一元词组、二元词组、三元词组和四元词组的重合程度.其中,BLEU-1可以用于衡量单词翻译的准确性,而随着n的取值增大,BLEU指标则可以进一步衡