草庐IT

Python实现KNN算法

小魏612 2023-05-30 原文

目录

创建数据集

自写版KNN算法

优化版KNN算法

效果可视化


创建数据集:

创建一个电影分类数据集

         接吻次数            打斗次数              电影类型
3100动作片
190动作片
281动作片
10110爱情片
995爱情片
982爱情片

代码实现:

def Dataset():
    data = np.array([[3, 100], [1, 90], [2, 81], [101, 10], [99, 5], [98, 2]])
    labels = [ '动作片', '动作片', '动作片', '爱情片', '爱情片', '爱情片']
    return data, labels

自写版KNN算法:

代码实现:

def Knn(in_data, train_data, train_labels, k):
    # 计算欧式距离
    distance = np.zeros(train_data.shape[0])
    for i in range(train_data.shape[0]):
        distance[i] = (in_data[0] - train_data[i][0]) ** 2 +  
                      (in_data[1] - train_data[i][1]) ** 2
        #开方处理
        distance[i] = np.power(distance[i], 0.5)
    # 返回按距离排序的索引
    index = np.zeros(train_data.shape[0])
    index = distance.argsort()
    # 统计前k个最小距离对应的标签个数
    love = 0
    action = 0
    for i in range(k):
        if(train_labels[index[i]] == '爱情片'):
            love += 1
        else:
            action += 1
    if (love > action):
        print('该电影类型为爱情片')
    else:
        print('该电影类型为动作片')

KNN算法原理:

将输入数据(x, y)与数据集中的数据(xi,yi)分别计算欧氏距离,将欧氏距离按照递增排列,统计前k个距离中对应的标签的个数,输入数据的标签即为k个距离中标签个数最多的那个。

欧氏距离计算:

计算输入数据与数据集中每个数据的欧式距离,并按照递增排序,由于我们只需得到最小的k个距离对应的索引即可(方便后续按照索引寻找到对应的标签),因此利用argsort()函数,该函数将数列排序,并返回原来索引。 

统计前k个距离对应标签类型的个数:我自己写的时候没有想到简便的方法,于是创建了两个变量love和actor分别统计标签爱情片和动作片出现的个数,个数最多的标签即为输入数据对应的类型。

测试:当输入数据为in_data = [10, 50]时,结果如下:

 优化版KNN算法

实现代码:

def KNN(in_data, train_data, train_labels, k):
    train_data_size = train_data.shape[0]
    # 将输入数据平铺为train_data_size行1列,便于与训练数据做差
    distance = (np.tile(in_data, (train_data_size, 1)) - train_data) ** 2                
    add_distance = distance.sum(axis=1)
    sq_distance = add_distance ** 0.5  # 欧氏距离
    # 将欧氏距离排序,返回对应的索引值
    index = sq_distance.argsort()
    classdict = {}
    # 寻找前k个最小距离对应的标签
    for i in range(k):
        vote_label = train_labels[index[i]]  # 第i个距离对应的标签
        classdict[vote_label] = classdict.get(vote_label, 0) + 1    #统计某个标签个数
    sort_classdict = sorted(classdict.items(), key=operator.itemgetter(1), reverse=True)
    return sort_classdict[0][0]
 

几个优化点:

  1. 计算输入数据与数据集的欧氏距离时,先利用numpy中tile()函数,将输入数据扩展成与数据集行列数一致的数据,tile(a, (6, 1)) 代表将a中的数据零维扩展成原来的6倍,一维不变,利用该函数后取代了遍历方法,更加简便省时。
  2. 统计前k个欧氏距离对应的标签时,先创建了一个字典,利用字典中.get()方法往字典中存入相应的标签及其对应的次数,再按照字典中第二个域按照递减排列,返回次数最多的标签。程序中classdict.items()的作用为将字典中的key与value成对取出,此处若不使用items()方法,直接利用for in 遍历字典中内容时,只能取出key值,得不到value值。key=operator.itemgetter(1)代表将取出的数据按照第二个域即value排列,reverse=True代表按照递减顺序排列。    返回值sort_classdict[0][0]表示字典中第一个(key,value)中的key,即标签。

效果可视化

代码实现:

def data_show(in_data, train_data):
    # 显示训练数据
    x = []
    y = []
    for i in range(train_data.shape[0]):
        x.append(train_data[i][0])
        y.append(train_data[i][1])
    plt.plot(x, y, "*")
    plt.xlabel("Number of kisses")
    plt.ylabel("Number of fights")
    plt.plot(in_data[0], in_data[1], "r*")
    plt.show()

 横轴代表接吻次数,纵轴代表打斗次数。由结果可发现当输入数据为in_data=[10, 50]时,该电影为动作片,即图中红色点。

 

有关Python实现KNN算法的更多相关文章

  1. python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声? - 2

    关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。

  2. ruby - 如何根据特征实现 FactoryGirl 的条件行为 - 2

    我有一个用户工厂。我希望默认情况下确认用户。但是鉴于unconfirmed特征,我不希望它们被确认。虽然我有一个基于实现细节而不是抽象的工作实现,但我想知道如何正确地做到这一点。factory:userdoafter(:create)do|user,evaluator|#unwantedimplementationdetailshereunlessFactoryGirl.factories[:user].defined_traits.map(&:name).include?(:unconfirmed)user.confirm!endendtrait:unconfirmeddoenden

  3. Python 相当于 Perl/Ruby ||= - 2

    这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:Pythonconditionalassignmentoperator对于这样一个简单的问题表示歉意,但是谷歌搜索||=并不是很有帮助;)Python中是否有与Ruby和Perl中的||=语句等效的语句?例如:foo="hey"foo||="what"#assignfooifit'sundefined#fooisstill"hey"bar||="yeah"#baris"yeah"另外,类似这样的东西的通用术语是什么?条件分配是我的第一个猜测,但Wikipediapage跟我想的不太一样。

  4. java - 什么相当于 ruby​​ 的 rack 或 python 的 Java wsgi? - 2

    什么是ruby​​的rack或python的Java的wsgi?还有一个路由库。 最佳答案 来自Python标准PEP333:Bycontrast,althoughJavahasjustasmanywebapplicationframeworksavailable,Java's"servlet"APImakesitpossibleforapplicationswrittenwithanyJavawebapplicationframeworktoruninanywebserverthatsupportstheservletAPI.ht

  5. 区块链之加解密算法&数字证书 - 2

    目录一.加解密算法数字签名对称加密DES(DataEncryptionStandard)3DES(TripleDES)AES(AdvancedEncryptionStandard)RSA加密法DSA(DigitalSignatureAlgorithm)ECC(EllipticCurvesCryptography)非对称加密签名与加密过程非对称加密的应用对称加密与非对称加密的结合二.数字证书图解一.加解密算法加密简单而言就是通过一种算法将明文信息转换成密文信息,信息的的接收方能够通过密钥对密文信息进行解密获得明文信息的过程。根据加解密的密钥是否相同,算法可以分为对称加密、非对称加密、对称加密和非

  6. 华为OD机试用Python实现 -【明明的随机数】 2023Q1A - 2

    华为OD机试题本篇题目:明明的随机数题目输入描述输出描述:示例1输入输出说明代码编写思路最近更新的博客华为od2023|什么是华为od,od薪资待遇,od机试题清单华为OD机试真题大全,用Python解华为机试题|机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为o

  7. python - 如何读取 MIDI 文件、更改其乐器并将其写回? - 2

    我想解析一个已经存在的.mid文件,改变它的乐器,例如从“acousticgrandpiano”到“violin”,然后将它保存回去或作为另一个.mid文件。根据我在文档中看到的内容,该乐器通过program_change或patch_change指令进行了更改,但我找不到任何在已经存在的MIDI文件中执行此操作的库.他们似乎都只支持从头开始创建的MIDI文件。 最佳答案 MIDIpackage会为您完成此操作,但具体方法取决于midi文件的原始内容。一个MIDI文件由一个或多个音轨组成,每个音轨是十六个channel中任何一个上的

  8. 基于C#实现简易绘图工具【100010177】 - 2

    C#实现简易绘图工具一.引言实验目的:通过制作窗体应用程序(C#画图软件),熟悉基本的窗体设计过程以及控件设计,事件处理等,熟悉使用C#的winform窗体进行绘图的基本步骤,对于面向对象编程有更加深刻的体会.Tutorial任务设计一个具有基本功能的画图软件**·包括简单的新建文件,保存,重新绘图等功能**·实现一些基本图形的绘制,包括铅笔和基本形状等,学习橡皮工具的创建**·设计一个合理舒适的UI界面**注明:你可能需要先了解一些关于winform窗体应用程序绘图的基本知识,以及关于GDI+类和结构的知识二.实验环境Windows系统下的visualstudio2017C#窗体应用程序三.

  9. 「Python|Selenium|场景案例」如何定位iframe中的元素? - 2

    本文主要介绍在使用Selenium进行自动化测试或者任务时,对于使用了iframe的页面,如何定位iframe中的元素文章目录场景描述解决方案具体代码场景描述当我们在使用Selenium进行自动化测试的时候,可能会遇到一些界面或者窗体是使用HTML的iframe标签进行承载的。对于iframe中的标签,如果直接查找是无法找到的,会抛出没有找到元素的异常。比如近在咫尺的例子就是,CSDN的登录窗体就是使用的iframe,大家可以尝试通过F12开发者模式查看到的tag_name,class_name,id或者xpath来定位中的页面元素,会抛出NoSuchElementException异常。解决

  10. MIMO-OFDM无线通信技术及MATLAB实现(1)无线信道:传播和衰落 - 2

     MIMO技术的优缺点优点通过下面三个增益来总体概括:阵列增益。阵列增益是指由于接收机通过对接收信号的相干合并而活得的平均SNR的提高。在发射机不知道信道信息的情况下,MIMO系统可以获得的阵列增益与接收天线数成正比复用增益。在采用空间复用方案的MIMO系统中,可以获得复用增益,即信道容量成倍增加。信道容量的增加与min(Nt,Nr)成正比分集增益。在采用空间分集方案的MIMO系统中,可以获得分集增益,即可靠性性能的改善。分集增益用独立衰落支路数来描述,即分集指数。在使用了空时编码的MIMO系统中,由于接收天线或发射天线之间的间距较远,可认为它们各自的大尺度衰落是相互独立的,因此分布式MIMO

随机推荐