用Python生成答题库，辅助完成XX在线平台视频学习的课后考试

不信邪111 2023-08-17 原文

文章目录

前言

随着XX在线视频学习的任务增多，有时刷完视频并不能轻松完成课后考试，本篇文章意在用Python提供解决思路和代码，为顺利通过考试提供可行性方案。

思路

通过截取视频图片，根据规则选取满足条件的图片，再利用OCR识别筛选后的图片，最后生成带有图片链接的Excel答题库文件。总体分为四部分：截图、选图、识图、生成答题库。

引入库和全局变量

import os
import cv2
import shutil
import openpyxl as op
import time
import easyocr
filepath= r'D:\moocxuetang'#自定义文件存放位置
videopath = r'D:\moocxuetang\video'#自定义视频存放位置
picpath=r'D:\moocxuetang\picture'#自定义截图存放位置
picchoosepath = filepath + '\\' + 'picture_choose'#自定义选图存放位置
txt=[]#图片识别列表
hylink=[]#图片链接位置列表

一、截图

截图参考文章：用python玩转视频帧率
 截图参考文章：Python 之CV2详解
避坑指南
注意图片名不要带中文，保存会有问题，会出现程序运行正常，实际没保存到的现象。
代码如下：

# 截取单个视频文件图片
def get_pic(videoname='1.1XXXXX.mp4'):
    videoname = videoname
    video = cv2.VideoCapture(videopath+'\\'+videoname)
    ###########获取视频信息（帧率，分辨率，总帧数，时长）##############
    # 帧率
    fps = int(round(video.get(cv2.CAP_PROP_FPS)))
    # 分辨率-宽度
    width = int(video.get(cv2.CAP_PROP_FRAME_WIDTH))
    # 分辨率-高度
    height = int(video.get(cv2.CAP_PROP_FRAME_HEIGHT))
    # 总帧数
    frame_counter = int(video.get(cv2.CAP_PROP_FRAME_COUNT))
    # 时长，单位s
    duration = frame_counter / fps
    print('帧率：%s' % fps)
    print('分辨率-宽度：%s' % width)
    print('分辨率-高度：%s' % height)
    print('总帧数：%s' % frame_counter)
    print('总时长：%s秒' % duration)
    ####################根据视频信息截取图片#####################
    i = 0
    j = 0
    while True:
        i += 1
        flag, frame = video.read()#读取视频
        if flag:
            if i % (fps*4) == 0:#间隔4秒截图1张
                j+=1
                picname=videoname[0:3]+'.'+str(j)+'.jpg'#根据视频文件名自行调整，将截图数量加到图片文件名中，方便后续查找
                cv2.imwrite(picpath+'\\'+picname, frame)#保存截图
                print('%s保存完毕！'%picname)
        else:
            break
    video.release()#视频释放
    print('视频关键帧截图完毕！！！')

#遍历视频文件，截取所有视频文件图片
def cut():
    ###########建立视频截图文件夹####################
    if not os.path.exists(picpath):#判断是否存在截图文件夹，不存在则建立文件夹
        os.makedirs(picpath)
        print('视频截图文件夹已建立')
    else: #存在则清空再建立文件夹
        shutil.rmtree(picpath)
        os.makedirs(picpath)
        print('原有图片已清除，已建立新的视频截图文件夹')
    videonames = os.listdir(videopath)
    start_time = time.time()
    for videoname in videonames:
        get_pic(videoname)
    end_time = time.time()
    t = (end_time - start_time) / 60 #记录截图总共用时多少分钟
    print('截图总共用时%s分钟' % str(round(t)))

二、选图

选图参考文章：OpenCV—Python 图像指定区域裁剪

代码如下：

#对单张图片进行规则化选取，满足条件则保存到选图文件夹
def pic_choose(picfullname=r'D:\XXXX\picture\1.1.92.jpg',picchoosepath=r'D:\XXXX\picture_choose'):
    picfullname = picfullname #单张图片的全路径名称，例如：'D:\XXXX\picture\1.1.92.jpg'
    picchoosepath=picchoosepath #选图文件夹的位置，例如：'D:\XXXX\picture_choose'
    picname=picfullname.split('\\')[-1] #单张图片的名称，例如：'1.1.92.jpg'
    ################将图片以灰度图片导入，找出符合规则的图片，裁剪适当位置并保存灰度图片到选图文件夹#############
    pic=cv2.imread(picfullname,cv2.IMREAD_GRAYSCALE) #将图片以灰度图片导入
    if abs(pic[59][40]-pic[59][45])<10 and abs(pic[59][45]-pic[59][50])<10 and abs(pic[59][50]-pic[59][55])<10 and abs(pic[59][55]-pic[59][60])<10 and abs(pic[59][60]-pic[59][65])<10 \
        and abs(pic[59][40]-pic[79][40]) >100  and abs(pic[59][45]-pic[79][45]) >100 and abs(pic[59][50]-pic[79][50]) >100  and abs(pic[59][55]-pic[79][55]) >100 and abs(pic[59][60]-pic[79][60]) >100 and abs(pic[59][65]-pic[79][65]) >100: #找出符合规则的图片
        cv2.imwrite(picchoosepath+'\\'+picname,pic[43:,:]) #裁剪适当位置并保存灰度图片到选图文件夹
    elif abs(pic[59][40]-pic[59][45])<10 and abs(pic[59][45]-pic[59][50])<10 and abs(pic[59][50]-pic[59][55])<10 and abs(pic[59][55]-pic[59][60])<10 and abs(pic[59][60]-pic[59][65])<10 \
        and abs(pic[59][40]-pic[79][40]) >50  and abs(pic[59][45]-pic[79][45]) >50 and abs(pic[59][50]-pic[79][50]) >50 and abs(pic[59][55]-pic[79][55]) >50 and abs(pic[59][60]-pic[79][60]) >50 and abs(pic[59][65]-pic[79][65]) >50:  #找出符合规则的图片
        cv2.imwrite(picchoosepath+'\\'+picname,pic[43:,:]) #裁剪适当位置并保存灰度图片到选图文件夹

#遍历截图文件夹，对所有图片进行规则化筛选
def choose():
    ############创建选图文件夹#####################
    if not os.path.exists(picchoosepath):#判断是否存在截图文件夹，不存在则建立文件夹
        os.makedirs(picchoosepath)
        print('选图文件夹已建立')
    else: #存在则清空再建立文件夹
        shutil.rmtree(picchoosepath)
        os.makedirs(picchoosepath)
        print('原有图片已清除，已建立新的选图文件夹')
    start_time = time.time()
    picnames = os.listdir(picpath)
    m = 0
    for picname in picnames:
        picfullname = picpath + '\\' + picname
        m += 1
        print('开始选图：第%s张' % m)
        pic_choose(picfullname)
    end_time = time.time()
    t = (end_time - start_time) / 60
    print('选图完成，用时%s分钟！！！' % t) #记录选图总共用时多少分钟
    picchoosenames = os.listdir(picchoosepath)
    print('共选出%s张图片'%len(picchoosenames)) #记录总共选图过少张

三、识图

识图参考文章：适合小白的几个入门级Python ocr识别库
 识图参考文章：easyocr快速安装及图片文字提取演示（小语种）
easyocr技术文档

避坑指南
根据识图参考文章，可对中文的识别的库有3个：
1、pytesseract
pytesseract需要配合安装在本地的tesseract-ocr.exe文件一起使用。对中文识别很差，第一次用的就是这个基本用不了。
2、PaddleOCR
PaddleOCR是百度开源的一款基于深度学习的ocr识别库，对中文的识别精度相当不错，可以应付绝大多数的文字提取需求。需要安装3个库，依赖库也比较多，版本没对上就不行，下载也慢，折腾了很久还是选择放弃。
3、easyocr
github上一万多个star的开源ocr项目，支持80多种语言的识别，识别精度超高。最终选择，记得要下载craft_mlt_25k.zip（文字检测模型）、zh_sim_g2.zip（中文模型）、english_g2.zip（英文模型），文章里有具体说明。

建议：
1、使用清华镜像源，在使用pip的时候加参数-i https://pypi.tuna.tsinghua.edu.cn/simple
2、下载库的时候会遇到版本问题，多折腾折腾，会有不少收获
3、电脑下载模型慢可以试试用手机下载
代码如下：

#使用easyocr库对单张图片识别，单张识图时间大约6秒（根据个人电脑情况）
def easy_ocr(picchoosefullname=r'D:\XXXX\picture_choose\1.1.100.jpg'):
    picchoosefullname = picchoosefullname #选图文件夹中的图片全路径名称，例如：'D:\XXXX\picture_choose\1.1.100.jpg'
    reader = easyocr.Reader(['ch_sim'],gpu=False) # 没有gpu的话需要加上gpu=False
    result = reader.readtext(picchoosefullname,detail=0,batch_size=32) #参数设置可以参考技术文档，batch_size=32试验了一下，比默认设置快大约1秒
    print(result)
    txt.append(''.join(result)) #将识别的文本合并为一项
    print(txt)
    return txt

#遍历选图文件夹，对所有图片进行识别
def know():
    start_time = time.time()
    picchoosenames = os.listdir(picchoosepath)
    n=0
    for picchoosename in picchoosenames:
        picchoosefullname = picchoosepath+'\\'+picchoosename
        n+=1
        print('开始识图：第%s张'%n)
        txt=easy_ocr(picchoosefullname) #获取图片识别列表
        hylink.append(picchoosefullname) #获取图片链接位置列表
    print('列表长度为：',len(txt))
    print('类型为',type(txt))
    end_time = time.time()
    t = (end_time - start_time) / 60
    print('识图完成，用时%s分钟！！！' % t) #记录识图总共用时多少分钟

四、生成答题库

代码如下：

def answer():
    print('开始创建答题库。。。')
    answer_path=r'D:\XXXX\answer.xlsx' #自定义答题库Excel路径，提前建好answer.xlsx文件
    wb = op.load_workbook(answer_path) #读入文件
    sheet = wb['Sheet1']
    sheet.delete_cols(1,1) #清空原有数据
    for i in range(len(txt)):
        sheet.cell(i+1,1,txt[i]) #将图片识别列表写入第1列
        sheet.cell(i+1,1,txt[i]).hyperlink=hylink[i]  #将图片链接位置列表写入对应位置
    wb.save(answer_path)
    f = open(r'D:\XXXX\answer.txt', 'w') #自定义答题库文本路径，提前建好answer.txt文件（避免Excel出错，导致全功尽弃的备份手段）
    p=0
    for line in txt:
        p+=1
        f.write('第'+str(p)+'张'+'\n'+line + '\n')
    f.close()
    print('答题库已生成！！！')

完整代码

import os
import cv2
import shutil
import openpyxl as op
import time
import easyocr
filepath= r'D:\moocxuetang'#自定义文件存放位置
videopath = r'D:\moocxuetang\video'#自定义视频存放位置
picpath=r'D:\moocxuetang\picture'#自定义截图存放位置
picchoosepath = filepath + '\\' + 'picture_choose'#自定义选图存放位置
txt=[]#图片识别列表
hylink=[]#图片链接列表
#批量更改文件名（加上后缀.mp4），文章没介绍
def Renamevideo():
    videonames = os.listdir(videopath)
    for videoname in videonames:
        oldvideoname = videopath + '\\' + videoname
        newvideoname = oldvideoname + '.mp4'
        os.rename(oldvideoname, newvideoname)
        print(newvideoname)

def get_pic(videoname='1.1XXXXX.mp4'):
		pass #前文有，不再重复
def cut():
		pass #前文有，不再重复
def pic_choose(picfullname=r'D:\XXXX\picture\1.1.92.jpg',picchoosepath=r'D:\XXXX\picture_choose'):
		pass #前文有，不再重复
def choose():
		pass #前文有，不再重复
def easy_ocr(picchoosefullname=r'D:\XXXX\picture_choose\1.1.100.jpg'):
		pass #前文有，不再重复
def know():
		pass #前文有，不再重复
def answer():
		pass #前文有，不再重复

if __name__ == '__main__':
    cut()
    choose()
    know()
    answer()

最终效果

文件夹最终所包含的内容：

通过答题库查询，顺利通过考试：

—

作者语

本着白嫖多年、回馈社会的态度，写下这篇文章，希望对你有所帮助，有不到位之处请多多包涵，有疑问请留言，我会尽力回答。

课后题库 span class token python opencv 视频

有关用Python生成答题库，辅助完成XX在线平台视频学习的课后考试的更多相关文章

ruby - 使用 RubyZip 生成 ZIP 文件时设置压缩级别 - 2
我有一个Ruby程序，它使用rubyzip压缩XML文件的目录树。gem。我的问题是文件开始变得很重，我想提高压缩级别，因为压缩时间不是问题。我在rubyzipdocumentation中找不到一种为创建的ZIP文件指定压缩级别的方法。有人知道如何更改此设置吗？是否有另一个允许指定压缩级别的Ruby库？最佳答案这是我通过查看rubyzip内部创建的代码。level=Zlib::BEST_COMPRESSIONZip::ZipOutputStream.open(zip_file)do|zip|Dir.glob("**/*")d
python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声？ - 2
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点？我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等)，但我确实想创建一个输出文件。
ruby - 在 jRuby 中使用 'fork' 生成进程的替代方案？ - 2
在MRIRuby中我可以这样做:deftransferinternal_server=self.init_serverpid=forkdointernal_server.runend#Maketheserverprocessrunindependently.Process.detach(pid)internal_client=self.init_client#Dootherstuffwithconnectingtointernal_server...internal_client.post('somedata')ensure#KillserverProcess.kill('KILL',
ruby - 如何使用 Ruby aws/s3 Gem 生成安全 URL 以从 s3 下载文件 - 2
我正在编写一个小脚本来定位aws存储桶中的特定文件，并创建一个临时验证的url以发送给同事。(理想情况下，这将创建类似于在控制台上右键单击存储桶中的文件并复制链接地址的结果)。我研究过回形针，它似乎不符合这个标准，但我可能只是不知道它的全部功能。我尝试了以下方法:defauthenticated_url(file_name,bucket)AWS::S3::S3Object.url_for(file_name,bucket,:secure=>true,:expires=>20*60)end产生这种类型的结果:...-1.amazonaws.com/file_path/file.zip.A
ruby-on-rails - 如何使辅助方法在 Rails 集成测试中可用？ - 2
我在app/helpers/sessions_helper.rb中有一个帮助程序文件，其中包含一个方法my_preference，它返回当前登录用户的首选项。我想在集成测试中访问该方法。例如，这样我就可以在测试中使用getuser_path(my_preference)。在其他帖子中，我读到这可以通过在测试文件中包含requiresessions_helper来实现，但我仍然收到错误NameError:undefinedlocalvariableormethod'my_preference'.我做错了什么？require'test_helper'require'sessions_hel
ruby-on-rails - Ruby on Rails - 为文本区域和图片生成列 - 2
我是Rails的新手，所以请原谅简单的问题。我正在为一家公司创建一个网站。那家公司想在网站上展示它的客户。我想让客户自己管理这个。我正在为“客户”生成一个表格，我想要的三列是:公司名称、公司描述和Logo。对于名称，我使用的是name:string但不确定如何在脚本/生成脚手架终端命令中最好地创建描述列(因为我打算将其设置为文本区域)和图片。我怀疑描述(我想成为一个文本区域)应该仍然是描述:字符串，然后以实际形式进行调整。不确定如何处理图片字段。那么……说来话长:我在脚手架命令中输入什么来生成描述和图片列？最佳答案对于“文本”数
ruby-on-rails - 如何生成传递一些自定义参数的 `link_to` URL？ - 2
我正在使用RubyonRails3.0.9，我想生成一个传递一些自定义参数的link_toURL。也就是说，有一个articles_path(www.my_web_site_name.com/articles)我想生成如下内容:link_to'Samplelinktitle',...#HereIshouldimplementthecode#=>'http://www.my_web_site_name.com/articles?param1=value1¶m2=value2&...我如何编写link_to语句“alàRubyonRailsWay”以实现该目的？如果我想通过传递一些
Python 相当于 Perl/Ruby ||= - 2
这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:Pythonconditionalassignmentoperator对于这样一个简单的问题表示歉意，但是谷歌搜索||=并不是很有帮助；)Python中是否有与Ruby和Perl中的||=语句等效的语句？例如:foo="hey"foo||="what"#assignfooifit'sundefined#fooisstill"hey"bar||="yeah"#baris"yeah"另外，类似这样的东西的通用术语是什么？条件分配是我的第一个猜测，但Wikipediapage跟我想的不太一样。
ruby-on-rails - 如何在 Rails 3 中创建自定义脚手架生成器？ - 2
有这些railscast。http://railscasts.com/episodes/218-making-generators-in-rails-3有了这个，你就会知道如何创建样式表和脚手架生成器。http://railscasts.com/episodes/216-generators-in-rails-3通过这个，您可以了解如何添加一些文件来修改脚手架View。我想把两者结合起来。我想创建一个生成器，它也可以创建脚手架View。有点像RyanBates漂亮的生成器或web_app_themegem(https://github.com/pilu/web-app-theme)。我
java - 什么相当于 ruby 的 rack 或 python 的 Java wsgi？ - 2
什么是ruby的rack或python的Java的wsgi？还有一个路由库。最佳答案来自Python标准PEP333:Bycontrast,althoughJavahasjustasmanywebapplicationframeworksavailable,Java's"servlet"APImakesitpossibleforapplicationswrittenwithanyJavawebapplicationframeworktoruninanywebserverthatsupportstheservletAPI.ht