
直接按照官方步骤安装即可,torchvision在安装pytorch时就一起安装好了,我这里选择安装1.8版本的pytorch,可以根据自己的cuda版本自行选择
pytorch安装:Previous PyTorch Versions | PyTorch
conda install pytorch==1.8.0 torchvision==0.9.0 torchaudio==0.8.0 cudatoolkit=10.2 -c pytorch
其它的按照官方步骤即可
1、视频提帧
输入模型的是图片,所以需要先对视频提帧并保存(最后输入模型的根据模型具体参数,分别是8,16,32张图片,原始策略是均匀分段选择图片,可以自己更改)
首先需要准备一个存放视频目录的文件,方便进行批量处理,我这里选择生成格式为 视频名+'\t'+视频路径 的txt文件,生成代码如下:
import os
path = '/home/videos' # 要遍历的目录
txt_path = '/home/video.txt'
with open(txt_path, 'w') as f:
for root, dirs, names in os.walk(path):
for name in names:
ext = os.path.splitext(name)[1] # 获取后缀名
if ext == '.mp4':
video_path = os.path.join(root, name) # mp4文件原始地址
video_name = name.split('.')[0]
f.write(video_name+'\t'+video_path+'\n')
得到的txt文件类似如下所示:
vi1231926809 /home/video/vi1231926809.mp4
vi3522215705 home/video/vi3522215705.mp4
vi3172646169 home/video/vi3172646169.mp4
然后用ffmpeg进行视频提帧:
import os
import sys
import subprocess
OUT_DATA_DIR="/home/video_pics"
txt_path = "/home/video.txt"
filelist = []
i = 1
with open(txt_path, 'r', encoding='utf-8') as f:
for line in f:
line = line.rstrip('\n')
video_name = line.split('\t')[0].split('.')[0]
dst_path = os.path.join(OUT_DATA_DIR, video_name)
video_path = line.split('\t')[1]
if not os.path.exists(dst_path):
os.makedirs(dst_path)
print(i)
i += 1
cmd = 'ffmpeg -i \"{}\" -r 1 -q:v 2 -f image2 \"{}/%05d.jpg\"'.format(video_path, dst_path)
subprocess.call(cmd, shell=True,stdout=subprocess.DEVNULL, stderr=subprocess.DEVNULL)
2、修改dataloader
import json
import torchvision
import random
import os
import numpy as np
import torch
import torch.nn.functional as F
import cv2
from torch.utils.data import Dataset
from torch.autograd import Variable
from models.transforms import *
class VideoClassificationDataset(Dataset):
def __init__(self, opt, mode):
# python 3
# super().__init__()
super(VideoClassificationDataset, self).__init__()
self.mode = mode # to load train/val/test data
self.feats_dir = opt['feats_dir']
if self.mode == 'val':
self.n = 5000 #提取的视频数量
if self.mode != 'inference':
print(f'load feats from {self.feats_dir}')
with open(self.feats_dir) as f:
feat_class_list = f.readlines()
self.feat_class_list = feat_class_list
mean =[0.485, 0.456, 0.406]
std = [0.229, 0.224, 0.225]
model_transform_params = {
"side_size": 256,
"crop_size": 224,
"num_segments": 8,
"sampling_rate": 5
}
# Get transform parameters based on model
transform_params = model_transform_params
transform_train = torchvision.transforms.Compose([
GroupMultiScaleCrop(transform_params["crop_size"], [1, .875, .75, .66]),
GroupRandomHorizontalFlip(is_flow=False),
Stack(roll=False),
ToTorchFormatTensor(div=True),
GroupNormalize(mean, std),
])
transform_val = torchvision.transforms.Compose([
GroupScale(int(transform_params["side_size"])),
GroupCenterCrop(transform_params["crop_size"]),
Stack(roll=False),
ToTorchFormatTensor(div=True),
GroupNormalize(mean, std),
])
self.transform_params = transform_params
self.transform_train = transform_train
self.transform_val = transform_val
print("Finished initializing dataloader.")
def __getitem__(self, ix):
"""This function returns a tuple that is further passed to collate_fn
"""
ix = ix % self.n
fc_feat = self._load_video(ix)
data = {
'fc_feats': Variable(fc_feat),
'video_id': ix,
}
return data
def __len__(self):
return self.n
def _load_video(self, idx):
prefix = '{:05d}.jpg'
feat_path_list = []
for i in range(len(self.feat_class_list)):
video_name = self.feat_class_list[i].rstrip('\n').split('\t')[0]+'-'
feat_path = self.feat_class_list[i].rstrip('\n').split('\t')[1]
feat_path_list.append(feat_path)
video_data = {}
if self.mode == 'val':
images = []
frame_list =os.listdir(feat_path_list[idx])
average_duration = len(frame_list) // self.transform_params["num_segments"]
# offests为采样坐标
offsets = np.array([int(average_duration / 2.0 + average_duration * x) for x in range(self.transform_params["num_segments"])])
offsets = offsets + 1
for seg_ind in offsets:
p = int(seg_ind)
seg_imgs = Image.open(os.path.join(feat_path_list[idx], prefix.format(p))).convert('RGB')
images.append(seg_imgs)
video_data = self.transform_val(images)
video_data = video_data.view((-1, self.transform_params["num_segments"]) + video_data.size()[1:])
return video_data
###更正:提取特征时为了保持一致性,加载模型应该用eval()模式,这样同一个视频每次提取的特征是固定不变的。
import argparse
import os
import torch
import numpy as np
from torch.utils.data import DataLoader
import random
from dataloader import VideoClassificationDataset
from timesformer.models.vit import TimeSformer
device = torch.device("cuda:0")
if __name__ == '__main__':
opt = argparse.ArgumentParser()
opt.add_argument('test_list_dir', help="Directory where test features are stored.")
opt = vars(opt.parse_args())
test_opts = {'feats_dir': opt['test_list_dir']}
# =================模型建立======================
model = TimeSformer(img_size=224, num_classes=400, num_frames=8, attention_type='divided_space_time',
pretrained_model='/home/user04/extract_feature/TimeSformer_divST_8x32_224_K400.pyth')
model = model.eval().to(device)
print(model)
# ================数据加载========================
print("Use", torch.cuda.device_count(), 'gpus')
test_loader = {}
test_dataset = VideoClassificationDataset(test_opts, 'val')
test_loader = DataLoader(test_dataset, batch_size=1, num_workers=6, shuffle=False)
# ===================训练和验证========================
i = 0
file1 = open("/home/video.txt", 'r')
file1_list = file1.readlines()
for data in test_loader:
model_input = data['fc_feats'].to(device)
name_feature = file1_list[i].rstrip().split('\t')[0].split('.')[0]
i = i + 1
out = model(model_input, )
out = out.squeeze(0)
out = out.cpu().detach().numpy()
np.save('/home/video_feature/' + name_feature + '.npy', out)
print(i)
上面两个py文件放在和TimeSformer文件夹同级目录下就好
最终提取的命令为
python extract.py /home/video.txt
这一步的txt文件需要重新生成,格式为视频名加视频提取的帧目录,可以自行生成
最终的视频特征为768维的向量,可以保存为自己想要的数据类型
import os
import sys
import subprocess
import json
import torchvision
import random
import numpy as np
import torch
import torch.nn.functional as F
import cv2
from torch.utils.data import Dataset
from torch.autograd import Variable
from models.transforms import *
from timesformer.models.vit import TimeSformer
device = torch.device("cuda:0")
def get_input(image_path):
prefix = '{:05d}.jpg'
feat_path = image_path
video_data = {}
images = []
mean =[0.485, 0.456, 0.406]
std = [0.229, 0.224, 0.225]
transform_params = {
"side_size": 256,
"crop_size": 224,
"num_segments": 8,
"sampling_rate": 5
}
transform_val = torchvision.transforms.Compose([
GroupScale(int(transform_params["side_size"])),
GroupCenterCrop(transform_params["crop_size"]),
Stack(roll=False),
ToTorchFormatTensor(div=True),
GroupNormalize(mean, std),
])
frame_list = os.listdir(feat_path)
average_duration = len(frame_list) // transform_params["num_segments"]
# offests为采样坐标
offsets = np.array([int(average_duration / 2.0 + average_duration * x) for x in range(transform_params["num_segments"])])
offsets = offsets + 1
for seg_ind in offsets:
p = int(seg_ind)
seg_imgs = Image.open(os.path.join(feat_path, prefix.format(p))).convert('RGB')
images.append(seg_imgs)
video_data = transform_val(images)
video_data = video_data.view((-1, transform_params["num_segments"]) + video_data.size()[1:])
out = Variable(video_data)
return out
def extract(modal, data):
output = {}
out_image_dir = '/home/extract_feature/extract_image'
if modal == 'video':
# =================模型建立======================
model = TimeSformer(img_size=224, num_classes=400, num_frames=8, attention_type='divided_space_time',
pretrained_model='/home/user04/extract_feature/TimeSformer_divST_8x32_224_K400.pyth')
model = model.eval().to(device)
#print(model)
# =================视频抽帧======================
video_name = data.split('/')[-1].split('.')[0]
out_image_path = os.path.join(out_image_dir, video_name)
if not os.path.exists(out_image_path):
os.makedirs(out_image_path)
cmd = 'ffmpeg -i \"{}\" -r 1 -q:v 2 -f image2 \"{}/%05d.jpg\"'.format(data, out_image_path)
subprocess.call(cmd, shell=True,stdout=subprocess.DEVNULL, stderr=subprocess.DEVNULL)
# =================提取特征======================
model_input = get_input(out_image_path).unsqueeze(0).to(device)
print(model_input.shape)
out = model(model_input, )
out = out.squeeze(0)
out = out.cpu().detach().numpy()
return out
video_path = '/home/vi0114457/vi0114457.mp4'
modal = 'video'
out = extract(modal, video_path)
我正在学习如何使用Nokogiri,根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div
我有一个Ruby程序,它使用rubyzip压缩XML文件的目录树。gem。我的问题是文件开始变得很重,我想提高压缩级别,因为压缩时间不是问题。我在rubyzipdocumentation中找不到一种为创建的ZIP文件指定压缩级别的方法。有人知道如何更改此设置吗?是否有另一个允许指定压缩级别的Ruby库? 最佳答案 这是我通过查看rubyzip内部创建的代码。level=Zlib::BEST_COMPRESSIONZip::ZipOutputStream.open(zip_file)do|zip|Dir.glob("**/*")d
类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc
很好奇,就使用rubyonrails自动化单元测试而言,你们正在做什么?您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您?git中的预提交Hook?只是手动调用?我完全理解测试,但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的,并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您? 最佳答案 不确定您到底想听什么,但是有几个级别的自动代码库控制:在处理某项功能时,您可以使用类似autotest的内容获得关于哪些有效,哪些无效的即时反馈。要确保您的提
假设我做了一个模块如下:m=Module.newdoclassCendend三个问题:除了对m的引用之外,还有什么方法可以访问C和m中的其他内容?我可以在创建匿名模块后为其命名吗(就像我输入“module...”一样)?如何在使用完匿名模块后将其删除,使其定义的常量不再存在? 最佳答案 三个答案:是的,使用ObjectSpace.此代码使c引用你的类(class)C不引用m:c=nilObjectSpace.each_object{|obj|c=objif(Class===objandobj.name=~/::C$/)}当然这取决于
我正在尝试使用ruby和Savon来使用网络服务。测试服务为http://www.webservicex.net/WS/WSDetails.aspx?WSID=9&CATID=2require'rubygems'require'savon'client=Savon::Client.new"http://www.webservicex.net/stockquote.asmx?WSDL"client.get_quotedo|soap|soap.body={:symbol=>"AAPL"}end返回SOAP异常。检查soap信封,在我看来soap请求没有正确的命名空间。任何人都可以建议我
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。
我有一个模型:classItem项目有一个属性“商店”基于存储的值,我希望Item对象对特定方法具有不同的行为。Rails中是否有针对此的通用设计模式?如果方法中没有大的if-else语句,这是如何干净利落地完成的? 最佳答案 通常通过Single-TableInheritance. 关于ruby-on-rails-Rails-子类化模型的设计模式是什么?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.co
我在我的项目目录中完成了compasscreate.和compassinitrails。几个问题:我已将我的.sass文件放在public/stylesheets中。这是放置它们的正确位置吗?当我运行compasswatch时,它不会自动编译这些.sass文件。我必须手动指定文件:compasswatchpublic/stylesheets/myfile.sass等。如何让它自动运行?文件ie.css、print.css和screen.css已放在stylesheets/compiled。如何在编译后不让它们重新出现的情况下删除它们?我自己编译的.sass文件编译成compiled/t
我想将html转换为纯文本。不过,我不想只删除标签,我想智能地保留尽可能多的格式。为插入换行符标签,检测段落并格式化它们等。输入非常简单,通常是格式良好的html(不是整个文档,只是一堆内容,通常没有anchor或图像)。我可以将几个正则表达式放在一起,让我达到80%,但我认为可能有一些现有的解决方案更智能。 最佳答案 首先,不要尝试为此使用正则表达式。很有可能你会想出一个脆弱/脆弱的解决方案,它会随着HTML的变化而崩溃,或者很难管理和维护。您可以使用Nokogiri快速解析HTML并提取文本:require'nokogiri'h