WinUI（WASDK）使用ChatGPT和摄像头手势识别结合TTS让机器人更智能

绿荫阿广 2023-03-28 原文

前言

之前写过一篇基于ML.NET的手部关键点分类的博客，可以根据图片进行手部的提取分类，于是我就将手势分类和摄像头数据结合，集成到了我开发的电子脑壳软件里。

电子脑壳是一个为稚晖君开源的桌面机器人ElectronBot提供一些软件功能的桌面程序项目。它是由绿荫阿广也就是我开发的，使用了微软的WASDK框架。

电子脑壳算是本人学习WinUI开发的练习项目了，通过根据一些开源的项目的学习，将一些功能进行整合，比如手势识别触发语音转文本，然后接入ChatGPT结合文本转语音的方式，实现机器人的对话。

此博客算是实战记录了，替大家先踩坑。

下图链接为机器人的演示视频，通过对话，让ChatGPT给我讲了一个骆驼祥子的故事，只不过这个故事有点离谱，本来前部分还正常，后面就开始瞎编了，比如祥子有了一头驴，最后还成为了商人。

大家观看觉得不错的话给点个赞。

具体的实现方案

1. 方案思路叙述

整体的流程如下图，图画的不一定标准，但是大体如图所示：

处理摄像头帧事件，通过将摄像头的帧数据处理进行手势的匹配。
手势识别结果处理方法调用语音转文本逻辑。
转的文本通过调用ChatGPT API实现智能回复。
将回复结果文本通过TTS播放到机器人上的扬声器，完成一次对话。

2. 所用技术说明

WASDK
MediaPipe offers open source cross-platform, customizable ML solutions for live and streaming media.
ML.NET 开放源代码的跨平台机器学习框架

上面的技术栈在我上面文章里有讲述，这里就不展开了，大家有兴趣的可以点击之前的文章查看。

WinUI（WASDK）使用MediaPipe检查手部关键点并通过ML.NET进行手势分类

代码讲解

1. 项目介绍

电子脑壳项目本身是一个标准的MVVM的WinUI项目，使用微软的轻量级DI容器管理对象的生命周期，MVVM使用的是社区工具包提供的框架，支持代码生成，简化VM的代码。

2. 核心代码讲解

实时视频流解析手势，通过命名空间Windows.Media.Capture下的MediaCapture类和Windows.Media.Capture.Frames命名空间下的MediaFrameReader类，创建对象并注册帧处理事件，在帧处理事件中处理视频画面并传出到手势识别服务里进行手势识别，主要代码如下。

//帧处理结果订阅
private void Current_SoftwareBitmapFrameCaptured(object? sender, SoftwareBitmapEventArgs e)
{
    if (e.SoftwareBitmap is not null)
    {

        if (e.SoftwareBitmap.BitmapPixelFormat != BitmapPixelFormat.Bgra8 ||
              e.SoftwareBitmap.BitmapAlphaMode == BitmapAlphaMode.Straight)
        {
            e.SoftwareBitmap = SoftwareBitmap.Convert(
                e.SoftwareBitmap, BitmapPixelFormat.Bgra8, BitmapAlphaMode.Premultiplied);
        }
        //手势识别服务获取
        var service = App.GetService<GestureClassificationService>();
        //调用手势分析代码
        _ = service.HandPredictResultUnUseQueueAsync(calculator, modelPath, e.SoftwareBitmap);
    }
}

涉及到的代码如下：

MainViewModel

CameraFrameService

语音转文本的实现，WinUI（WASDK）继承了UWP的现代化的UI，也可以很好的使用WinRT的API进行操作。主要涉及的对象为命名空间Windows.Media.SpeechRecognition下的SpeechRecognizer对象。

官网文档地址语音交互定义自定义识别约束

以下是语音转文本的部分代码详细代码点击文字

//创建识别为网络搜索
var webSearchGrammar = new SpeechRecognitionTopicConstraint(SpeechRecognitionScenario.WebSearch, "webSearch", "sound");
        //webSearchGrammar.Probability = SpeechRecognitionConstraintProbability.Min;
        speechRecognizer.Constraints.Add(webSearchGrammar);
        SpeechRecognitionCompilationResult result = await speechRecognizer.CompileConstraintsAsync();

        if (result.Status != SpeechRecognitionResultStatus.Success)
        {
            // Disable the recognition buttons.
        }
        else
        {
            // Handle continuous recognition events. Completed fires when various error states occur. ResultGenerated fires when
            // some recognized phrases occur, or the garbage rule is hit.
            //注册指定的事件
            speechRecognizer.ContinuousRecognitionSession.Completed += ContinuousRecognitionSession_Completed;
            speechRecognizer.ContinuousRecognitionSession.ResultGenerated += ContinuousRecognitionSession_ResultGenerated;
        }

语音转文本之后调用ChatGPT API进行对话回复获取，使用ChatGPTSharp封装库实现。

代码如下：

private async void ContinuousRecognitionSession_ResultGenerated(SpeechContinuousRecognitionSession sender, SpeechContinuousRecognitionResultGeneratedEventArgs args)
{
    // The garbage rule will not have a tag associated with it, the other rules will return a string matching the tag provided
    // when generating the grammar.
    var tag = "unknown";

    if (args.Result.Constraint != null && isListening)
    {
        tag = args.Result.Constraint.Tag;

        App.MainWindow.DispatcherQueue.TryEnqueue(() =>
        {
            ToastHelper.SendToast(tag, TimeSpan.FromSeconds(3));
        });


        Debug.WriteLine($"识别内容---{tag}");
    }

    // Developers may decide to use per-phrase confidence levels in order to tune the behavior of their 
    // grammar based on testing.
    if (args.Result.Confidence == SpeechRecognitionConfidence.Medium ||
        args.Result.Confidence == SpeechRecognitionConfidence.High)
    {
        var result = string.Format("Heard: '{0}', (Tag: '{1}', Confidence: {2})", args.Result.Text, tag, args.Result.Confidence.ToString());


        App.MainWindow.DispatcherQueue.TryEnqueue(() =>
        {
            ToastHelper.SendToast(result, TimeSpan.FromSeconds(3));
        });


        if (args.Result.Text.ToUpper() == "打开B站")
        {
            await Launcher.LaunchUriAsync(new Uri(@"https://www.bilibili.com/"));
        }
        else if (args.Result.Text.ToUpper() == "撒个娇")
        {
            ElectronBotHelper.Instance.ToPlayEmojisRandom();
        }
        else
        {
            try
            {
                // 根据机器人客户端工厂创建指定类型的处理程序 可以支持多种聊天API
                var chatBotClientFactory = App.GetService<IChatbotClientFactory>();

                var chatBotClientName = (await App.GetService<ILocalSettingsService>()
                     .ReadSettingAsync<ComboxItemModel>(Constants.DefaultChatBotNameKey))?.DataKey;

                if (string.IsNullOrEmpty(chatBotClientName))
                {
                    throw new Exception("未配置语音提供程序机密数据");
                }

                var chatBotClient = chatBotClientFactory.CreateChatbotClient(chatBotClientName);
                //调用指定的实现获取聊天返回结果
                var resultText = await chatBotClient.AskQuestionResultAsync(args.Result.Text);

                //isListening = false;
                await ReleaseRecognizerAsync();
                //调用文本转语音并进行播放方法
                await ElectronBotHelper.Instance.MediaPlayerPlaySoundByTTSAsync(resultText, false);      
            }
            catch (Exception ex)
            {
                App.MainWindow.DispatcherQueue.TryEnqueue(() =>
                {
                    ToastHelper.SendToast(ex.Message, TimeSpan.FromSeconds(3));
                });

            }
        }
    }
    else
    {
    }
}

结果文本转语音并进行播放，通过Windows.Media.SpeechSynthesis命名空间下的SpeechSynthesizer类，使用下面的代码可以将文本转化成Stream。

  using SpeechSynthesizer synthesizer = new();
            // Create a stream from the text. This will be played using a media element.

            //将文本转化为Stream
            var synthesisStream = await synthesizer.SynthesizeTextToStreamAsync(text);

然后使用MediaPlayer对象进行语音的播报。


 /// <summary>
/// 播放声音
/// </summary>
/// <param name="content"></param>
/// <returns></returns>
public async Task MediaPlayerPlaySoundByTTSAsync(string content, bool isOpenMediaEnded = true)
{
    _isOpenMediaEnded = isOpenMediaEnded;
    if (!string.IsNullOrWhiteSpace(content))
    {
        try
        {
            var localSettingsService = App.GetService<ILocalSettingsService>();

            var audioModel = await localSettingsService
                .ReadSettingAsync<ComboxItemModel>(Constants.DefaultAudioNameKey);

            var audioDevs = await EbHelper.FindAudioDeviceListAsync();

            if (audioModel != null)
            {
                var audioSelect = audioDevs.FirstOrDefault(c => c.DataValue == audioModel.DataValue) ?? new ComboxItemModel();

                var selectedDevice = (DeviceInformation)audioSelect.Tag!;

                if (selectedDevice != null)
                {
                    mediaPlayer.AudioDevice = selectedDevice;
                }
            }
            //获取TTS服务实例
            var speechAndTTSService = App.GetService<ISpeechAndTTSService>();
            //转化文本到Stream
            var stream = await speechAndTTSService.TextToSpeechAsync(content);
            //播放stream
            mediaPlayer.SetStreamSource(stream);
            mediaPlayer.Play();
            isTTS = true;
        }
        catch (Exception)
        {
        }
    }
}

至此一次完整的识别对话流程就结束了，软件的界面如下图，感兴趣的同学可以点击图片查看项目源码地址查看其他的功能：

个人感悟

个人觉得DotNET的生态还是差了些，尤其是ML.NET的轮子还是太少了，毕竟参与的人少，而且知识迁移也需要成本，熟悉其他机器学习框架的人可能不懂DotNET。

所以作为社区的一员，我觉得我们需要走出去，然后再回来，走出去就是先学习其他的机器学习框架，然后回来用DotNET进行应用，这样轮子多了，社区就会越来越繁荣。

我也能多多的复制粘贴大家的代码了。

参考推荐文档项目如下：

手势摄像头 noopener https target .NET技术

有关WinUI（WASDK）使用ChatGPT和摄像头手势识别结合TTS让机器人更智能的更多相关文章

ruby - 如何使用 Nokogiri 的 xpath 和 at_xpath 方法 - 2
我正在学习如何使用Nokogiri，根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div
ruby - 使用 RubyZip 生成 ZIP 文件时设置压缩级别 - 2
我有一个Ruby程序，它使用rubyzip压缩XML文件的目录树。gem。我的问题是文件开始变得很重，我想提高压缩级别，因为压缩时间不是问题。我在rubyzipdocumentation中找不到一种为创建的ZIP文件指定压缩级别的方法。有人知道如何更改此设置吗？是否有另一个允许指定压缩级别的Ruby库？最佳答案这是我通过查看rubyzip内部创建的代码。level=Zlib::BEST_COMPRESSIONZip::ZipOutputStream.open(zip_file)do|zip|Dir.glob("**/*")d
ruby - 为什么我可以在 Ruby 中使用 Object#send 访问私有(private)/ protected 方法？ - 2
类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc
ruby-on-rails - 使用 Ruby on Rails 进行自动化测试 - 最佳实践 - 2
很好奇，就使用rubyonrails自动化单元测试而言，你们正在做什么？您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您？git中的预提交Hook？只是手动调用？我完全理解测试，但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的，并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您？最佳答案不确定您到底想听什么，但是有几个级别的自动代码库控制:在处理某项功能时，您可以使用类似autotest的内容获得关于哪些有效，哪些无效的即时反馈。要确保您的提
ruby - 在 Ruby 中使用匿名模块 - 2
假设我做了一个模块如下:m=Module.newdoclassCendend三个问题:除了对m的引用之外，还有什么方法可以访问C和m中的其他内容？我可以在创建匿名模块后为其命名吗(就像我输入“module...”一样)？如何在使用完匿名模块后将其删除，使其定义的常量不再存在？最佳答案三个答案:是的，使用ObjectSpace.此代码使c引用你的类(class)C不引用m:c=nilObjectSpace.each_object{|obj|c=objif(Class===objandobj.name=~/::C$/)}当然这取决于
ruby - 使用 ruby 和 savon 的 SOAP 服务 - 2
我正在尝试使用ruby和Savon来使用网络服务。测试服务为http://www.webservicex.net/WS/WSDetails.aspx?WSID=9&CATID=2require'rubygems'require'savon'client=Savon::Client.new"http://www.webservicex.net/stockquote.asmx?WSDL"client.get_quotedo|soap|soap.body={:symbol=>"AAPL"}end返回SOAP异常。检查soap信封，在我看来soap请求没有正确的命名空间。任何人都可以建议我
python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声？ - 2
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点？我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等)，但我确实想创建一个输出文件。
ruby-on-rails - 'compass watch' 是如何工作的/它是如何与 rails 一起使用的 - 2
我在我的项目目录中完成了compasscreate.和compassinitrails。几个问题:我已将我的.sass文件放在public/stylesheets中。这是放置它们的正确位置吗？当我运行compasswatch时，它不会自动编译这些.sass文件。我必须手动指定文件:compasswatchpublic/stylesheets/myfile.sass等。如何让它自动运行？文件ie.css、print.css和screen.css已放在stylesheets/compiled。如何在编译后不让它们重新出现的情况下删除它们？我自己编译的.sass文件编译成compiled/t
ruby - 使用 ruby 将 HTML 转换为纯文本并维护结构/格式 - 2
我想将html转换为纯文本。不过，我不想只删除标签，我想智能地保留尽可能多的格式。为插入换行符标签，检测段落并格式化它们等。输入非常简单，通常是格式良好的html(不是整个文档，只是一堆内容，通常没有anchor或图像)。我可以将几个正则表达式放在一起，让我达到80%，但我认为可能有一些现有的解决方案更智能。最佳答案首先，不要尝试为此使用正则表达式。很有可能你会想出一个脆弱/脆弱的解决方案，它会随着HTML的变化而崩溃，或者很难管理和维护。您可以使用Nokogiri快速解析HTML并提取文本:require'nokogiri'h
ruby - 在 64 位 Snow Leopard 上使用 rvm、postgres 9.0、ruby 1.9.2-p136 安装 pg gem 时出现问题 - 2
我想为Heroku构建一个Rails3应用程序。他们使用Postgres作为他们的数据库，所以我通过MacPorts安装了postgres9.0。现在我需要一个postgresgem并且共识是出于性能原因你想要pggem。但是我对我得到的错误感到非常困惑当我尝试在rvm下通过geminstall安装pg时。我已经非常明确地指定了所有postgres目录的位置可以找到但仍然无法完成安装:$envARCHFLAGS='-archx86_64'geminstallpg--\--with-pg-config=/opt/local/var/db/postgresql90/defaultdb/po