问题：

使用Microsoft认知语音Websocket进行连续语音识别-Xamarin

呼延俊良

2023-03-14

我正在尝试使用适用于Xamarin Android的Microsoft认知语音从麦克风构建连续语音识别。我认为没有Xamarin的库，所以我稍微修改了“Xamarin。认知。BingSpeech”库（endpoint等）以使其正常工作。我有一些问题

我想通过以下教程连接到microsoft web套接字https://docs.microsoft.com/en-us/azure/cognitive-services/speech/api-reference-rest/websocketprotocol.

我尝试使用基本的HttpClient发送HTTPREQUEST，得到了101交换机协议的结果（我想我成功了吗？）。

更新：我的HTTP请求是：

System.Net.ServicePointManager.SecurityProtocol = SecurityProtocolType.Tls12 | SecurityProtocolType.Ssl3;

var request = new HttpWebRequest(uriBuilder.Uri);
request.Headers.Add("Authorization", new System.Net.Http.Headers.AuthenticationHeaderValue(Bearer, AuthClient.Token).ToString());
request.Accept=MimeTypes.Json;
request.Host = SpeechEndpoint.Host;
request.Connection = "Upgrade";
request.Headers.Add("Upgrade", "Websocket");
request.KeepAlive = true;
request.Method = "GET";
request.CookieContainer = new CookieContainer();
request.AllowAutoRedirect = true;
request.Date = DateTime.Now;
request.CachePolicy = new System.Net.Cache.RequestCachePolicy(System.Net.Cache.RequestCacheLevel.CacheIfAvailable);
request.Headers.Add("Sec-WebSocket-Key", "dGhlIHNhbXBsZSBub25jZQ==");
request.Headers.Add("Sec-WebSocket-Version", "13");
request.Headers.Add("Sec-WebSocket-Protocol", "chat, superchat");
request.Headers.Add("X-ConnectionId",xConnectionId = Guid.NewGuid().ToString().ToUpper());

在制作HTTPRequest后，我正在尝试连接到websocket，但我总是得到“无法连接到远程服务器”，没有任何错误代码或任何东西。（wss：//xxxxxxxx）。

Uri wsuri = new Uri(AppConfig.BINGWSSURI);
await _socketclient.ConnectAsync(wsuri, CancellationToken.None);
Log.Info("WSOCKETFINISH", _socketclient.State.ToString());

我想实现的第二件事是使用二进制消息将音频从麦克风传输到websocket，所以我必须

从麦克风录制（我正在使用插件录音机）
把它切成小块
使用websocket异步流式传输小片段

我想要实现的是：使用Microsoft认知语音和听写模式的麦克风进行语音到文本转换，因此我需要部分结果，而不是等待录制完成。

殳自怡

2023-03-14

我想你想把演讲转换成文本<自从Xamarin以来。认知的BingSpeech需要您录制语音并将其作为文件或流发送到服务器。我想你可以尝试使用Android语音。它还可以将文本转换为语音。这里有一个例子。

如果你想使用Xamarin。认知的BingSpeech，您可以使用音频录制器插件录制语音，并使用BingSpeechAPClient发送到服务器。例如：

BingSpeechApiClient bingSpeechClient = new BingSpeechApiClient ("My Bing Speech API Subscription Key");
var audioFile = "/a/path/to/my/audio/file/in/WAV/format.wav";
var simpleResult = await bingSpeechClient.SpeechToTextSimple (audioFile);
Or
var simpleResult = await bingSpeechClient.SpeechToTextSimple (stream, <sample rate>, <audio record Task>);

下面是Xamarin的例子。认知的宾语。

更新时间：

我总是得到“无法连接到远程服务器”，没有任何错误代码或任何东西。

您在标题中缺少一些有价值的东西。

X-ConnectionId
您需要生成一个UUID并将其添加到头中。例如：<代码>客户端。选项。SetRequestHeader（“X-ConnectionId”，System.Guid.NewGuid（）。ToString（））

授权
您需要将订阅密钥发布到https://api.cognitive.microsoft.com/sts/v1.0/issueToken.你可以用邮递员来做这件事。然后在标题中添加返回值。

客户选项。SetRequestHeader（“授权”，“eyJ0eXAiOiJKV1Q…uW72PAOBRcUvqY”）；

所以我需要部分结果而不是等录音完成

您可以使用GetAudioFileStream（）方法。例如：

    var audioRecordTask = await recorder.StartRecording();
    using (var stream = recorder.GetAudioFileStream ())
    {
        //this will get the recording audio data as it continues to record
    }

更新2:websoket部件代码：

    var client = new ClientWebSocket();
    client.Options.UseDefaultCredentials = true;
    client.Options.SetRequestHeader("X-ConnectionId", System.Guid.NewGuid().ToString());
    client.Options.SetRequestHeader("Authorization", "eyJ0eXAiOiJKV1QiL....16pbFPOWT3VHXot8");
    var a = client.ConnectAsync(new Uri("wss://speech.platform.bing.com/speech/recognition/Dictation/cognitiveservices/v1"), CancellationToken.None);
    a.Wait();

注意：使您的授权值保持最新。

使用Microsoft认知语音Websocket进行连续语音识别-Xamarin

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档