使用语音到文本API进行React中的语音识别

所有资源

利润;博客;资源;其他资源;语音文本转换API;使用语音到文本API进行React中的语音识别

本文详细介绍了如何编写一个使用艾牧师使用React的语音到文本API。该网络应用程序将允许用户提交一个音频/视频文件，由艾牧师API。这个网络应用程序还允许用户使用他们的麦克风流音频，并从Rev.ai API接收实时语音到文本的转录。未来的艾牧师API将被称为API。

在您的前5个小时内免费试用Rev AI

建筑学

与API的通信依赖于个人的访问令牌，该令牌也链接到支付信息，并可能产生费用。因此，访问令牌应该保密，以防止未经授权的使用。虽然在技术上可以直接从浏览器与api进行通信，但浏览器并不擅长保密。应该避免在浏览器中使用秘密和访问令牌。

服务器用于确保浏览器和API之间的通信安全。浏览器使用HTTP请求和WebSocket消息的组合与服务器通信。这个艾牧师NodeSDK用于与服务器的API通信。服务器还提供了一个webhook端点，当异步作业提交完成时，API可以调用该端点。

使用的第三方库

本文使用了以下第三方库：

反应-应用程序的前端是用React编写的。React是一个JavaScript库，用于创建交互式用户界面。尽管React可以用普通的JavaScript编写，但它也提供了一个JavaScript语法扩展JSX。JSX允许我们用JavaScript编写最终呈现给DOM的HTML元素。
RecordRTC -RecordRTC库用于捕获用户的音频，对其进行编码并将其传输到服务器。
顺风CSS-Tailwindcss是一个实用程序优先的CSS框架，用于设计web应用程序前端的样式。
ExpressJS-服务器是使用Express web framework在NodeJs中编写的。expressweb框架用于公开前端调用的HTTP端点。
套接字。IO -io库用于在前端和服务器之间提供实时双向通信。
相乘,Multer是一个中间件库，用于处理多部分/表单数据文件上传。

开发工具

以下工具用于开发项目:

积雪-Snowpack是一个前端构建工具，用于将反应代码构建为可由浏览器解释的JavaScript。
诺德蒙-Nodemon是一种开发工具，当工具检测到文件更改时，它会重新启动进程。对于这个项目，Nodemon在开发时通过在某个服务器源文件被更新时重新启动Express服务器来保持服务器代码的更新。
同时——concurrent是一种开发工具，它允许从一个流程控制多个流程。对于这个项目，concurrent在一个进程中控制Snowpack构建进程和Express服务器进程。

环境变量

需要定义以下环境变量：

REVAI_ACCESS_TOKEN–rev.ai访问令牌
WEBHOOK\u BASE\u URL–rev.ai应向其发送请求的基本URL，表明作业处理已完成
媒体路径–服务器上存储上传媒体文件的路径。

运行服务器

要运行开发服务器，请从命令行运行命令“npm run dev”。此命令将同时用于运行Snowpack build命令和使用Nodemon启动Express服务器。对服务器源代码文件的任何更改都将使用更改重新启动服务器。对前端源的任何更改都将更新，但必须刷新浏览器窗口才能查看更改。

可以通过从命令行运行命令“npm start”来运行生产服务器。

在您的前5个小时内免费试用Rev AI

useSocket钩

为了处理react中的Socket.io通信，创建了useSocket自定义挂钩。钩子在第一次创建钩子时就创建了一个与Socket.io的连接。对钩子的后续调用使用相同的连接。此挂钩允许单个组件侦听组件内的套接字消息。

用户界面

用户界面由两个独立的选项卡组成，可以通过选择适当的选项卡头进行切换。

异步选项卡

当选择async选项卡时，将呈现AsyncForm组件。AsyncForm演示了API的异步功能。AsyncForm封装了以下内部组件:

媒体上传器–此组件用于选择要上载并提交到服务器的文件。
媒体播放器-该组件用于显示媒体文件和检索当前作业要加载的标题。
TranscriptionViewer–此组件从服务器获取并显示当前作业的转录。仅当设置了作业对象时，才会渲染此组件。

首次呈现AsyncForm时，将显示MediaUploader。首先，用户选择要由API处理的音频或视频文件。单击“提交”按钮后，文件将作为多部分表单数据上载到服务器上的“/api/media”端点。Multer将文件存储在服务器上。作业提交到API时，URL指向上传的媒体文件，同时URL指向指向“/API/job endpoint”的webhook。