语音AI公司Speechify发布了原生Windows应用,采用本地存储的模型实现跨应用听写,并使用其语音库朗读文章、文档或PDF。

本地处理的突破

这款Windows应用在配备AMD、英特尔和高通NPU的Copilot+ PC上完全在设备端进行语音处理,在配备英特尔和AMD GPU的Windows 11 PC上同样支持本地处理。

应用在设备端运行三个模型:神经文本转语音、实时语音活动检测和基于Whisper的转录。用户可以配置应用切换到云端模型,甚至在使用过程中更改模型。

功能与用户群

公司称拥有超过5000万用户。VITS Neural可以在七种不同速度预设下生成音频,允许应用朗读文档或网页。公司使用Silero开源模型进行语音活动检测。

Speechify创始人兼CEO Cliff Weitzman表示:全球有超过十亿人使用Windows。通过这次Windows发布,我们要确保阅读和写作永远不会成为障碍,无论你使用什么设备或喜欢什么工作方式。

从文本转语音到全栈语音应用

直到几年前,Speechify还主要专注于文本转语音用例,如朗读文章和电子邮件、将文档生成播客。最近,公司正尝试成为全栈语音应用,推出听写、会议转录和语音助手功能。

上个月,公司推出了类似Granola的会议转录功能,但仅限于基于浏览器的会议。现在公司已拥有跨平台应用,很可能会将此功能移植到原生应用,以转录任何应用或浏览器上的会议。

竞争格局

Speechify正在与Wispr Flow、Willow和Superwhisper等提供跨平台听写和转录应用的公司竞争。

本地处理的优势在于隐私保护和离线可用性。对于企业用户来说,敏感数据不需要上传到云端是一个重要的安全考量。

写在最后

Speechify的Windows应用代表了语音AI的一个重要趋势:从云端向边缘迁移。随着设备端AI芯片性能提升,越来越多复杂的AI任务可以在本地完成。

对于用户来说,这意味着更好的隐私、更低的延迟和离线能力。对于企业来说,这意味着数据安全的提升和潜在的合规性改善。

语音AI市场正在快速发展,从单纯的文本转语音扩展到全栈语音解决方案。Speechify的跨平台战略和本地处理能力可能成为其竞争优势。