Speechify推出Windows应用：本地AI模型实现语音转写与听写

语音AI公司Speechify发布了原生Windows应用，采用本地存储的模型实现跨应用听写，并使用其语音库朗读文章、文档或PDF。

本地处理的突破

这款Windows应用在配备AMD、英特尔和高通NPU的Copilot+ PC上完全在设备端进行语音处理，在配备英特尔和AMD GPU的Windows 11 PC上同样支持本地处理。

应用在设备端运行三个模型：神经文本转语音、实时语音活动检测和基于Whisper的转录。用户可以配置应用切换到云端模型，甚至在使用过程中更改模型。

公司称拥有超过5000万用户。VITS Neural可以在七种不同速度预设下生成音频，允许应用朗读文档或网页。公司使用Silero开源模型进行语音活动检测。

Speechify创始人兼CEO Cliff Weitzman表示：全球有超过十亿人使用Windows。通过这次Windows发布，我们要确保阅读和写作永远不会成为障碍，无论你使用什么设备或喜欢什么工作方式。

直到几年前，Speechify还主要专注于文本转语音用例，如朗读文章和电子邮件、将文档生成播客。最近，公司正尝试成为全栈语音应用，推出听写、会议转录和语音助手功能。

上个月，公司推出了类似Granola的会议转录功能，但仅限于基于浏览器的会议。现在公司已拥有跨平台应用，很可能会将此功能移植到原生应用，以转录任何应用或浏览器上的会议。

Speechify正在与Wispr Flow、Willow和Superwhisper等提供跨平台听写和转录应用的公司竞争。

本地处理的优势在于隐私保护和离线可用性。对于企业用户来说，敏感数据不需要上传到云端是一个重要的安全考量。

Speechify的Windows应用代表了语音AI的一个重要趋势：从云端向边缘迁移。随着设备端AI芯片性能提升，越来越多复杂的AI任务可以在本地完成。

对于用户来说，这意味着更好的隐私、更低的延迟和离线能力。对于企业来说，这意味着数据安全的提升和潜在的合规性改善。

语音AI市场正在快速发展，从单纯的文本转语音扩展到全栈语音解决方案。Speechify的跨平台战略和本地处理能力可能成为其竞争优势。