Handy: 一款免费的开源离线语音转文本应用
Handy是一款跨平台的桌面应用,专为隐私设计的简单语音转录工具,完全支持离线操作。您只需按下快捷键,开始讲话,您的话就会出现在任何文本框中,所有处理都在您的计算机内部完成,无需将语音发送至云端,完美解决了隐私问题。
为什么选择Handy?
Handy的目标是填补市面上缺乏真正开源、可扩展语音转文本工具的空白,具体优势包括:
免费:无论贫富,每个人都应该能够使用辅助工具,而非被高昂的付费墙所限制。开源:与大家一起发展,您可以为自己扩展Handy,并为更大的社区做贡献。私密:您的声音保持在您的计算机上,笔记转录过程无需将音频上传至云端。简单:一款工具专注于一项任务,转录您所说的并直接放入文本框中。
Handy并不打算成为最佳的语音转文本应用,而是希望成为最易于扩展的工具。
使用方法
操作流程
按下可配置的快捷键以开始/停止录音(或使用语音按键模式)。说出您的话,直到快捷键松开。放开快捷键,Handy会使用Whisper处理您的语音。获取转录的文本,直接粘贴到您使用的任何应用中。
所有过程均在本地完成:
使用VAD(语音活动检测)来过滤静音。使用您选择的模型进行转录:
Whisper模型(小型/中型/涡轮/大型),如可用则启用GPU加速。Parakeet V3 – CPU优化模型,性能优越,自动检测语言。 支持Windows、macOS和Linux系统。
快速开始
安装步骤
从发布页面或官方网站下载最新版本。按照特定平台的说明安装应用程序。启动Handy并授予必要的系统权限(麦克风、辅助功能)。在设置中配置您喜欢的快捷键。开始转录!
开发设置
有关详细的构建说明,包括平台特定需求,请查看BUILD.md。
体系结构
Handy作为Tauri应用程序构建,结合了:
前端:使用React + TypeScript和Tailwind CSS用于设置UI。后端:Rust用于系统集成、音频处理和机器学习推理。核心库:
:使用Whisper模型进行本地语音识别。
whisper-rs:使用Parakeet模型的CPU优化语音识别。
transcription-rs:跨平台音频输入输出。
cpal:语音活动检测。
vad-rs:全局快捷键和系统事件。
rdev:音频重采样。
rubato
调试模式
Handy包含高级调试模式,用于开发和故障排除。通过以下方式访问:
macOS:Windows/Linux:
Cmd+Shift+D
Ctrl+Shift+D
已知问题与当前限制
该项目仍在积极开发中,并存在一些已知问题。我们相信保持透明是非常重要的:
平台支持
macOS(Intel和Apple Silicon均支持)x64 Windowsx64 Linux
系统要求/推荐配置
以下是运行Handy的推荐配置。如果您的计算机不符合系统要求,应用程序的性能可能会受到影响。我们正在努力改善各类计算机和硬件的性能。
Whisper模型:
macOS:M系列Mac,Intel MacWindows:Intel、AMD或NVIDIA GPULinux:Intel、AMD或NVIDIA GPU
Ubuntu 22.04、24.04
Parakeet V3模型:
仅CPU操作 – 适用于多种硬件。最低要求:Intel Skylake(第6代)或同等AMD处理器。性能:在中档硬件(如i5)上可实现~5倍实时速度。自动语言检测 – 无需手动选择语言。
相关项目
Handy CLI – 最初的Python命令行版本。handy.computer – 项目官网,提供演示和文档。
总结
Handy是一款专注于本地语音转文本的优秀应用,兼具开源和可扩展性,旨在为用户提供一个高效而私密的工具。有助于满足各种离线语音识别需求,不仅适用于个人使用,也为开发者提供了极大的自定义空间。探索与Handy同类的优秀项目,例如Handy CLI,进一步扩展您的语音转文本体验。


