破解语音转文字的难题,尽在Handy!

内容分享2周前发布
0 0 0

Handy: 一款免费的开源离线语音转文本应用

Handy是一款跨平台的桌面应用,专为隐私设计的简单语音转录工具,完全支持离线操作。您只需按下快捷键,开始讲话,您的话就会出现在任何文本框中,所有处理都在您的计算机内部完成,无需将语音发送至云端,完美解决了隐私问题。

为什么选择Handy?

Handy的目标是填补市面上缺乏真正开源、可扩展语音转文本工具的空白,具体优势包括:

免费:无论贫富,每个人都应该能够使用辅助工具,而非被高昂的付费墙所限制。开源:与大家一起发展,您可以为自己扩展Handy,并为更大的社区做贡献。私密:您的声音保持在您的计算机上,笔记转录过程无需将音频上传至云端。简单:一款工具专注于一项任务,转录您所说的并直接放入文本框中。

Handy并不打算成为最佳的语音转文本应用,而是希望成为最易于扩展的工具。

使用方法

操作流程

按下可配置的快捷键以开始/停止录音(或使用语音按键模式)。说出您的话,直到快捷键松开。放开快捷键,Handy会使用Whisper处理您的语音。获取转录的文本,直接粘贴到您使用的任何应用中。

所有过程均在本地完成:

使用VAD(语音活动检测)来过滤静音。使用您选择的模型进行转录:
Whisper模型(小型/中型/涡轮/大型),如可用则启用GPU加速。Parakeet V3 – CPU优化模型,性能优越,自动检测语言。 支持Windows、macOS和Linux系统。

快速开始

安装步骤

从发布页面或官方网站下载最新版本。按照特定平台的说明安装应用程序。启动Handy并授予必要的系统权限(麦克风、辅助功能)。在设置中配置您喜欢的快捷键。开始转录!

开发设置

有关详细的构建说明,包括平台特定需求,请查看BUILD.md。

体系结构

Handy作为Tauri应用程序构建,结合了:

前端:使用React + TypeScript和Tailwind CSS用于设置UI。后端:Rust用于系统集成、音频处理和机器学习推理。核心库

whisper-rs
:使用Whisper模型进行本地语音识别。
transcription-rs
:使用Parakeet模型的CPU优化语音识别。
cpal
:跨平台音频输入输出。
vad-rs
:语音活动检测。
rdev
:全局快捷键和系统事件。
rubato
:音频重采样。

调试模式

Handy包含高级调试模式,用于开发和故障排除。通过以下方式访问:

macOS
Cmd+Shift+D
Windows/Linux
Ctrl+Shift+D

已知问题与当前限制

该项目仍在积极开发中,并存在一些已知问题。我们相信保持透明是非常重要的:

平台支持

macOS(Intel和Apple Silicon均支持)x64 Windowsx64 Linux

系统要求/推荐配置

以下是运行Handy的推荐配置。如果您的计算机不符合系统要求,应用程序的性能可能会受到影响。我们正在努力改善各类计算机和硬件的性能。

Whisper模型:

macOS:M系列Mac,Intel MacWindows:Intel、AMD或NVIDIA GPULinux:Intel、AMD或NVIDIA GPU
Ubuntu 22.04、24.04

Parakeet V3模型:

仅CPU操作 – 适用于多种硬件。最低要求:Intel Skylake(第6代)或同等AMD处理器。性能:在中档硬件(如i5)上可实现~5倍实时速度。自动语言检测 – 无需手动选择语言。

相关项目

Handy CLI – 最初的Python命令行版本。handy.computer – 项目官网,提供演示和文档。

总结

Handy是一款专注于本地语音转文本的优秀应用,兼具开源和可扩展性,旨在为用户提供一个高效而私密的工具。有助于满足各种离线语音识别需求,不仅适用于个人使用,也为开发者提供了极大的自定义空间。探索与Handy同类的优秀项目,例如Handy CLI,进一步扩展您的语音转文本体验。

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...