hacker_news_audio_tech_2026-04-05

Hacker News 音频技术 - 2026-04-05

1. Voxtral 文本转语音系统

_{作者: mihau | 发布于: 2026-04-02 18:05}

2. OmniVoice：支持600多种语言的高质量文本转语音

_{作者: drakirus | 发布于: 2026-04-02 12:21}

3. Show HN：Dograh——使用LLM选择录音而非TTS的语音代理

Dograh v1.20发布，这是一个开源语音AI代理平台，新增Gemini 3.1实时支持和预录音频功能以降低延迟。平台提供可视化工作流，支持自托管，避免供应商锁定。

_{作者: a6kme | 发布于: 2026-03-31 18:28}

4. Show HN：Migas——带实时发言人标注的会议助手（无需机器人，无需云端语音转文字）

Migas是一款本地语音识别工具，通过声纹识别实时标注说话人，支持跨会议积累上下文，所有处理均在设备端完成。

_{作者: blakers95 | 发布于: 2026-03-31 15:33}

5. Voxtral TTS – 文本转语音生成器

_{作者: MintNow | 发布于: 2026-03-29 10:16}

6. Mistral Voxtral TTS 通过 MLX 在苹果设备上实现本地运行

_{作者: lbj96347 | 发布于: 2026-03-28 12:47}

7. Mistral AI发布开源TTS模型，宣称性能超越ElevenLabs

_{作者: nickthegreek | 发布于: 2026-03-26 14:31}

8. mdbook-tts：将 mdBook 转换为可听的有声书

_{作者: bilalbayram | 发布于: 2026-03-25 15:31}

9. Show HN：提供完整方法论的、可复现的开源语音转文字API基准测试

_{作者: jilijeanlouis | 发布于: 2026-03-24 13:06}

10. Show HN：macOS Kokoro-TTS 文档朗读器——聆听任意文本

一款macOS应用，利用Kokoro TTS模型，可将ePub、PDF和纯文本文件转换为自然语音进行朗读。

_{作者: mattcheston | 发布于: 2026-03-20 03:20}

11. STT.ai如何保护您的音频与转录数据：客户端加密存储方案

_{作者: nadermx | 发布于: 2026-03-19 20:14}

12. Show HN：三款新 Kitten TTS 模型发布，最小体积不足 25MB

Kitten TTS发布三个开源小模型，支持八种语音，无需GPU即可在树莓派等设备运行，旨在缩小云端与本地TTS应用的差距。

_{作者: rohan_joshi | 发布于: 2026-03-19 15:56}

13. Show HN：面向阅读障碍者的 Chrome 文本转语音阅读器

HoverSpeak是一款面向阅读障碍者的免费浏览器扩展，通过悬停和快捷键实现快速文本朗读，无需选中文字。

_{作者: yaronl_elh | 发布于: 2026-03-19 15:46}

14. Qwen-ASR-CLI：纯Rust编写的本地Qwen语音识别命令行工具

_{作者: huang4fun | 发布于: 2026-03-19 12:28}

15. Show HN：实时本地文本转语音（3100万参数，5.6倍CPU速度，语音克隆，ONNX）

作者发布了一个基于VITS改进的小型TTS模型，支持语音克隆和混合，采用Apache 2.0许可，注重低延迟本地推理，但音质和相似度有限。

_{作者: ZDisket | 发布于: 2026-03-18 20:48}

16. Show HN：STT.ai——将音频和视频转录为文本

_{作者: nadermx | 发布于: 2026-03-18 09:12}

17. 用手机语音输入在笔记本电脑上打字

作者开发了一个工具，可通过手机键盘语音输入在电脑上打字，支持vim、浏览器等环境。

_{作者: theSage | 发布于: 2026-03-16 06:56}

18. Show HN：SciTeX 通知——为 AI 代理赋予声音：支持 TTS、电话与短信

scitex-notification为本地和远程AI代理提供多级通知系统，从语音播报到电话呼叫，支持紧急绕过静音模式。

_{作者: ywatanabe1989 | 发布于: 2026-03-15 22:19}

19. Show HN: TTS.ai – 文本转语音

_{作者: nadermx | 发布于: 2026-03-15 16:41}

20. Show HN：在浏览器中使用设备端语音识别实现语音跟踪的提词器

基于语音识别的浏览器端提词器，可根据说话节奏自动滚动和高亮文本，支持暂停和跳行匹配。

_{作者: lbaune | 发布于: 2026-03-15 09:15}