流程完整：解析 -> 文本规范化（可借助 espeak-ng）-> PyTorch/Kokoro 合成 -> ffmpeg 合并为 m4b。
性能可选：支持 CPU 与 GPU（--cuda），README 给出 Colab T4（~600 字符/s）与 M2 CPU（~60 字符/s）的对比数据。

重要提示：受 DRM 保护或格式损坏的 EPUB 无法直接转换；法律合规性需自行确认。

总结：在满足依赖与硬件条件且对 EPUB 做必要预处理的情况下，audiblez 能可靠地自动生成可播放的 m4b 有声书，GPU 能显著提升转换速度。

87.0%

在本地（无云）使用 audiblez 时，用户会遇到哪些常见体验问题？如何规避或解决这些问题？

核心分析 ¶

用户痛点：本地使用 audiblez 的主要问题集中在环境依赖、磁盘/内存资源管理、跨平台 GUI 依赖以及受 DRM/复杂排版影响的解析失败。

环境准备：使用 OS 包管理器安装 ffmpeg、espeak-ng，并用 Python venv 隔离依赖（README 推荐 Windows 使用 venv）。
试点与调整：先转一章样本，确认声线、语速（-s）和文本格式化。
磁盘策略：指定输出目录并在合并成 m4b 后删除中间 WAV，或使用临时分区/外接存储。
GUI 安装：仅在需要可视化时安装 wxpython 与 pillow，否则优先使用 CLI 来降低复杂性。

重要提示：通过标准化安装步骤、先跑样本并规划磁盘，本地使用体验可显著提升。

总结：大部分问题来自环境和资源，遵循 README 的依赖安装与先验测试能把失败率降到最低。

86.0%

audiblez 在处理含复杂排版、脚注或多语言混排的 EPUB 时的表现如何？需要哪些预处理步骤以提高朗读质量？

问题核心：复杂排版（脚注、表格、注释）与多语言混排会给自动化解析与 TTS 带来错误的停顿、不正确的发音或上下文混淆，影响听感与可理解性。

重要提示：通过预清理与按语言分段策略，可大幅提高合成质量，但仍无法完全替代人工校对。

总结：对复杂排版或多语言 EPUB，先做文本层面的清理与分段是关键步骤；audiblez 提供工具级支持（–pick、espeak-ng）但需人工配合以获得最佳结果。

86.0%

为什么选择 Kokoro-82M 与 PyTorch 作为核心 TTS 实现？这种技术选型有哪些优势与限制？

项目定位：选择 Kokoro-82M（82M 参数）与 PyTorch 组合，旨在平衡本地可部署性与自然语音质量，且可利用 GPU 加速以满足整书合成的性能需求。

优势1（轻量且质量高）：Kokoro-82M 提供比大型模型更小的参数量，便于本地运行与快速加载，同时 README 提示其声音较自然。
优势2（生态与加速）：PyTorch 提供成熟的 GPU 支持（CUDA），使得在有 GPU 的环境下可实现显著加速（README 给出 Colab/T4 的实例）。
限制：小模型在情感表达、朗读表现力和少数语言/声线的自然度上可能不如大模型；对 Apple Silicon 的原生支持有限（洞察中提到缺失）。