本文讨论了在生产环境中运行 AI 助手时面临的挑战,特别是当 AI 助手本身失败时如何“救”它。基于发现 AI 助手之间的依赖关系,设计了一个双向互备系统,使两个 AI 助手(OpenClaw 和 Hermes)能够相互监控并自动恢复对方的故障,从而提高系统的稳定性和可靠性。 系统架构由监控脚本、恢复脚本、独立通知脚本和 Cron 任务组成,负责定期检查两个 AI 助手的健康状态。当检测到故障时,恢复脚本会自动尝试修复,包括重启服务、配置修复和备份恢复等步骤。独立通知脚本用于直接调用外部通知系统(如飞书),以避免依赖 AI 助手自身发送通知的问题。 本文还提供了具体的实现细节,例如监控脚本的逻辑、恢复脚本的使用方式、独立通知脚本的核心逻辑以及日志管理。最后,作者总结了此次实现的经验教训,包括关键教训和设计原则,并探讨了未来的优化方向。 总之,本文介绍的双向互备系统是一个创新的故障恢复解决方案,通过相互依赖的 AI 助手之间的互相协作,提高了系统的鲁棒性和可用性。