通信世界网消息(CWW)生成式AI与智能手机的深度融合引发了多模态交互场景的爆发,导致终端功能检测的复杂性与状态不确定性激增[1]。传统脚本回放方案难以应对动态弹窗、跨系统协同等复杂逻辑,导致约30%的场景仍需要人工干预,测试效率与一致性瓶颈凸显。与此同时,智能流程自动化(Intelligent Process Automation,IPA)融合计算机视觉、自然语言处理等技术,在财务、审计等领域已展现出处理非结构化数据与支持复杂决策的能力[2]。然而,目前IPA研究对具备多模态感知、实时交互与跨系统协同特征的手机测试场景关注不足[3]。本文首次系统性探索将IPA框架引入手机检测领域,旨在实现“智能识别—动态决策—自动执行”的闭环。感知层:集成YOLOv11(一种目标检测算法)与OCR(光学字