【引言】
随着人工智能(AI)技术在各行各业的广泛应用,“AI+场景”成为创新热点。与此同时,对于将AI算法或模型应用于不同场景的创新发明的创造性判断,一直是专利审查实践中的重点和难点问题。
刚刚,国家知识产权局公布了2025年度专利复审无效典型案例,其中第七个案例是名称为“基于音频生成动态图像的方法、装置、设备及存储介质”的4W118569号发明专利无效案,审理结论为维持专利权有效。审查决定在创造性“三步法”判断中全面考量了应用场景、模型训练方法等多种因素,尤其是将模型微调认作对模型的实质性改进,对于进一步完善“人工智能+”细分领域的专利审查标准有重要意义。
【案例介绍】
涉案专利的独立权利要求1要求保护(1-1)一种基于音频生成动态图像的方法,其特征在于,包括:
“(1-2)获取用户输入的参考图像和参考音频;
(1-3)基于所述参考图像和训练后的生成网络模型,确定目标头部动作特征和目标表情系数特征;所述训练后的生成网络模型用于基于输入的所述参考图像生成多个预测图像,并基于各所述预测图像和所述参考图像之间的区别,确定目标头部动作特征和目标表情系数特征;
(1-4)基于所述目标头部动作特征和所述目标表情系数特征对所述训练后的生成网络模型进行调整,得到目标生成网络模型;
(1-5)基于所述参考音频、所述参考图像和所述目标生成网络模型,对待处理图像进行处理,得到目标动态图像;所述目标动态图像表征所述待处理图像中目标人物基于所述参考音频变化面部表情的动态图像;所述待处理图像与所述参考图像中的图像对象相同;所述目标生成网络模型用于基于输入的所述参考音频和所述参考图像得到目标驱动特征,并基于所述目标驱动特征对输入的所述待处理图像中的目标区域进行驱动以输出所述目标动态图像。”
权利要求1的技术方案是基于目标人物的单张图片和音频数据并利用神经网络模型得到目标人物的动态图像,其中特征(1-3)-(1-4)描述的是基于参考图像对训练后的神经网络模型进行调整的过程,其属于神经网络模型的模型训练阶段;特征(1-5)描述了对待处理图像进行处理以得到目标动态图像,属于模型应用阶段。
无效宣告请求人主要采用以下三种证据组合来请求宣告权利要求无效:
组合1:证据1(“SadTalker Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking”)+证据2( [读论文]弱监督学习的精确3D人脸重建:从单个图像到图像集”),或者证据1+公知常识;
组合2:证据3(CN115131849A)的各个实施例接合,或者证据3+证据4(CN117315157A);
组合3:证据5(CN116912639A)。
对于组合1、2、3,本案合议组认为分别作为最接近现有技术的证据1、3、5均没有公开权利要求1的关于对训练后的神经网络进行调整的特征(1-3、1-4)以及基于参考音频、参考图像和目标生成网络模型对待处理图像进行处理以得到目标动态图像的特征(1-5)。基于这些区别特征,确定权利要求1实际解决的技术问题是:如何降低生产精准图像的成本。
组合1中的证据2公开了一种用于单幅图像的神经网络模型的训练过程,模型在训练完成后直接应用于图像推理,并没有给出在训练后的神经网络模型应用过程中利用具有相同对象的参考图像对训练后的神经网络模型进行调整的启示。组合2中的证据4公开了在单幅图像处理过程中对输入图像进行了表情去除以及设置随机表情的处理,从而实现身份与表情的解耦,这甚至与涉案专利的图像处理方法相反。组合3中的证据5的各个部分涉及图像生成模型的各个阶段,不能相互组合,并且也没有提到对训练后的图像生成模型的进行再调整的内容。对于上述所有证据组合,无效宣告请求审查决定书认为都没有公开对训练后的图像生成模型进行再调整的内容,也不涉及具体的调整手段,从而也无法如权利要求1的技术方案那样获得能够降低生成精准图像成本的有益的技术效果。
【案例启示】
上述涉案专利的审查思路一定程度上体现了国家知识产权局对于AI领域发明创造的审查内核。
国家知识产权局在《人工智能相关发明专利申请指引(试行)》中将AI相关专利申请分为涉及AI算法或模型本身、涉及基于AI算法或模型的功能或领域应用、涉及AI辅助作出的发明、涉及AI生成的发明这四种类型。涉案专利很明显属于基于AI算法或模型的功能或领域应用类型。
对于这类“AI+应用场景”类的发明创造,各国有不同的审查标准。美国专利商标局和美国法院更加注重客体适格性审查。例如,在2024年的Recentive Analytics VS Fox案中,美国联邦巡回上诉法院认为“除了将通用机器学习应用于新数据环境,而未披露对机器学习模型的改进,不符合专利适格性要求。”这一原则也在后面的Longitude Licensing VS Google案中援引。
不同于美国,中国的专利审查实践对于客体审查的标准相对宽松,但是在创造性审查方面更为严格。例如,在2024年度复审无效十大案件的“用于处理图像的方法和装置”发明专利申请复审请求案中,复审无效部指出需要“充分考虑应用场景特征是否导致算法或模型发生实质性调整或改变”。
虽然两国对于“AI+应用场景”类的发明创造的审查侧重点不同,但是可以看到相同的判断逻辑是要求发明创造针对应用场景的特点实现对算法或模型(例如训练方法、参数、配置等)的实质性调整,而非止于算法或模型在不同场景下的简单移植。
在上述涉案专利的无效程序中,无效宣告请求人提交了多份证据,但是这些证据里的技术方案均为“端到端”训练后直接应用,并没有如涉案专利中那样基于参考图像对训练后的生成网络模型的参数进行调整以得到目标生成网络模型(特征1-3、1-4),从而使得“训练后的生成网络模型更贴合目标人物”。这个调整步骤一般也称为模型的“微调(fine-tuning)”,通常用于模型或算法针对特定任务的精准优化和个性化,以更好地完成任务目标。在此案中,合议组认为应该“从处理目的、处理对象、处理结果、结果使用等方面准确理解权利要求的技术术语,确定权利要求记载的技术手段的所处阶段”,并认定权利要求1中对模型的调整导致与各证据不同的模型训练方法。
显然,此案中国家知识产权局认可模型微调属于对模型的实质性调整或改变,并在确定实际解决的技术问题时考虑模型微调带来的技术效果。这意味着在创造性“三步法”框架中,模型微调特征(即特征1-3、1-4)的存在具有重大意义,将技术问题从宽泛的“如何生成动态图像”具体化为“如何更精确或成本更低地生成适配目标人物的动态图像”。为了解决特定场景下的技术问题,涉案专利的发明人付出了改进模型的训练方法(例如探索添加模型微调、设计如何微调,等等)的创造性努力。这使得后续判断现有技术是否有启示时,需要寻找专门解决此具体技术问题的证据,而不仅仅是“生成动态图像”的证据。
【总结】
综上所述,在涉及AI应用的创新发明的创造性判断中,是否对模型作出实质性改进成为重要的考量因素,而基于应用场景的特性在训练好的模型上进行个性化调整完全有可能被认定为实质性改进。这体现了审查部门鼓励保护那些在AI应用中发现不同场景的痛点或难点,并展现出真正的技术智慧、解决实际的技术难题和带来超预期技术效果的创新。同时也提醒创新主体,如果发明创造的技术贡献在于通过算法或模型改进了某一应用场景下的特定技术问题,则在撰写申请文件和答复通知以及修改权利要求时充分体现改进点。