A:光学推理把推理步骤变成图片,而不是一长串文字。这样做最直接的好处是节省令牌——在香港理工大学的实验中,语言任务平均节省了28.57%的令牌,多模态任务节省16%,整体令牌效率是文字推理的近两倍。同时,准确率不仅没有明显下降,在很多场景下还持平甚至提升了。对多模态任务来说,图形版光学推理还能把文字和图形元素整合在同一张"画布"上,这是纯文字推理做不到的。