多模态图片场景指的是AI能够读懂图片, 包括图片里的风景、物品、人物

OCR指的是将图片中的文字解析出来

二者有根本上的差别