Дані Jinshuju, 17 лютого, Microsoft опублікувала на своєму веб-сайті оновлену версію фреймворку OmniParser для візуальних агентів V2.0, яка може перетворити моделі, такі як DeepSeek-R1, GPT-4o, Qwen-2.5VL, в штучних інтелектів, які можуть використовуватися на комп’ютері. Порівняно з версією V1, V2 має більш високу точність при виявленні менших взаємодійних елементів користувальницького інтерфейсу та швидкість мислення, що збільшилася на 60%. У тесті ScreenSpot Pro на високій роздільній здатності для агента Бенчмарк, точність V2+GPT-4o досягла дивовижних 39,6%, у той час як початкова точність GPT-4o становить лише 0,8%, що є значним покращенням в цілому. Окрім V2, Microsoft також відкрила вихідний код omnitool, який є ключовим інструментом для перетворення великих моделей у агентів, який заснований на Docker для операційної системи Windows і включає функції розуміння екрана, локалізації, планування та виконання дій.