Microsoft обяви модела за изкуствен интелект Phi-3-vision - нова версия на малкия езиков модел Phi-3, който може да разглежда изображения и да казва на потребителя какво изобразяват те. Phi-3-vision е мултимодален модел на изкуствен интелект с възможност за четене на текст и разглеждане на изображения, предназначен да се използва предимно на мобилни устройства.

Според Microsoft Phi-3-vision, наличен като предварителна версия, е модел с 4,2 млрд. параметъра, който може да изпълнява общи задачи за визуално разсъждение, включително да отговаря на въпроси за диаграми или изображения.

Phi-3-vision е много по-малък от други модели на AI, ориентирани към изображения, като DALL-E на OpenAI или Stability AI's Stable Diffusion. За разлика от тях Phi-3-vision не генерира изображения, въпреки че е способен да разбере какво е изобразено на дадена картина и да анализира изображението по искане на потребителя.

Microsoft представи модела Phi-3 през април с пускането на Phi-3-mini, най-малкия модел от семейството Phi-3 с 3,8 млрд. параметри. Фамилията Phi-3 включва още модела Phi-3-small (7 млрд. параметри) и Phi-3-medium (14 млрд. параметри).

Разработчиците започнаха да пускат малки и олекотени модели на AI като Phi-3 поради нарастващото търсене на използване на по-рентабилни и по-малко ресурсоемки услуги на AI. Малките модели на AI не заемат много място в паметта и поради това могат да се използват на телефони и лаптопи.

Microsoft пусна редица малки модели в допълнение към Phi-3 и неговия предшественик Phi-2. Съобщава се, че техният модел Orca-Math, фокусиран върху решаването на математически задачи, отговаря по-добре на математически въпроси от по-големите аналози, като например Gemini Pro на Google.

Моделите за изкуствен интелект Phi-3-mini, Phi-3-small и Phi-3-medium вече са достъпни за използване и присъстват в библиотеката с модели на Azure.