Microsoft не почива на лаврите на партньорството си с OpenAI и пусна три нови системи за изкуствен интелект, принадлежащи към семейството Phi на езикови и мултимодални модели.

Трите нови проекта от серията Phi 3.5 включват големия базов езиков модел Phi-3.5-mini-instruct с 3,82 млрд. параметри, мощния Phi-3.5--MoE-instruct с 41,9 млрд. параметри и Phi-3.5-vision-instruct с 4,15 млрд. параметри - предназначен за анализ на изображения и видео. И трите са достъпни под марката Microsoft на платформата Hugging Face под лиценза на MIT - те могат да бъдат изтегляни, доработвани, модифицирани и използвани с търговска цел без ограничения. При тестовете те са толкова добри, а понякога и по-добри от конкурентни продукти като Google Gemini 1.5 Flash, Meta Llama 3.1 и дори OpenAI GPT-4o.

Phi-3.5 Mini Instruct е оптимизиран за среди с ограничени изчислителни ресурси. Той е олекотен модел с 3,8 милиарда параметри. Предназначен е за изпълнение на инструкции и поддържа контекст от 128 хил. токена. Моделът се справя с такива задачи като генериране на код, решаване на математически задачи и логически разсъждения. Въпреки компактните си размери Phi-3.5 Mini Instruct е доста конкурентен в многоезични и многоточкови езикови задачи. В теста RepoQA, който се използва за оценка на "разбирането на дълъг контекстуален код", той превъзхожда Llama-3.1-8B-instruct и Mistral-7B-instruct и други.

Phi-3.5 MoE (Mixture of Experts - смес от експерти) комбинира няколко модела от различни типове, всеки от които е специализиран в собствена задача. Архитектурата му се характеризира с 42 млрд. активни параметри и 128 хил. контекстни поддръжки, което му позволява да се използва в приложения с високи изисквания - заслужава да се отбележи, че в документацията на Hugging Face се говори само за 6,6 млрд. активни параметри. Phi-3.5 MoE се представя прилично добре в областта на математиката, генерирането на код и разбирането на многоезични заявки, като често превъзхожда по-големите модели в някои тестове, включително RepoQA; той също така побеждава GPT-4o mini в теста MMLU (Massive Multitask Language Understanding) в областта на природните, инженерните, хуманитарните и социалните науки на различни нива на експертност.

Phi-3.5 Vision Instruct съчетава възможности за обработка на текст и изображения. Подходящ е за разпознаване на изображения и символи, анализ на диаграми и таблици, както и за изготвяне на видео резюмета. Vision Instruct, подобно на другите модели Phi-3.5, поддържа дължина на контекста от 128 000 лексеми, което му позволява да се справя със сложни многокадрови визуални задачи. Системата е обучена върху синтетични и филтрирани публично достъпни набори от данни с акцент върху висококачествени информационни набори с висока плътност на разсъжденията.

Phi-3.5 Mini Instruct е обучен върху 3,4 трилиона токена с помощта на 512 ускорителя Nvidia H100-80G за 10 дни; моделът със смесена архитектура Phi-3.5 MoE е обучен върху 4,9 трилиона токена с помощта на 512 устройства Nvidia H100-80G за 23 дни; Vision Instruct е обучен върху 500 милиарда токена с помощта на 256 ускорителя за изкуствен интелект Nvidia A100-80G за 6 дни. Цялото трио Phi-3 е достъпно под лиценза MIT - той позволява на разработчиците свободно да използват, модифицират, обединяват, публикуват, разпространяват, сублицензират или продават копия на продуктите. Лицензът съдържа отказ от отговорност: моделите се предоставят "както са", без каквато и да е гаранция - Microsoft и другите притежатели на авторски права не носят отговорност за каквито и да е искове, щети или други задължения, които могат да възникнат от използването на моделите.