Пока сражаются OpenAI и DeepSeek, со вчерашнего дня разгорается еще одна битва: DeepSeek против Qwen. И вот Qwen выходят на «голевую позицию» и наносят новый удар. И это после того, как уже был релиз Qwen2.5-VL и релиз Qwen2.5 с контекстом в 1 миллион токенов .
Alibaba выдали модель в 3 вариантах — 3, 7 и 72 миллиарда параметров. Более подробное описание можно посмотреть на HuggingFace , а сама модель лежит на GitHub.
Модель умеет принимать на вход текст и изображения, обладает более развитой способностью «понимать» нарисованное на картинках, плюс обработка видео длительности до 1 часа!
Он превосходит DeepSeek V3 в таких бенчмарках, как Arena-Hard, LiveBench, LiveCodeBench и GPQA-Diamond, а также демонстрирует близкие результаты в других бенчмарках, как к примеру MMLU-Pro.
Завершение битвы не предвидится…