Языковый модели (LLM - Large Language Models)
Универсальные помощники на каждый день. Используются для написания текстов, генерации идей, суммаризации, перевода, анализа сентимента и других рутинных задач.
Рассуждающие модели (CoT - Chain-of-Thought Models)
Эти модели отвечают не сразу. Они строят пошаговый план, анализируют промежуточные варианты и приходят к выводу через последовательное рассуждение. Особенно полезны для сложных задач, где важно объяснение, логика или точность.
Генерация изображений (Text-to-Image Models)
Превращают текстовые описания в картинки. Используются в дизайне, иллюстрации, рекламе и творчестве.
Распознавание речи (ASR - Automatic Speech Recognition)
Преобразуют устную речь в текст. Они слушают аудио и точно передают сказанное в письменной форме. Применяются в голосовых помощниках, транскрипции интервью, автоматизации звонков и создании субтитров.
Синтез речи (TTS - Text-to-Speech)
Преобразуют текст в натурально звучащий голос. Они озвучивают написанное, имитируя интонации, акценты и даже эмоции. Используются в озвучке, голосовых помощниках, аудиокнигах и интерфейсах без экрана.
Поисковые модели (RAG - Retrieval-Augmented Generation)
В API некоторых провайдеров появилась возможность использовать поиск. Таким образом при ответе модель может получать актуальную информацию из интернета для более точных и современных ответов.
Модели управления компьютером (Agent Models)
Такие модели способны взаимодействовать с пользовательским интерфейсом компьютера для выполнения различных задач. Они могут имитировать действия пользователя, такие как перемещение курсора, нажатие клавиш и управление приложениями, что позволяет автоматизировать рутинные операции и повышать эффективность работы.
Embedding Models (Text Embedding Models)
Превращают текст в числовое представление (вектор), которое отражает смысл и контекст. Эти векторы можно сравнивать, искать похожие, использовать для кластеризации или в качестве ввода в других моделях. Основа для семантического поиска, рекомендаций и многих задач ИИ.