14.05.2024
OpenAI представила новую мощную мультимодальную модель искусственного интеллекта GPT-4o, которая в ближайшие недели будет интегрирована в ее продукты для разработчиков и потребителей. Буква "o" в названии GPT-4o означает "omni" (всесторонний), подчеркивая мультимодальные возможности модели.
Согласно сообщениям, GPT-4o значительно улучшит работу ИИ-чат-бота ChatGPT. Этот чат-бот уже поддерживает голосовой режим, но GPT-4o расширит эту функцию, позволяя пользователям взаимодействовать с чат-ботом более естественно. Модель способна реагировать "в реальном времени" и даже распознавать эмоции в голосе пользователя, генерируя ответы в "различных эмоциональных стилях".
Кроме того, GPT-4o улучшит визуальные возможности ChatGPT. Он сможет быстро отвечать на вопросы, основанные на предоставленных фотографиях или изображениях рабочего стола.
В будущем модель будет расширять свои возможности, позволяя, например, ChatGPT анализировать спортивные трансляции и объяснять правила игры.
GPT-4o уже доступна как платным, так и бесплатным пользователям ChatGPT, но подписчики платных тарифных планов получат повышенное ограничение на количество сообщений. Также бесплатные пользователи получат доступ к некоторым функциям, которые ранее были доступны только по подписке. Модель поддерживает больше языков и имеет улучшенную производительность на 50 языках.
В настоящее время поддержка голосового общения не включена в API GPT-4o для всех клиентов, но планируется внедрение этой функции для ограниченного числа партнеров в ближайшие недели.