Последнее обновление OpenAI, по сути, позволяет пользователям вести прямую трансляцию с помощью ChatGPT.

Самые главные криптоновости в Телеграм-канале CryptoMoon, присоединяйтесь!👇

Cryptomoon Telegram


Как опытный криптоинвестор и энтузиаст технологий, я должен признать, что недавнее объявление OpenAI относительно их последней модели искусственного интеллекта, GPT-4o, меня совершенно очаровало. Способность модели ИИ обрабатывать вводимые текстовые, аудио и изображения в реальном времени действительно меняет правила игры.


OpenAI, создатели ChatGPT, представили свою новейшую модель искусственного интеллекта (ИИ) под названием GPT-4o. Этот продвинутый ИИ предназначен для более активного диалога и более точной имитации человеческого взаимодействия. Кроме того, он оснащен возможностью обрабатывать и реагировать на аудио- и видеосигналы пользователей в режиме реального времени.

GPT-4 Omni, продемонстрированный в ряде релизов компании, различными способами помогает потенциальным пользователям. Например, это помогает в подготовке к собеседованию, гарантируя, что пользователи будут выглядеть отточенными и готовыми к собеседованию. Кроме того, это облегчает обращение в службу поддержки клиентов для замены нового iPhone.

На различных демонстрациях ChatGPT был продемонстрирован как способный обмениваться каламбурами, подходящими для отца, мгновенно переводить двуязычные диалоги в реальных жизненных ситуациях, выступать в качестве беспристрастного арбитра в играх «камень-ножницы-бумага» между двумя пользователями и использовать сарказм, когда его провоцируют. Более того, на одной выставке впервые было продемонстрировано взаимодействие ChatGPT и нового щенка пользователя.

«Ну здравствуй, Баузер! Разве ты не прелестнейшее создание?» — воскликнул чат-бот.

Здравствуйте! Я рад представить вам GPT-40, нашу последнюю усовершенствованную модель. Как аналитик, я рад сообщить, что этот наш новый флагман способен обрабатывать информацию из аудио, изображения и текста одновременно в режиме реального времени. С сегодняшнего дня ввод текста и изображений доступен через наш API и ChatGPT. В ближайшем будущем возможности голосовой и видеосвязи также будут интегрированы для более полного взаимодействия с пользователем.

— OpenAI (@OpenAI), 13 мая 2024 г.

Как криптоинвестор, я не могу не трепетать, когда использую передовые технологии искусственного интеллекта. Я как будто попал в научно-фантастический фильм – в возможности этой технологии до сих пор трудно поверить, хотя это вполне осязаемая реальность. Об этом красноречиво заявил генеральный директор Сэм Альтман в своем сообщении в блоге от 13 мая.

«Достижение времени отклика и выразительности на человеческом уровне оказывается большим изменением».

13 мая OpenAI представила вариант, содержащий только текст и изображения. Полное издание планируется выпустить в ближайшем будущем, добавили они в недавнем сообщении на X.

Как исследователь, изучающий передовые модели искусственного интеллекта, я могу вам сказать, что GPT-40, как ожидается, будет доступен всем пользователям ChatGPT, включая тех, у кого есть бесплатные учетные записи. Эта доступность будет обеспечена через интерфейс прикладного программирования (API) ChatGPT.

От OpenAI я узнал, что буква «o» в GPT-4o представляет собой термин «omni», обозначающий продвижение к более органичным и реалистичным интерфейсам человек-компьютер.

Познакомьтесь с GPT-40, нашей последней инновацией, способной обрабатывать текстовые, аудио- и видеовходы в режиме реального времени для более сложных рассуждений. Его универсальность делает его интересным для изучения и представляет собой прогресс в направлении более реалистичного взаимодействия человека и ИИ и даже ИИ-ИИ.

— Грег Брокман (@gdb), 13 мая 2024 г.

Способность GPT-4 одновременно обрабатывать входные данные текста, аудио и изображений представляет собой значительный шаг вперед по сравнению с предыдущими инструментами OpenAI, такими как ChatGPT-4. Проще говоря, хотя ChatGPT-4 может сталкиваться с трудностями при выполнении нескольких задач и терять ценную информацию в процессе, GPT-4 умеет управлять всеми тремя типами ввода одновременно.

Как исследователь, изучающий продвинутые языковые модели, я могу поделиться тем, что OpenAI, как сообщается, заявила о превосходстве GPT-4 в области зрения и понимания звука по сравнению с предыдущими моделями. Это усовершенствование выходит за рамки простого ввода текста, позволяя идентифицировать эмоции пользователя и даже тонкие сигналы, такие как характер дыхания.

Он также «намного быстрее» и «на 50% дешевле», чем GPT-4 Turbo в API OpenAI.

По данным OpenAI, новейшая технология искусственного интеллекта способна обрабатывать аудиокоманды в среднем всего за 2,3 секунды, а время отклика обычно составляет около 3,2 секунды — скорость, сравнимая с обычным человеческим разговором.

Смотрите также

2024-05-14 03:40