Как опытный криптоинвестор и энтузиаст технологий, я должен признать, что недавнее объявление OpenAI относительно их последней модели искусственного интеллекта, GPT-4o, меня совершенно очаровало. Способность модели ИИ обрабатывать вводимые текстовые, аудио и изображения в реальном времени действительно меняет правила игры.
OpenAI, создатели ChatGPT, представили свою новейшую модель искусственного интеллекта (ИИ) под названием GPT-4o. Этот продвинутый ИИ предназначен для более активного диалога и более точной имитации человеческого взаимодействия. Кроме того, он оснащен возможностью обрабатывать и реагировать на аудио- и видеосигналы пользователей в режиме реального времени.
GPT-4 Omni, продемонстрированный в ряде релизов компании, различными способами помогает потенциальным пользователям. Например, это помогает в подготовке к собеседованию, гарантируя, что пользователи будут выглядеть отточенными и готовыми к собеседованию. Кроме того, это облегчает обращение в службу поддержки клиентов для замены нового iPhone.
На различных демонстрациях ChatGPT был продемонстрирован как способный обмениваться каламбурами, подходящими для отца, мгновенно переводить двуязычные диалоги в реальных жизненных ситуациях, выступать в качестве беспристрастного арбитра в играх «камень-ножницы-бумага» между двумя пользователями и использовать сарказм, когда его провоцируют. Более того, на одной выставке впервые было продемонстрировано взаимодействие ChatGPT и нового щенка пользователя.
«Ну здравствуй, Баузер! Разве ты не прелестнейшее создание?» — воскликнул чат-бот.
Здравствуйте! Я рад представить вам GPT-40, нашу последнюю усовершенствованную модель. Как аналитик, я рад сообщить, что этот наш новый флагман способен обрабатывать информацию из аудио, изображения и текста одновременно в режиме реального времени. С сегодняшнего дня ввод текста и изображений доступен через наш API и ChatGPT. В ближайшем будущем возможности голосовой и видеосвязи также будут интегрированы для более полного взаимодействия с пользователем.
— OpenAI (@OpenAI), 13 мая 2024 г.
Как криптоинвестор, я не могу не трепетать, когда использую передовые технологии искусственного интеллекта. Я как будто попал в научно-фантастический фильм – в возможности этой технологии до сих пор трудно поверить, хотя это вполне осязаемая реальность. Об этом красноречиво заявил генеральный директор Сэм Альтман в своем сообщении в блоге от 13 мая.
«Достижение времени отклика и выразительности на человеческом уровне оказывается большим изменением».
13 мая OpenAI представила вариант, содержащий только текст и изображения. Полное издание планируется выпустить в ближайшем будущем, добавили они в недавнем сообщении на X.
Как исследователь, изучающий передовые модели искусственного интеллекта, я могу вам сказать, что GPT-40, как ожидается, будет доступен всем пользователям ChatGPT, включая тех, у кого есть бесплатные учетные записи. Эта доступность будет обеспечена через интерфейс прикладного программирования (API) ChatGPT.
От OpenAI я узнал, что буква «o» в GPT-4o представляет собой термин «omni», обозначающий продвижение к более органичным и реалистичным интерфейсам человек-компьютер.
Познакомьтесь с GPT-40, нашей последней инновацией, способной обрабатывать текстовые, аудио- и видеовходы в режиме реального времени для более сложных рассуждений. Его универсальность делает его интересным для изучения и представляет собой прогресс в направлении более реалистичного взаимодействия человека и ИИ и даже ИИ-ИИ.
— Грег Брокман (@gdb), 13 мая 2024 г.
Способность GPT-4 одновременно обрабатывать входные данные текста, аудио и изображений представляет собой значительный шаг вперед по сравнению с предыдущими инструментами OpenAI, такими как ChatGPT-4. Проще говоря, хотя ChatGPT-4 может сталкиваться с трудностями при выполнении нескольких задач и терять ценную информацию в процессе, GPT-4 умеет управлять всеми тремя типами ввода одновременно.
Как исследователь, изучающий продвинутые языковые модели, я могу поделиться тем, что OpenAI, как сообщается, заявила о превосходстве GPT-4 в области зрения и понимания звука по сравнению с предыдущими моделями. Это усовершенствование выходит за рамки простого ввода текста, позволяя идентифицировать эмоции пользователя и даже тонкие сигналы, такие как характер дыхания.
Он также «намного быстрее» и «на 50% дешевле», чем GPT-4 Turbo в API OpenAI.
По данным OpenAI, новейшая технология искусственного интеллекта способна обрабатывать аудиокоманды в среднем всего за 2,3 секунды, а время отклика обычно составляет около 3,2 секунды — скорость, сравнимая с обычным человеческим разговором.
Смотрите также
- Что будет с Ethena: прогнозы цен на криптовалюту ENA
- Прогноз курса доллара к злотому на 2024
- Виталик Бутерин продал мемкоины на $1,6 млн, обещанные на благотворительность
- Осужденный руководитель FTX Райан Саламе официально находится под стражей
- Фирма, занимающаяся криптобезопасностью, по ошибке делится ссылкой на канал, чтобы «помочь» жертвам взлома Radiant
- Что такое шибариум и что это значит для сиба-ину?
- Спотовые биткойн-ETF США получили приток $556 млн в самый крупный день с июня
- HUMBL выдал патент США на технологию блокчейн-платежей
- Прогноз курса доллара к шекелю на 2024
- Мошенничество с ботами MEV вызвало шумиху вокруг искусственного интеллекта, чтобы вернуться под новым именем, говорит SlowMist
2024-05-14 03:40