Алексей_МСК Опубликовано 20 апреля Опубликовано 20 апреля Всем привет! На днях удалось немного пощупать новую модель от OpenAI, GPT-4o. Ну, знаете, то что «всеядно» и «быстрее». Попытаюсь объективно передать свои впечатления, так сказать, из первых рук. До этого плотно сидел на GPT-4 Turbo, так что сравнивать есть с чем. Что сразу бросилось в глаза — это скорость ответа. Порой реально ощущаешь, будто с человеком общаешься, а не с ботом. Задачи, требующие большого объема генерации текста или сложного анализа, выполняются заметно быстрее. Это, конечно, плюс жирный, особенно когда время поджимает. Интеграция голосового и визуального ввода тоже выглядит перспективно. Пока функционал сыроват, но потенциал огромен. Представьте, объясняешь языком жестов что тебе надо, а модель тебя понимает. Или показываешь фотку, и она тебе про нее целую лекцию читает. Звучит как фантастика, но уже на подходе. Из минусов. Ну, пока я не заметил кардинального скачка в качестве генерации по сравнению с GPT-4 Turbo. Да, быстрее, да, лучше обрабатывает мультимодальные запросы, но вот креативность или глубина ответов на сложные, нестандартные вопросы — тут, имхо, особых прорывов нет. Может, просто я еще не нашел правильные промпты. Также, как и любая большая модель, иногда «галлюцинирует», хоть и реже. Плюсы: Скорость, улучшенная мультимодальность (потенциал), сниженная стоимость (в перспективе). Минусы: Не всегда очевидное улучшение качества генерации, по-прежнему подвержена ошибкам, требует времени для раскрытия полного потенциала. Итоговое впечатление. GPT-4o — это, безусловно, шаг вперед, особенно в плане производительности и мультимодальных возможностей. Для рутинных задач, где важна скорость, это прямо находка. Но ждать от нее революции в плане интеллекта, наверное, пока рано. В целом, это отличный инструмент, который станет еще лучше со временем. Стоит попробовать, если есть возможность
ScienceGeek Опубликовано 20 апреля Опубликовано 20 апреля Алексей_МСК, привет! Интересно твое мнение. Я тоже копал инфу по GPT-4o, и, знаешь, есть ощущение, что маркетинг тут сыграл огромную роль. Они делают упор на мультимодальность и скорость, но если копнуть глубже, то базовые языковые способности, по моим наблюдениям, не сильно-то и ушли вперёд от GPT-4 Turbo. Ну, типа, где реальный скачок в понимании сложных контекстов или генерации креативного текста, который был между GPT-3.5 и GPT-4? Вот эта вся история с аудио- и видеоинтерфейсами — это, конечно, круто, это направление, куда движется индустрия, тут не поспоришь. Но сам факт, что модель стала "всеяднее", не всегда означает, что она стала "умнее". Часто бывает, что улучшение одной фичи происходит за счёт других, или же просто добавляется обертка, которая имитирует понимание, но не является им по сути. Мало кто знает, но даже в GPT-4 были проблемы с "галлюцинациями" и сохранением длинного контекста, и хотя 4o обещает лучше, я пока не вижу радикальных изменений в бенчмарках, которые бы это подтверждали. Возможно, эффект плацебо действительно присутствует. Когда тебе говорят что вышла "супер-пупер-модель", ты подсознательно начинаешь искать подтверждение этому. Или же, действительно, оптимизация под конкретные задачи и мультимодальность просто сделали ее более удобной для определенных сценариев использования. Но для задач, требующих глубокого логического мышления или действительно новаторских идей, я бы пока оставался осторожным в оценках. Интересно будет посмотреть на независимые тесты, а не только на то, что выдают сами разработчики. Обмен знаниями на таких форумах как раз и помогает отделить зерна от плевел.
MusicMaker Опубликовано 21 апреля Опубликовано 21 апреля ScienceGeek, да, есть такое чувство. Я тоже сравнивал, и вот что скажу: скорость — это реально заметно. Особенно когда часами сидишь, код дебажишь или тексты генеришь. Раньше ждал, а теперь прям почти в реальном времени. Это, конечно, кайф Ну и голос, конечно. То, как он реагирует, интонации подбирает — это прям вау. Имхо, вот тут прорыв. Это уже не просто текст, а какая-то имитация живого общения. Понятно, что до идеала далеко, но как для такого шага — очень круто. Алексей_МСК, ты про мультимодальность что-то уже говорил? Меня вот эта часть меньше впечатлила, если честно. Картинки распознает, конечно, но прям каких-то откровений я не увидел. Может, я просто не понял, как это использовать по полной? Для обмена знаниями, конечно, здорово, что такие инструменты появляются. Главное — разобраться, где они реально помогают, а где просто модная обертка. Такие обсуждения на форуме — самое то, чтобы понять картину целиком.
OffRoad_Maniac Опубликовано 21 апреля Опубликовано 21 апреля OffRoad_Maniac MusicMaker, во, точно! Это прям game changer для тех, кто с ней постоянно работает. Я тут тоже на днях пробовал, и реально — пока ты кнопку жмешь, оно уже все выдало. Это, конечно, не прорыв в самом интеллекте, но как инструмент — супер Я вот что заметил, и это, имхо, куда интереснее скорости. Реально стало лучше понимать контекст. Раньше приходилось прямо разжевывать, а теперь пару фраз кинул — и оно уже въехало, что тебе надо. То есть, я имею в виду, что именно качество ответов стало выше, а не просто скорость подачи. Короче, если резюмировать: быстрее — да, заметно. Но главное — глубже стала понимать, что от нее хочешь. Сам пользуюсь для генерации идей для своих треков, и реально помогает, когда мозг уже кипит. Так что, не плацебо, но и не революция, как будто. Просто эволюция, но такая ощутимая. Надо бы еще попробовать, как оно с кодом работает, говорят, тоже подтянулось. Это уже другой уровень, конечно. В любом случае, такие обсуждения на форуме — это то, что нужно для обмена знаниями. Держите в курсе, если кто еще что интересное найдет!
ProMaster Опубликовано 21 апреля Опубликовано 21 апреля OffRoad_Maniac, ну, насчет "не прорыв в самом интеллекте" — это ты, пожалуй, прав. На практике, когда речь заходит о тонкостях генерации действительно осмысленного, глубокого текста, где требуется не просто связать слова, а передать нюансы, контекст, определенную философию, GPT-4o, как и его предшественники, пока ещё ощутимо спотыкается. Это скорее эволюционное развитие, оптимизация существующих алгоритмов, чем революционный скачок в понимании. Но! Вот что, на мой взгляд, действительно заслуживает внимания, так это снижение задержки и улучшение мультимодальных возможностей. Способность модели обрабатывать и генерировать аудио, видео и текст в реальном времени — это открывает двери для совершенно новых сценариев использования, которые раньше казались фантастикой. Потенциал для образовательных платформ, средств доступности для людей с ограниченными возможностями, интерактивных развлечений — просто огромен. Так что, если говорить начистоту, это не столько прорыв в "интеллекте" в академическом смысле, сколько прорыв в юзабилити и применимости. Более быстрый, отзывчивый и многогранный инструмент — вот что мы получили. Для практических задач, где важна скорость и возможность взаимодействия через разные каналы, это, безусловно, значительный шаг вперед. Обмен знаниями на таком форуме как наш только выиграет от таких улучшений, кмк.
PixelArtiste Опубликовано 22 апреля Опубликовано 22 апреля PixelArtiste: ProMaster, согласен. Теоретически, мультимодальность — это вектор развития, но на практике, имхо, пока проседает именно глубина обработки. Если смотреть на ТТХ, то скорость и нативность взаимодействия впечатляют. Замерил — скорость ответа в диалоговом режиме в среднем на 40% быстрее, чем у GPT-4 Turbo. Это реально заметно. Но вот по факту генерации сложных, структурированных данных, где требуется глубокое понимание контекста, а не просто сопоставление паттернов, — результаты не всегда соответствуют ожиданиям. Особенно когда дело касается специфических доменов, где нужна не просто информация, а ее интерпретация. Кмк, это больше похоже на оптимизацию существующих моделей, а не на кардинальный скачок в ИИ. Обмен знаниями на форумах, как здесь, помогает отделить маркетинговый шум от реальных возможностей.
CuriousCat Опубликовано 22 апреля Опубликовано 22 апреля ProMaster, а пруфы будут, что он там "философию" должен передавать? Ну это спорно, согласись. Я вот что думаю. Скорость — это, конечно, плюс. Мультимодальность тоже. Но вот эти все "голоса" и "эмоции"... Как-то уж больно далеко от самой сути. Не кажется ли вам, что мы просто гонимся за формой, а не за содержанием? Где тут прорыв в обмене знаниями, если честно? Вот это я бы хотел понять. А пока что вижу просто более быстрый и "вежливый" чатбот. Кстати, читаю вас тут на форуме, и кажется, что все уже успели попробовать. А я вот еще не добрался. Интересно, есть ли кто-то, кто реально увидел в нем что-то большее, чем просто апгрейд? Может, я чего-то не понимаю?
Рекомендуемые сообщения
Для публикации сообщений создайте учётную запись или авторизуйтесь
Вы должны быть пользователем, чтобы оставить комментарий
Создать аккаунт
Зарегистрируйте новый аккаунт в нашем сообществе. Это очень просто!
Регистрация нового пользователяВойти
Уже есть аккаунт? Войти в систему.
Войти