Способности Gemini к анализу данных не настолько хороши, как утверждает Google

\n

Одним из ключевых аргументов в пользу флагманских моделей генеративного ИИ Google, Gemini 1.5 Pro и 1.5 Flash, является количество данных, которые они, как утверждается, могут обрабатывать и анализировать. На пресс-конференциях и демонстрациях Google неоднократно заявляла, что модели способны выполнять ранее невозможные задачи благодаря своему \"долгому контексту\", такие как краткое изложение многих сотенстраничных документов или поиск через сцены в фильмовых кадрах.

\n\n

Но новые исследования свидетельствуют о том, что модели на самом деле не очень хороши в этом.

\n\n
\n\t
\n\t\t
\n\n

Два отдельных исследования изучили, насколько хорошо Gemini модели Google и другие понимают огромное количество данных - например, работы длиной с в \"Войне и мире\". В обоих случаях выяснилось, что Gemini 1.5 Pro и 1.5 Flash трудно правильно отвечают на вопросы о крупных наборах данных; в одной серии тестов на основе документов модели дали правильный ответ только в 40%-50% случаев.

\n\n

\"Хотя модели, подобные Gemini 1.5 Pro, технически могут обрабатывать длинные контексты, мы видели много случаев, указывающих на то, что модели на самом деле не 'понимают' содержания\", - рассказала TechCrunch Маржена Карпинска, постдок в Университете Массачусетса в Амхерсте и соавтор одного из исследований.

\n\n
\n\t
\n\t\t
\n\n

Окно контекста Gemini недостаточно

\n\n

Контекст модели, или окно контекста, относится к исходным данным (например, тексту), которые модель учитывает перед генерацией вывода (например, дополнительного текста). Простой вопрос - \"Кто выиграл президентские выборы США 2020 года?\" - может служить контекстом, как и сценарий фильма, шоу или аудиозапись. И по мере роста окон контекста возрастает размер документов, которые в них помещаются.

\n\n

Новейшие версии Gemini могу принимать более 2 миллионов токенов в качестве контекста. (\"Токены\" - это подразделенные фрагменты исходных данных, например, слоги \"вентилятор\", \"сумасшедший\" и \"тич\" в слове \"фантастический\".) Это эквивалентно примерно 1,4 миллиона словам, двум часам видео или 22 часам аудио - самый большой контекст среди всех коммерчески доступных моделей.

\n\n

На одной из брифингов в этом году Google показала несколько предзаписанных демонстраций, призванных продемонстрировать потенциал долгих возможностей контекста Gemini. Один из них предполагал, что Gemini 1.5 Pro искал в транскрипте телепередачи о посадке на Луну Apollo 11 - около 402 страниц - цитаты, содержащие шутки, а затем находил сцену в передаче, похожую на карандашный набросок.

\n\n
\n\t
\n\t\t
\n\n

Вице-президент по исследованиям Google DeepMind Ориоль Виньяльс, который возглавил брифинг, описал модель как \"волшебную\".

\n\n

\"[1.5 Про] выполняет такие типы рассуждений на каждой странице, каждом слове\", - сказал он.

\n\n

Это могла быть преувеличение.

\n\n
\n\t
\n\t\t
\n\n

В одном из упомянутых исследований, бенчмаркинг этих возможностей, Карпинска вместе с исследователями Института Аллена для ИИ и Принстонского университета попросили модели оценить утверждения правда/ложь о литературных произведениях на английском языке. Исследователи выбрали недавние произведения, чтобы модели не могли \"подтасовывать\" результаты, и рассеяли утверждения ссылками на конкретные детали и сюжетные точки, которые было бы невозможно понять без прочтения всей книги в целом.

\n\n

Получив утверждение типа \"Используя свои навыки Апота, Нусис способна проанализировать тип портала, открытого реагентами ключа, найденного в деревянном сундуке Роны\", Gemini 1.5 Pro и 1.5 Flash - оба имеют описанные книги в основе - должны были сказать, верно это утверждение или ложно, а также объяснить свое рассуждение.

\n\n
Источник изображения: Университет Массачусетса в Амхерсте

Протестированный на одной книге примерно 260 000 слов (~520 страниц), ученые выяснили, что 1.5 Pro правильно отвечал на утверждения правда/ложь в 46,7% случаев, тогда как Flash правильно отвечал только в 20% случаев. Это означает, что монета заметно лучше справляется с вопросами о книге, чем последняя модель машинного обучения Google. Усреднив все результаты бенчмарка, ни одна из моделей не смогла достичь более высокого, чем случайный шанс, уровня точности ответов на вопросы.

\n\n
\n\t
\n\t\t
\n\n

\"Мы заметили, что модели с трудом подтверждают утверждения, требующие рассмотрения больших частей книги, а иногда и всей книги, по сравнению с утверждениями, которые можно решить путем извлечения доказательств на уровне предложения\", - сказала Карпинска. \"Качественно мы также заметили, что модели имеют трудности с проверкой утверждений о неявной информации, ясной для человеческого читателя, но не явно выраженной в тексте\".

\n\n

Второе из двух исследований, проведенное совместно исследователями из Университета Калифорнии в Санта-Барбаре, тестировало способность Gemini 1.5 Flash (но не 1.5 Pro) к \"рассуждению через\" видео - то есть к поиску и ответу на вопросы о содержании в них.

\n\n

Соавторы создали набор данных изображений (например, фотографии торта на день рождения), сопоставленных с вопросами, на которые модель должна ответить оображенных на изображениях объектов (например, \"Какой мультяшный персонаж изображен на этом торте?\"). Для оценки моделей они выбрали одно изображение произвольно и вставили \"отвлекающие\" изображения до и после него, чтобы создать фрагментированные кадры.

\n\n

Flash проявил себя не очень хорошо. В тесте, который требовал от модели транскрибировать шесть рукописных цифр из \"слайд-шоу\" из 25 изображений, Flash правильно транскрибировал около 50% цифр. Точность упала до около 30% с восемью цифрами.

\n\n
\n\t
\n\t\t
\n\n

\"На реальных задачах вопросов и ответов по изображениям, кажется, что для всех моделей, которые мы тестировали, это особенно сложно\", - сказал ТехКранч Майкл Саксон, аспирант Университета Калифорнии в Санта-Барбаре и один из соавторов исследования. \"Это небольшое количество рассуждений - распознавание того, что число находится в рамке и его чтение - может быть тем, что ломает модель\".

\n

Google переоценивает потенциал Gemini

\n\n

Ни одно из исследований не прошло через пэер-ревью, и они не касаются версий Gemini 1.5 Pro и 1.5 Flash с контекстами из 2 миллионов токенов. (Оба были протестированы на релизах с контекстами из 1 миллиона токенов.) И Flash предназначен не быть таким же способным, как Pro, в терминах производительности; Google рекламирует его как недорогую альтернативу.

\n\n
\n\t
\n\t\t
\n\n

Тем не менее, оба добавляют топлива в огонь, что Google переоценивает - и недооценивает - с Gemini с самого начало. Ни одна из моделей, протестированных исследователями, включая GPT-4o от OpenAI и Claude 3.5 Sonnet от Anthropic, не показала хорошие результаты. Но Google - единственный поставщик моделей, который выделяет окно контекста в рекламных материалах.

\n\n
\n
Лучшая демонстрация Gemini от Google была подделана
\n

\"Нет ничего плохого в простом утверждении, 'Наша модель может принимать X количество токенов' на основе объективных технических деталей\", - сказал Саксон. \"Но вопрос в том, на что это позволяет.\"

\n\n

Генеративный ИИ в широком смысле стал подвергаться все более строгой критике, поскольку бизнесы (и инвесторы) ощущают разочарование из-за ограничений технологии.

\n\n

В паре недавних опросов от Бостонской консалтинговой группы около половины респондентов - все представители топ-менеджмента - заявили, что они не ожидают, что генеративный ИИ принесет существенный рост производительности и что они обеспокоены возможностью ошибок и компрометации данных, вызванными инструментами на основе генеративного ИИ. PitchBook недавно сообщила, что в течение двух последних кварталов сделки с генеративным AI на ранних стадиях обрушились, упав на 76% с пика в третьем квартале 2023 года.

\n\n
\n\t
\n\t\t
\n\n

Сталкиваясь с чатботами, краткими конспектами встреч, которые придумывают выдуманные детали о людях и искусственными интеллектом, которые в основном являются генераторами плагиата, клиенты ищут обещающие дистинкции. Google - который гонялся, иногда неуклюже, чтобы догнать своих конкурентов по генеративному ИИ - был отчаян оставить контекст Gemini одним из этих дистинктивов.

\n\n
\n
'Неловко и неправильно': Google признал, что потерял контроль над генератором изображений на основе ИИ
\n

Но ставка, видимо, была преждевременной.

\n\n
\n\t
\n\t\t
\n\n

\"Мы до сих пор не определились с тем, как показать, что 'рассуждение' или 'понимание' в длинных документах происходит, и практически все группы, выпускающие эти модели, выкладывают свои собственные ад-хок оценки, чтобы подтвердить эти утверждения\", - сказала Карпинска. \"Без знаний о том, как реализована обработка длинных контекстов - компании не делятся этими подробностями - трудно сказать, насколько реальными являются эти утвержд