Через день после выпуска возможности кодирования Code Llama значительно улучшились, а доработанная версия Human_ получила оценку выше, чем GPT-4.

Я вчера: LLM с открытым исходным кодом через несколько месяцев превзойдет GPT-4 по генерации кода. Я сейчас: Вообще-то сегодня.

Вчера мета с открытым исходным кодом Llama, базовая модель, специализирующаяся на генерации кода, стала бесплатной для исследовательских и коммерческих целей.

Серия моделей Code Llama имеет три варианта параметров, количество параметров 7В, 13В и 34В. Он поддерживает несколько языков программирования, включая Python, C++, Java, PHP, Type (Java), C# и Bash.

Версии Code Llama, предоставленные Meta, включают:

Code Llama, базовая модель кода;
Код Llama-Python, доработанная версия Python;
Code Llama-Instruct — усовершенствованная версия инструкций на естественном языке.

С точки зрения эффекта, разные версии Code Llama имеют скорость прохождения генерации (pass@1) для наборов данных Human и MBPP, превосходящую GPT-3.5.

Кроме того, проход @1 версии Code Llama «Unnatural» 34B в наборе данных Human близок к GPT-4 (62,2% против 67,0%). Однако Meta не выпустила эту версию, но добилась значительного улучшения производительности за счет обучения с небольшим количеством высококачественных закодированных данных.

Источник:

Буквально через день некоторые исследователи бросили вызов GPT-4. Они исходят от Phind (организации, целью которой является создание поисковой системы искусственного интеллекта для разработчиков), которая превзошла GPT-4** при оценке человека с помощью **точно настроенного кода Llama-34B.

Соучредитель Phind Майкл Ройзен сказал: «Это всего лишь ранний эксперимент, целью которого является воспроизвести (и превзойти) результаты «Неестественного кода Ламы», изложенные в статье Meta. В будущем у нас будет экспертное портфолио различных моделей CodeLlama, которые, я думаю, будут конкурентоспособны в реальных рабочих процессах. "

Обе модели были в открытом доступе:

Исследователи опубликовали эти две модели на Huggingface, и каждый может их проверить.

Код PhindLlama-34B-v1:
Phind-CodeLlama-34B-Python-v1:

Далее посмотрим, как было реализовано это исследование.

Точная настройка кода Llama-34B для победы над GPT-4

Давайте сначала посмотрим на результаты. В ходе этого исследования Code Llama-34B и Code Llama-34B-Python были точно настроены с использованием внутреннего набора данных Phind и получены две модели: Phind-CodeLlama-34B-v1 и Phind-CodeLlama-34B-Python-v1 соответственно.

Две недавно полученные модели достигли 67,6% и 69,5% проходимости 1 соответственно на человеке.

Для сравнения, CodeLlama-34B pass@1 — 48,8%, CodeLlama-34B-Python pass@1 — 53,7%.

А GPT-4 pass@1 на человеке составляет 67% (данные, опубликованные OpenAI в «Техническом отчете GPT-4», выпущенном в марте этого года).

Источник:

Когда дело доходит до тонкой настройки, наборы данных являются обязательными, и в этом исследовании были точно настроены Code Llama-34B и Code Llama-34B-Python на собственном наборе данных, содержащем около 80 000 высококачественных программных задач и решений.

Вместо примеров завершения кода в этом наборе данных используются пары инструкция-ответ, что отличается от структуры данных Human. Затем в ходе исследования модель Phind была обучена на двух эпохах, в общей сложности на 160 000 примерах. Исследователи заявили, что в обучении не использовалась технология LoRA, а применялась локальная тонкая настройка.

Кроме того, в исследовании также были использованы технологии DeepSpeed ZeRO 3 и Flash Attention 2. Они потратили три часа на 32 графических процессорах A100-80GB для обучения этих моделей с длиной последовательности 4096 токенов.

Кроме того, в исследовании к набору данных был применен метод обеззараживания OpenAI, чтобы сделать результаты модели более эффективными.

Как мы все знаем, даже очень мощный GPT-4 столкнется с дилеммой загрязнения данных.С точки зрения непрофессионала, обученная модель могла быть обучена на оценочных данных.

Эта проблема очень сложна для LLM.Например, в процессе оценки производительности модели, чтобы сделать научно достоверную оценку, исследователь должен проверить, находится ли проблема, используемая для оценки, в обучающих данных модели. Если да, то модель может запомнить эти вопросы, и при оценке модели она, очевидно, будет лучше отвечать на эти конкретные вопросы.

Как будто человек уже знает экзаменационные вопросы еще до сдачи экзамена.

Чтобы решить эту проблему, OpenAI раскрыла, как GPT-4 оценивает загрязнение данных, в общедоступном техническом документе GPT-4 «Технический отчет GPT-4». они обнародовали это

Стратегии количественного определения и оценки загрязнения данных.

В частности, OpenAI использует сопоставление подстрок для измерения перекрестного загрязнения между набором оценочных данных и данными предварительного обучения. Данные оценки и обучения обрабатываются путем удаления всех пробелов и символов, оставляя только символы (включая цифры).

Для каждого примера оценки OpenAI случайным образом выбирает три подстроки по 50 символов (или использует весь пример, если количество символов меньше 50). Соответствие определяется, если какая-либо из трех выбранных подстрок оценки является подстрокой обработанного обучающего примера.

В результате создается список испорченных примеров, который OpenAI отбрасывает и запускает повторно, чтобы получить незапятнанную оценку. Но этот метод фильтрации имеет некоторые ограничения: сопоставление подстрок может привести как к ложноотрицательным результатам (если между данными оценки и обучения есть небольшие различия), так и к ложноположительным результатам. Таким образом, OpenAI использует только часть информации в примерах оценки, используя только вопросы, контекст или эквивалентные данные, но игнорируя ответы, ответы или эквивалентные данные. В некоторых случаях варианты с множественным выбором также исключались. Эти исключения могут привести к увеличению количества ложных срабатываний.

По этой части заинтересованные читатели могут обратиться к статье для получения дополнительной информации.

Бумажный адрес:

Однако существуют некоторые разногласия по поводу оценки человека, которую Phind использовал при тестировании GPT-4. Некоторые люди говорят, что последний результат теста GPT-4 достиг 85%. Но Финд ответил, что соответствующее исследование, в результате которого была получена эта оценка, не проводило исследования загрязнения, и невозможно определить, видел ли GPT-4 данные испытаний Человека при прохождении нового раунда испытаний. Учитывая некоторые недавние исследования о том, что «GPT-4 становится глупым», безопаснее использовать данные из оригинального технического отчета.

Однако, учитывая сложность крупномасштабной оценки модели, вопрос о том, могут ли эти результаты оценки отражать истинные возможности модели, остается спорным вопросом. Вы можете скачать модель и испытать ее самостоятельно.