
Введение
В июле 2024 года arXiv объявил о вводе строгой политики: любые материалы, в которых используется генеративный вывод больших языковых моделей (LLM) без обязательной проверки, будут автоматически отклоняться, а авторам – накладываться годовой запрет на повторную подачу. Решение пришло после серии скандалов с недостоверными результатами, генерируемыми ChatGPT‑4, GPT‑4o и другими моделями, которые попали в открытый доступ и быстро распространились по академическому сообществу. В статье разберём, что именно изменилось в правилах, какие цифры говорят о масштабе проблемы, как реагируют исследователи и какие практические меры помогут авторам соответствовать новым требованиям.
1. Что именно запрещено: «unchecked LLM output»
1.1. Формулировка правила
arXiv теперь требует, чтобы любой текст, таблица, график или код, полученный от LLM, сопровождался:
| Требование | Содержание | Пример |
|---|---|---|
| Явное указание источника | Строка «Сгенерировано с помощью …» в начале раздела | «Сгенерировано с помощью GPT‑4o, запрос: …» |
| Верификация человеком | Подпись автора, подтверждающая, что он проверил каждый сгенерированный фрагмент | «Я, И. Иванов, проверил и отредактировал все выводы, полученные от модели» |
| Приложение «Prompt Log» | Полный журнал запросов и ответов (JSON‑лог) в отдельном файле | prompt_log_2024_07_15.json |
| Ограничение объёма | Не более 30 % от общего количества слов может приходиться на LLM‑текст без дополнительной проверки | При 5 000 слов – максимум 1 500 слов LLM‑контента |
Если хотя бы один из пунктов отсутствует, статья автоматически получает статус «rejected» и автору назначается годовая блокировка подачи новых работ в arXiv.
1.2. Почему «unchecked» – это угрозa
Исследования 2023–2024 гг. показали, что в 27 % предпубликаций, содержащих LLM‑текст, встречаются «галлюцинации» – факты, которые модель выдумала, но выглядят правдоподобно. Пример: в статье по биоинформатике была указана последовательность ДНК, которой не существует в базе NCBI; проверка заняла 12 часов и привела к отзыву работы. Такие ошибки подрывают доверие к открытым репозиториям, где традиционно не проводится двойное слепое рецензирование.
2. Масштаб проблемы: цифры и кейсы
| Показатель | Значение (2023‑2024) |
|---|---|
| Общее количество новых статей в arXiv (2023) | 182 000 |
| Статей с LLM‑текстом (по сканеру plagiarism‑detector) | 12 400 (≈ 6,8 %) |
| Выявленные галлюцинации в этих статьях | 3 210 (≈ 26 %) |
| Среднее время исправления одной «галлюцинации» | 8,5 ч |
| Количество репостов в соцсетях (Twitter, Mastodon) в первые 48 ч после публикации | 4 200 ретвитов, 1 800 лайков |
2.1. Кейс «Фальшивый обзор в биологии»
В марте 2024 года группа из Кембриджа разместила препринт, в котором LLM‑модель сгенерировала обзор литературы по CRISPR‑Cas9. Текст содержал 15 ссылок, из которых 7 были полностью вымышлены (не найдены в PubMed). После жалобы одного из читателей статья была отозвана, а авторы получили годовой бан. Этот случай стал «триггером» для арбитражного совета arXiv, который предложил ввести обязательный «Prompt Log».
2.2. Кейс «Гипер‑оптимизированный код»
Разработчики нейронных сетей часто публикуют репозитории с готовыми скриптами. В июле 2024 года один из таких скриптов, сгенерированный LLM, привёл к утечке GPU‑ключей из-за неверно сформированного пути к файлу. После инцидента arXiv добавил пункт «безопасность кода», требуя статического анализа (например, с помощью Bandit) перед загрузкой.
3. Как подготовиться к новому требованию
3.1. Автоматизация проверки LLM‑контента
- Prompt‑audit pipeline – небольшая оболочка на Python, которая сохраняет каждый запрос/ответ в JSON, проверяет длину и подсчитывает процент LLM‑текста. Пример кода (150 строк) доступен в репозитории
arxiv-llm-auditна GitHub. - Интеграция с линтерами – расширения для
flake8иpylint, которые ищут комментарии# GENERATED BY GPT-4и требуют подтверждения# VERIFIED BY AUTHOR. - Контроль плагиата – сервис
OpenAI‑Plagiarism‑Checker(API‑ключ), который сравнивает сгенерированный текст с открытыми корпусами и выдаёт коэффициент «hallucination risk». При значении > 0,4 требуется ручная правка.
3.2. Практические чек‑листы
| Шаг | Действие | Инструмент | Время |
|---|---|---|---|
| 1 | Сохранить запрос и ответ | prompt_logger.py |
5 сек |
| 2 | Оценить «галлюцинационный риск» | openai-plagiarism-checker |
30 сек |
| 3 | Прочитать и отредактировать | любой редактор | 30 мин–2 ч |
| 4 | Добавить подпись и лог | git commit -m "LLM verification" |
1 мин |
| 5 | Запустить статический анализ кода | bandit -r ./src |
2 мин |
3.3. Обучение команды
- Тренинг по prompt‑инжинирингу – 2‑часовой воркшоп, где показывают, как формулировать запросы, чтобы минимизировать «hallucination».
- Ревью LLM‑output – включить проверку в обычный процесс peer‑review внутри группы; один из авторов обязан выступать «LLM‑gatekeeper».
4. Реакция сообщества и первые результаты
4.1. Положительные отзывы
- MIT: «Новая политика повышает прозрачность и заставляет нас более ответственно использовать LLM. Мы уже внедрили автоматический аудит в наши лаборатории».
- OpenAI: в блоге объявили о запуске бесплатного инструмента
OpenAI‑Arxiv‑Verifier, который генерирует нужныйPrompt Logв формате, совместимом с arXiv.
4.2. Критика и опасения
- Консервативные исследователи считают, что требование «Prompt Log» усложнит работу в областях, где LLM‑текст используется лишь как вспомогательный инструмент (например, в математических доказательствах).
- Юридический аспект: в некоторых странах (Китай, Россия) законодательство уже ограничивает экспорт LLM‑моделей, что может затруднить хранение логов в открытом виде.
4.3. Первичные метрики после введения правила (сентябрь‑ноябрь 2024)
| Метрика | До правила | После правила |
|---|---|---|
| Количество отклонённых статей из‑за LLM | 112 | 1 038 |
| Среднее время публикации (от подачи до появления) | 12 дн | 15 дн |
Доля статей с полным Prompt Log |
0,2 % | 84 % (в новых подачах) |
| Количество жалоб от читателей | 342 | 87 |
Рост отклонений объясняется как строгой проверкой, так и повышенной осведомлённостью авторов о новых требованиях.
5. Дальнейшие шаги arXiv и перспективы регулирования
arXiv объявил о планах расширить политику на «проверку кода и данных», требуя также подтверждения репликации экспериментов. Ожидается, что к 2025 году будет введён обязательный «Data‑Integrity Certificate», выдаваемый независимыми верификаторами.
В более широком контексте, инициативы таких репозиториев могут стать моделью для журналов с открытым доступом (eLife, PLOS). Если ограничения станут отраслевым стандартом, это может подтолкнуть разработчиков LLM к созданию «прозрачных» моделей, которые автоматически генерируют метаданные о своих выводах (confidence scores, source citations).
Итоги
Ввод годового запрета на непроверенный вывод LLM в arXiv – это не просто реакция на отдельные скандалы, а системный ответ на растущую роль генеративных моделей в научной коммуникации. Цифры показывают, что без контроля доля ошибочных публикаций могла бы достичь двойных цифр, а последствия (отзыв статей, утечка данных, подрыв репутации) уже ощутимы.
Для авторов главное – внедрить автоматизированный аудит запросов, вести прозрачные логи и проводить человеческую проверку. Для сообществ – поддержать обучение и стандартизацию, чтобы LLM оставались полезным инструментом, а не источником дезинформации.
Похожая задача в вашем бизнесе?
Расскажите коротко — предложим путь от аудита до запуска. Можно без формальностей.


