Запустили Talkie — модель, обученную только на текстах до 1931 года

Зачем команда исследователей при поддержке Anthropic и фонда Coefficient Giving обучила 13-миллиардную модель только на книгах, газетах и патентах до 1931 года — и что с такой моделью уже можно делать.

Обложка: Запустили Talkie — модель, обученную только на текстах до 1931 года

Если бы языковая модель не видела ни интернета, ни машинного обучения, ни даже теории относительности — что бы она знала и как бы говорила? Команда исследователей выпустила Talkie — модель на 13 миллиардов параметров, обученную исключительно на текстах, опубликованных до конца 1930 года, и сделала её доступной для общения через живой поток сообщений на сайте проекта.

За проектом стоят Ник Левин, Дэвид Дювено и Алек Рэдфорд — последний известен как ведущий автор оригинальной работы про GPT. Поддержку проекту оказали Anthropic и фонд Coefficient Giving.

Ключевые выводы
Главное о Talkie

Корпус — 260 миллиардов токенов английского текста: книги, газеты, журналы, патенты и судебные решения, опубликованные до 31 декабря 1930 года.

Параллельно обучен «современный близнец» — модель той же архитектуры на корпусе FineWeb из современного веба. На стандартных тестах vintage-модель проигрывает близнецу, но на задачах понимания языка и арифметике сопоставима.

На сайте проекта запущен живой поток: Claude Sonnet 4.6 в реальном времени задаёт Talkie вопросы и публикует ответы. Любой может зайти и почитать.

Команда уже обучает следующую модель уровня GPT-3 и планирует довести корпус до триллиона токенов — это даст модель, сопоставимую с оригинальным ChatGPT.

Зачем обучать модель только на старых текстах

У современных моделей проблема контаминации — оценочные тесты часто попадают в обучающую выборку, и LLM выдаёт результат лучше, чем умеет на самом деле. У Talkie этой проблемы нет по построению: всё, что произошло после 1930 года, для неё новое.

Это даёт исследователям несколько уникальных возможностей.

  • Тесты на предсказание будущего. Можно показать модели описания исторических событий и измерить, насколько она «удивлена» — то есть насколько неожиданным выглядит для неё текст в битах на байт. На графике удивления модели по декадам видно резкий скачок после 1930-х и плато к концу XX века.
  • Изобретения и открытия. Сможет ли модель, не видевшая патентов на ксерографию (1942) или работ Тьюринга (1936), додуматься до них самостоятельно? Демис Хассабис, CEO Google DeepMind, ставил похожий вопрос про общую теорию относительности и модель на текстах до 1911 года.
  • Чистые эксперименты на обобщение. Например, как модель, не знающая о компьютерах, учится писать на Python по нескольким примерам в контексте.
  • Влияние данных на «характер» модели. Все современные LLM так или иначе учатся на вебе — Talkie показывает, какой может быть модель с принципиально другим источником.

Что Talkie уже умеет — и чего не умеет

Python-код от модели, не знающей о компьютерах

Команда прогнала Talkie через HumanEval — стандартный тест, где модель должна написать функцию на Python по описанию. На вход модели давали несколько готовых функций как примеры — чтобы она поняла, что от неё хотят.

Результаты на текущей версии скромные: vintage-модель сильно отстаёт от современного близнеца, и все её удачные решения — это однострочные функции вроде сложения двух чисел или мелкие модификации показанных примеров. Но один пример авторы выделяют как показательный: модели дали функцию шифра-сдвига для шифрования и попросили написать функцию для расшифровки. Talkie справилась — поменяла знак сложения на вычитание, продемонстрировав понимание идеи обратной функции.

Удивление перед XX веком

Авторы взяли почти 5000 описаний исторических событий из рубрики «On This Day» газеты The New York Times и измерили, насколько каждое событие «удивляет» модель — в битах на байт текста. На графике видно: до 1930-х модель почти не удивляется (на этом она и училась), после 1930-х кривая идёт вверх, особенно резко в 1950–60-е, и выходит на плато к концу XX века.

Что под капотом

Корпус: 260 миллиардов токенов до 1931 года

В обучающую выборку вошли книги, газеты, журналы, научные журналы, патенты и судебные решения — всё на английском, всё опубликовано до конца 1930 года. Дата выбрана не случайно: в США работы переходят в общественное достояние именно с этого рубежа. Команда опиралась на наработки Institutional Data Initiative, Internet Archive и проекта Common Pile.

Главная техническая боль — OCR

Все тексты до 1930 года изначально на бумаге, поэтому корпус приходится распознавать с отсканированных страниц. В контролируемых экспериментах авторы выяснили: модель, обученная на текстах из обычных OCR-систем, при том же бюджете вычислений достигает только 30% эффективности модели, обученной на текстах с ручной расшифровкой. Простая чистка регулярными выражениями поднимает планку до 70% — но и этого недостаточно.

Современные системы распознавания на основе VLM (vision-language models — мультимодальные модели, которые понимают и текст, и изображения) работают точнее, но у них есть фатальный для Talkie побочный эффект — они галлюцинируют современные факты и буквально «отравляют» исторический корпус современным знанием. Поэтому команда разрабатывает собственную систему распознавания, обученную для работы со старыми сканами.

Утечки времени

Идеально изолировать модель от знаний XX века не получилось. В предыдущей версии Talkie на 7 миллиардов параметров модель уверенно рассуждала о президентстве Рузвельта и Новом курсе, хотя обучающие данные обрезаны 1930-м годом. Текущая 13-миллиардная версия знает отдельные факты о Второй мировой войне и послевоенном порядке.

Причина банальная: даже среди дореволюционных книг встречаются переиздания с современными предисловиями, документы с неправильными метаданными, постфактум вставленные комментарии и сноски. Авторы построили классификатор анахронизмов на основе n-грамм и им фильтровали корпус, но идеального результата он не даёт — для следующих версий разрабатывают более продвинутые техники.

Тонкая настройка без современных данных

Готовых датасетов с инструкциями и ответами для эпохи до 1930 года не существует. Если взять современные обучающие данные, в модель просочатся современные знания, стиль и представления о том, какой должен быть чат-ассистент. Поэтому пайплайн пришлось строить с нуля.

Команда сгенерировала пары «инструкция — ответ» из исторических текстов с регулярной структурой: руководства по этикету (Beadle, 1859), книги по практическим знаниям (Henley, 1914), руководства по составлению писем (Chambers, 1900), кулинарные книги, словари и сборники басен. На этих данных дообучили базовую модель, потом провели online DPO (Direct Preference Optimization — обучение на парах «лучше / хуже», где роль судьи играет другая модель) с Claude Sonnet 4.6 в качестве судьи — и завершили ещё одним раундом supervised fine-tuning (дообучение с учителем) на отобранных по качеству синтетических диалогах между Claude Opus 4.6 и Talkie.

Авторы признают парадокс: даже в таком «винтажном» пайплайне модель всё равно немного учится у современных LLM. В будущем команда хочет использовать сами vintage-модели как судей — чтобы получить полностью «эпохально аутентичный» процесс.

Что планируется дальше

В ближайшие месяцы команда собирается:

  1. Расширить корпус за пределы английского — пока ограничились им, потому что для проверки корпуса нужно глубокое знакомство с источниками.
  2. Перераспознать максимально возможный объём текстов до 1931 года через свою систему OCR.
  3. Усилить фильтрацию утечек времени с новыми классификаторами анахронизмов.
  4. Обучить модель GPT-3-уровня (релиз летом 2026) и далее довести корпус до триллиона токенов — этого должно хватить для модели уровня оригинального ChatGPT.

Команда открыта к сотрудничеству с исследователями, владельцами архивов и историками — на сайте проекта есть форма для связи.

Частые вопросы
1
Где попробовать общение с Talkie?

На странице talkie-lm.com открыт постоянный поток: Claude Sonnet 4.6 круглосуточно задаёт Talkie вопросы и публикует ответы. Самой моделью прямо сейчас интерактивно поговорить нельзя — только наблюдать за диалогом.

2
На каких именно текстах училась модель?

Корпус — 260 миллиардов токенов английского текста, опубликованного до 31 декабря 1930 года: книги, газеты, журналы, научные журналы, патенты и судебные решения. Это работы, перешедшие в общественное достояние в США.

3
Что такое «современный близнец» и зачем он нужен?

Это та же архитектура и тот же бюджет вычислений, но обучение идёт на корпусе FineWeb из современного веба. Близнец нужен как контрольная группа: разница между ним и Talkie показывает чистое влияние возраста и состава данных на результат.

4
Сможет ли Talkie додуматься до открытий после 1930 года?

Пока нет. Все успешные решения модели на тестах вроде HumanEval — это простые однострочники или мелкие модификации показанных примеров. Авторы рассчитывают, что с масштабом и улучшением OCR ситуация изменится, но прямо сейчас модель только начинает справляться даже с простыми незнакомыми задачами.

5
Это open source?

На сайте проекта живой поток с Claude и BibTeX-цитата на блог-пост — препринта на arXiv пока нет. По публичным анонсам в комментариях команды веса 13-миллиардной версии и «современного близнеца» уже выкладываются на Hugging Face под лицензией Apache-2.0; следить за статусом удобнее на странице проекта talkie-lm.com.

Что это значит для индустрии

Talkie — не «модель ради красивой подачи». Это исследовательский инструмент, который позволяет ставить эксперименты, недоступные на современных LLM из-за контаминации обучающих данных. Vintage-модели дают чистую среду для проверки фундаментальных вопросов: насколько модели обобщают за пределы обучающего распределения, что в их поведении — про язык в целом, а что — конкретно про современный веб.

Прикладного смысла «общаться с Talkie» сейчас немного: модель сильно слабее современных аналогов и говорит как энциклопедия 1900-х. Но именно эта слабость — её главная исследовательская ценность. Если команда доведёт линейку до уровня GPT-3 и расширит корпус до триллиона токенов, vintage-модели могут стать стандартным инструментом для оценки того, что LLM умеют на самом деле.

Источник анонса — talkie-lm.com. Команда выложила BibTeX-цитату прямо на странице проекта — это блог-пост, а не arXiv-препринт.