Токенизация: BPE, WordPiece, SentencePiece

Токенизатор разбивает текст на субслова и превращает их в числа, которые понимает модель.

40 мин чтения2 вопроса в квизеГотовый промпт включёнВ работе

Практическое задание

Что сделать после урока

Токенизируйте одно предложение тремя токенизаторами (BERT, GPT-2, T5). Посчитайте токены и найдите различия. Проверьте поведение с русским текстом.

Токенизируйте одно предложение тремя токенизаторами (BERT, GPT-2, T5). Посчитайте токены и найдите различия. Проверьте поведение с русским текстом.

Ваш ответ

Готовый промпт

Шаблон под задачу урока

Скопируйте и адаптируйте под свой контекст. Текст в треугольных скобках — то, что нужно заменить.

Объясни, почему токенизатор разбил слово так.

Модель: <…>
Слово: <…>
Токены: <…>

Объясни логику и влияние на качество.

Prompt

Типичные ошибки

На чём чаще всего спотыкаются

Смешивают токенизатор одной модели с весами другой — input_ids несовместимы.
Не добавляют attention_mask при паддинге — модель считает паддинг реальными токенами.

Лайфхаки

Что работает, но в гайдах не пишут

Обсуждение