Локальные LLM, Что происходит, когда вы запускаете LLM?
6 октября 2025 г.
¶ Копипаста. Не я автор этого текста.
Источник: https://x.com/softwarevlogger/status/1974774200612093992
Что происходит, когда вы запускаете LLM?
Работа модели по другому называется inference (вывод) или использование весов модели. Вывод — по сути предсказание следующего токена на основе вашего ввода и всех токенов сгенерированных на предыдущих шагах. Все это образует последовательность.
Токены — это не слова. Токены это кусочки обозначающие текст, который видит модель. В модели они представлены целыми числами или ID токенов. Токенизация — разбиение текста на токены. Распространенные алгоритмы: BPE (byte pair encoding), SentencePiece. Конкретные токены отличаются в разных моделях. Вот иллюстративный пример: “hello” — может быть 1-3 токена, “internationalization” 5-8 токенов.
Контекстное окно — максимальное количество токенов, которые может увидеть модель за раз. Чем больше context тем больше VRAM для KV кеша потребуется и тем медленнее будет декодировка.
В процессе вывода модель предсказывает следующий токен перемножая свои веса. Веса модели — это миллиарды выученных параметров. Параметры модели — миллиарды чисел или весов, которые модель усваивает в процессе обучения. Эти веса кодируют все что модель знает: шаблоны, язык, факты, “мышление”. Когда вы используете модель, она использует эти параметры, чтобы предугадать следующий наиболее вероятный токен. Один токен за раз. Шаг за шагом.
![]()