Build a Small Language Model (SLM) From Scratch

OBG

조회 수 18743 추천 수 0 댓글 0

단축키

Prev이전 문서

Next다음 문서

가 크게 작게 위로 아래로 게시글 수정 내역 댓글로 가기 인쇄

단축키

Prev이전 문서

Next다음 문서

가 크게 작게 위로 아래로 게시글 수정 내역 댓글로 가기 인쇄

https://medium.com/@shravankoninti/build-a-small-language-model-slm-from-scratch-3ddd13fa6470

ChatGPT 요약

핵심 요약

1. SLM이란? (Small Language Model)

현재 기준으로 1억 개 미만의 파라미터를 갖는 모델을 **작은 언어 모델(SLM)**로 정의합니다.
과거 GPT‑3 (~175B), GPT‑4(추정치: ~1T)와 비교할 때 매우 작은 크기의 모델입니다.

2. TinyStories 데이터셋

TinyStories는 GPT‑3.5 및 GPT‑4가 생성한, 3~4세 어린이가 이해할 수 있는 단어만으로 구성된 짧은 이야기들의 합성 데이터셋입니다. Hugging Face에서 불러올 수 있으며, 약 200만 건의 학습 데이터와 2만 건의 검증 데이터가 포함되어 있습니다.

3. 전처리: 토크나이제이션 및 입력-출력 구성

Tokenization에는 GPT‑2 서브워드 방식을 사용하고, 모든 토큰 ID를 하나의 .bin 파일에 수집해 학습용 대형 토큰 시퀀스를 구성합니다.

4. 모델 설계 및 학습

글에서는 모델 구조나 학습 방법 등 자세한 내용은 제공되지 않았지만, 10~15M 파라미터 수준의 작은 구조로도 일관된 텍스트 생성이 가능할지에 대한 실험이 핵심으로 제시됩니다.

Who's OBG

Prev llama.cpp gpt-oss-120b 5090으로 돌려본 후기 llama.cpp gpt-oss-120b 5090으로 돌려본 후기 2025.09.07by OBG OpenAI의 새로운 오픈소스 모델은 사실상 Phi-5임 Next OpenAI의 새로운 오픈소스 모델은 사실상 Phi-5임 2025.08.12by OBG

0 추천 0 비추천

Facebook Twitter Google Pinterest KakaoStory Band

위로 아래로 게시글 수정 내역 댓글로 가기 인쇄

✔댓글 쓰기

에디터 선택하기

✔ 텍스트 모드 ✔ 에디터 모드

댓글 쓰기

에디터 사용하기 닫기

No Image notice by MoA 2014/11/01 by MoA
in Tool/etc
Views 103278 Replies 2

Programming 게시판 관련
No Image 15Jan
by OBG
2026/01/15 by OBG
in LLM
Views 3192

나노바나나 프로 레시피 북
05Jan
by OBG
2026/01/05 by OBG
in LLM
Views 14089

A Guide to Claude Code 2.0 and getting better at using coding agents
No Image 25Nov
by OBG
2025/11/25 by OBG
in LLM
Views 17559

HunyuanVideo-1.5 영상 생성 모델
No Image 24Nov
by OBG
2025/11/24 by OBG
in LLM
Views 7097

클로드 코드로 프로덕트 팀 바이브코딩 표준화한 방법 (aka 맥도날드 시스템)
No Image 14Nov
by OBG
2025/11/14 by OBG
in LLM
Views 8222

로컬에서 오픈 LLM과 코딩 어시스턴트를 사용하시나요? 환경을 공유해주세요
No Image 29Oct
by OBG
2025/10/29 by OBG
in LLM
Views 8093

Claude Skills는 굉장하다, MCP보다 더 큰 혁신일지도
No Image 15Sep
by OBG
2025/09/15 by OBG
in LLM
Views 8329

macOS에서 로컬 LLM 실험하기
No Image 07Sep
by OBG
2025/09/07 by OBG
in LLM
Views 8263

나노바나나 공식 출시! 구글 제미나이에서 직접 사용하는 방법
No Image 07Sep
by OBG
2025/09/07 by OBG
in LLM
Views 8204

구글 개발자가 말하는 나노바나나의 진짜 실체
No Image 07Sep
by OBG
2025/09/07 by OBG
in LLM
Views 8417

llama.cpp gpt-oss-120b 5090으로 돌려본 후기
No Image 16Aug
by OBG
2025/08/16 by OBG
in LLM
Views 18743

Build a Small Language Model (SLM) From Scratch
No Image 12Aug
by OBG
2025/08/12 by OBG
in LLM
Views 8005

OpenAI의 새로운 오픈소스 모델은 사실상 Phi-5임
No Image 12Aug
by OBG
2025/08/12 by OBG
in LLM
Views 8278

ChatGPT가 7억 명을 서비스할 수 있는데, 나는 왜 GPT-4 하나도 로컬에서 못 돌릴까?
No Image 12Aug
by OBG
2025/08/12 by OBG
in LLM
Views 8297

OpenAI의 gpt‑oss‑120b, gpt‑oss‑20b: 개인 컴퓨터에서 ChatGPT 사용?
No Image 12Aug
by OBG
2025/08/12 by OBG
in LLM
Views 8260

AI가 만든 코드, 결국엔 모두 레거시가 된다?
No Image 10Mar
by OBG
2025/03/10 by OBG
in LLM
Views 9272

알리바바, 딥시크·오픈AI 넘는 추론 모델 출시..."오픈 소스 최강 입증" (QwQ-32B)
No Image 14Jan
by OBG
2025/01/14 by OBG
in LLM
Views 9673

AI-hub 공공데이터를 활용하여 한국어-영어 번역 LLM 만들기
No Image 10Jan
by OBG
2025/01/10 by OBG
in LLM
Views 9656

얼렁뚱땅 LLM을 만들어보자
No Image 21Sep
by OBG
2024/09/21 by OBG
in LLM
Views 19907

Comparing Replit and Cursor for AI-Powered Coding
No Image 03Jun
by OBG
2024/06/03 by OBG
in LLM
Views 10618

Anthropic, LLM의 내부를 이해하는데 있어 상당한 진전을 보임

쓰기

로그인

검색