Home

✔ 뷰어로 보기

LLM

2025.08.16 22:13

Build a Small Language Model (SLM) From Scratch

OBG

조회 수 18743 추천 수 0 댓글 0

단축키

Prev이전 문서

Next다음 문서

가 크게 작게 위로 아래로 게시글 수정 내역 댓글로 가기 인쇄

단축키

Prev이전 문서

Next다음 문서

가 크게 작게 위로 아래로 게시글 수정 내역 댓글로 가기 인쇄

https://medium.com/@shravankoninti/build-a-small-language-model-slm-from-scratch-3ddd13fa6470

ChatGPT 요약

핵심 요약

1. SLM이란? (Small Language Model)

현재 기준으로 1억 개 미만의 파라미터를 갖는 모델을 **작은 언어 모델(SLM)**로 정의합니다.
과거 GPT‑3 (~175B), GPT‑4(추정치: ~1T)와 비교할 때 매우 작은 크기의 모델입니다.

2. TinyStories 데이터셋

TinyStories는 GPT‑3.5 및 GPT‑4가 생성한, 3~4세 어린이가 이해할 수 있는 단어만으로 구성된 짧은 이야기들의 합성 데이터셋입니다. Hugging Face에서 불러올 수 있으며, 약 200만 건의 학습 데이터와 2만 건의 검증 데이터가 포함되어 있습니다.

3. 전처리: 토크나이제이션 및 입력-출력 구성

Tokenization에는 GPT‑2 서브워드 방식을 사용하고, 모든 토큰 ID를 하나의 .bin 파일에 수집해 학습용 대형 토큰 시퀀스를 구성합니다.

4. 모델 설계 및 학습

글에서는 모델 구조나 학습 방법 등 자세한 내용은 제공되지 않았지만, 10~15M 파라미터 수준의 작은 구조로도 일관된 텍스트 생성이 가능할지에 대한 실험이 핵심으로 제시됩니다.

Who's OBG

Prev llama.cpp gpt-oss-120b 5090으로 돌려본 후기 llama.cpp gpt-oss-120b 5090으로 돌려본 후기 2025.09.07by OBG OpenAI의 새로운 오픈소스 모델은 사실상 Phi-5임 Next OpenAI의 새로운 오픈소스 모델은 사실상 Phi-5임 2025.08.12by OBG

0 추천 0 비추천

Facebook Twitter Google Pinterest KakaoStory Band

위로 아래로 게시글 수정 내역 댓글로 가기 인쇄

✔댓글 쓰기

에디터 선택하기

✔ 텍스트 모드 ✔ 에디터 모드

댓글 쓰기

에디터 사용하기 닫기

Programming 게시판 관련

Date2014.11.01 CategoryTool/etc ByMoA Views103278

read more
나노바나나 프로 레시피 북

Date2026.01.15 CategoryLLM ByOBG Views3192

Read More
A Guide to Claude Code 2.0 and getting better at using coding agents

Date2026.01.05 CategoryLLM ByOBG Views14089

Read More
HunyuanVideo-1.5 영상 생성 모델

Date2025.11.25 CategoryLLM ByOBG Views17559

Read More
클로드 코드로 프로덕트 팀 바이브코딩 표준화한 방법 (aka 맥도날드 시스템)

Date2025.11.24 CategoryLLM ByOBG Views7097

Read More
로컬에서 오픈 LLM과 코딩 어시스턴트를 사용하시나요? 환경을 공유해주세요

Date2025.11.14 CategoryLLM ByOBG Views8222

Read More
Claude Skills는 굉장하다, MCP보다 더 큰 혁신일지도

Date2025.10.29 CategoryLLM ByOBG Views8093

Read More
macOS에서 로컬 LLM 실험하기

Date2025.09.15 CategoryLLM ByOBG Views8329

Read More
나노바나나 공식 출시! 구글 제미나이에서 직접 사용하는 방법

Date2025.09.07 CategoryLLM ByOBG Views8263

Read More
구글 개발자가 말하는 나노바나나의 진짜 실체

Date2025.09.07 CategoryLLM ByOBG Views8204

Read More
llama.cpp gpt-oss-120b 5090으로 돌려본 후기

Date2025.09.07 CategoryLLM ByOBG Views8417

Read More
Build a Small Language Model (SLM) From Scratch

Date2025.08.16 CategoryLLM ByOBG Views18743

Read More
OpenAI의 새로운 오픈소스 모델은 사실상 Phi-5임

Date2025.08.12 CategoryLLM ByOBG Views8005

Read More
ChatGPT가 7억 명을 서비스할 수 있는데, 나는 왜 GPT-4 하나도 로컬에서 못 돌릴까?

Date2025.08.12 CategoryLLM ByOBG Views8278

Read More
OpenAI의 gpt‑oss‑120b, gpt‑oss‑20b: 개인 컴퓨터에서 ChatGPT 사용?

Date2025.08.12 CategoryLLM ByOBG Views8297

Read More
AI가 만든 코드, 결국엔 모두 레거시가 된다?

Date2025.08.12 CategoryLLM ByOBG Views8260

Read More
알리바바, 딥시크·오픈AI 넘는 추론 모델 출시..."오픈 소스 최강 입증" (QwQ-32B)

Date2025.03.10 CategoryLLM ByOBG Views9272

Read More
AI-hub 공공데이터를 활용하여 한국어-영어 번역 LLM 만들기

Date2025.01.14 CategoryLLM ByOBG Views9673

Read More
얼렁뚱땅 LLM을 만들어보자

Date2025.01.10 CategoryLLM ByOBG Views9656

Read More
Comparing Replit and Cursor for AI-Powered Coding

Date2024.09.21 CategoryLLM ByOBG Views19907

Read More
Anthropic, LLM의 내부를 이해하는데 있어 상당한 진전을 보임

Date2024.06.03 CategoryLLM ByOBG Views10618

Read More

쓰기

로그인

검색

Build a Small Language Model (SLM) From Scratch

단축키

단축키

핵심 요약

1. SLM이란? (Small Language Model)

2. TinyStories 데이터셋

3. 전처리: 토크나이제이션 및 입력-출력 구성

4. 모델 설계 및 학습

Who's OBG

Programming 게시판 관련

나노바나나 프로 레시피 북

A Guide to Claude Code 2.0 and getting better at using coding agents

HunyuanVideo-1.5 영상 생성 모델

클로드 코드로 프로덕트 팀 바이브코딩 표준화한 방법 (aka 맥도날드 시스템)

로컬에서 오픈 LLM과 코딩 어시스턴트를 사용하시나요? 환경을 공유해주세요

Claude Skills는 굉장하다, MCP보다 더 큰 혁신일지도

macOS에서 로컬 LLM 실험하기

나노바나나 공식 출시! 구글 제미나이에서 직접 사용하는 방법

구글 개발자가 말하는 나노바나나의 진짜 실체

llama.cpp gpt-oss-120b 5090으로 돌려본 후기

Build a Small Language Model (SLM) From Scratch

OpenAI의 새로운 오픈소스 모델은 사실상 Phi-5임

ChatGPT가 7억 명을 서비스할 수 있는데, 나는 왜 GPT-4 하나도 로컬에서 못 돌릴까?

OpenAI의 gpt‑oss‑120b, gpt‑oss‑20b: 개인 컴퓨터에서 ChatGPT 사용?

AI가 만든 코드, 결국엔 모두 레거시가 된다?

알리바바, 딥시크·오픈AI 넘는 추론 모델 출시..."오픈 소스 최강 입증" (QwQ-32B)

AI-hub 공공데이터를 활용하여 한국어-영어 번역 LLM 만들기

얼렁뚱땅 LLM을 만들어보자

Comparing Replit and Cursor for AI-Powered Coding

Anthropic, LLM의 내부를 이해하는데 있어 상당한 진전을 보임