Build a Small Language Model (SLM) From Scratch

OBG

조회 수 926 추천 수 0 댓글 0

단축키

Prev이전 문서

Next다음 문서

가 크게 작게 위로 아래로 게시글 수정 내역 댓글로 가기 인쇄

단축키

Prev이전 문서

Next다음 문서

가 크게 작게 위로 아래로 게시글 수정 내역 댓글로 가기 인쇄

https://medium.com/@shravankoninti/build-a-small-language-model-slm-from-scratch-3ddd13fa6470

ChatGPT 요약

핵심 요약

1. SLM이란? (Small Language Model)

현재 기준으로 1억 개 미만의 파라미터를 갖는 모델을 **작은 언어 모델(SLM)**로 정의합니다.
과거 GPT‑3 (~175B), GPT‑4(추정치: ~1T)와 비교할 때 매우 작은 크기의 모델입니다.

2. TinyStories 데이터셋

TinyStories는 GPT‑3.5 및 GPT‑4가 생성한, 3~4세 어린이가 이해할 수 있는 단어만으로 구성된 짧은 이야기들의 합성 데이터셋입니다. Hugging Face에서 불러올 수 있으며, 약 200만 건의 학습 데이터와 2만 건의 검증 데이터가 포함되어 있습니다.

3. 전처리: 토크나이제이션 및 입력-출력 구성

Tokenization에는 GPT‑2 서브워드 방식을 사용하고, 모든 토큰 ID를 하나의 .bin 파일에 수집해 학습용 대형 토큰 시퀀스를 구성합니다.

4. 모델 설계 및 학습

글에서는 모델 구조나 학습 방법 등 자세한 내용은 제공되지 않았지만, 10~15M 파라미터 수준의 작은 구조로도 일관된 텍스트 생성이 가능할지에 대한 실험이 핵심으로 제시됩니다.

Who's OBG

Prev Kimi K2 클로드 코드와 함께 사용하는 방법 Kimi K2 클로드 코드와 함께 사용하는 방법 2025.08.28by OBG OpenAI의 새로운 오픈소스 모델은 사실상 Phi-5임 Next OpenAI의 새로운 오픈소스 모델은 사실상 Phi-5임 2025.08.12by OBG

0 추천 0 비추천

Facebook Twitter Google Pinterest KakaoStory Band

위로 아래로 게시글 수정 내역 댓글로 가기 인쇄

✔댓글 쓰기

에디터 선택하기

✔ 텍스트 모드 ✔ 에디터 모드

댓글 쓰기

에디터 사용하기 닫기

No Image notice by MoA 2014/11/01 by MoA
in Tool/etc
Views 17073 Replies 2

Programming 게시판 관련
No Image 07Sep
by OBG
2025/09/07 by OBG
in LLM
Views 186

나노바나나 공식 출시! 구글 제미나이에서 직접 사용하는 방법
No Image 07Sep
by OBG
2025/09/07 by OBG
in LLM
Views 167

구글 개발자가 말하는 나노바나나의 진짜 실체
No Image 07Sep
by OBG
2025/09/07 by OBG
in LLM
Views 178

llama.cpp gpt-oss-120b 5090으로 돌려본 후기
28Aug
by OBG
2025/08/28 by OBG
in LLM
Views 800

Claude Code를 최고의 설계 파트너로 만들기
No Image 28Aug
by OBG
2025/08/28 by OBG
in LLM
Views 885

코딩 에이전트 만드는 법
No Image 28Aug
by OBG
2025/08/28 by OBG
in LLM
Views 735

Vibe Code an MVP Web App
No Image 28Aug
by OBG
2025/08/28 by OBG
in LLM
Views 811

Kimi K2 클로드 코드와 함께 사용하는 방법
No Image 16Aug
by OBG
2025/08/16 by OBG
in LLM
Views 926

Build a Small Language Model (SLM) From Scratch
No Image 12Aug
by OBG
2025/08/12 by OBG
in LLM
Views 926

OpenAI의 새로운 오픈소스 모델은 사실상 Phi-5임
No Image 12Aug
by OBG
2025/08/12 by OBG
in LLM
Views 1179

ChatGPT가 7억 명을 서비스할 수 있는데, 나는 왜 GPT-4 하나도 로컬에서 못 돌릴까?
No Image 12Aug
by OBG
2025/08/12 by OBG
in LLM
Views 1084

OpenAI의 gpt‑oss‑120b, gpt‑oss‑20b: 개인 컴퓨터에서 ChatGPT 사용?
No Image 12Aug
by OBG
2025/08/12 by OBG
in LLM
Views 1020

AI가 만든 코드, 결국엔 모두 레거시가 된다?
No Image 10Mar
by OBG
2025/03/10 by OBG
in LLM
Views 1782

알리바바, 딥시크·오픈AI 넘는 추론 모델 출시..."오픈 소스 최강 입증" (QwQ-32B)
No Image 14Jan
by OBG
2025/01/14 by OBG
in LLM
Views 1926

AI-hub 공공데이터를 활용하여 한국어-영어 번역 LLM 만들기
No Image 10Jan
by OBG
2025/01/10 by OBG
in LLM
Views 1901

얼렁뚱땅 LLM을 만들어보자
No Image 21Sep
by OBG
2024/09/21 by OBG
in LLM
Views 2972

Comparing Replit and Cursor for AI-Powered Coding
No Image 03Jun
by OBG
2024/06/03 by OBG
in LLM
Views 2558

Anthropic, LLM의 내부를 이해하는데 있어 상당한 진전을 보임
No Image 24May
by OBG
2024/05/24 by OBG
in LLM
Views 1864

llama3 implemented from scratch
No Image 21Apr
by OBG
2024/04/21 by OBG
in LLM
Views 2881

[VESSL AI] 뉴욕주민의 프로젝트플루토 — LLM, LLMOps를 활용한 금융 미디어의 혁신
No Image 15Apr
by OBG
2024/04/15 by OBG
in LLM
Views 1915

PEFT: Parameter-Efficient Fine-Tuning of Billion-Scale Models on Low-Resource Hardware

쓰기

로그인

검색