로그인

검색

OBG
조회 수 2671 추천 수 0 댓글 0
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 게시글 수정 내역 댓글로 가기 인쇄
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 게시글 수정 내역 댓글로 가기 인쇄

https://medium.com/@shravankoninti/build-a-small-language-model-slm-from-scratch-3ddd13fa6470

 

ChatGPT 요약

핵심 요약

1. SLM이란? (Small Language Model)

  • 현재 기준으로 1억 개 미만의 파라미터를 갖는 모델을 **작은 언어 모델(SLM)**로 정의합니다.

  • 과거 GPT‑3 (~175B), GPT‑4(추정치: ~1T)와 비교할 때 매우 작은 크기의 모델입니다.

2. TinyStories 데이터셋

  • TinyStories는 GPT‑3.5 및 GPT‑4가 생성한, 3~4세 어린이가 이해할 수 있는 단어만으로 구성된 짧은 이야기들의 합성 데이터셋입니다. Hugging Face에서 불러올 수 있으며, 약 200만 건의 학습 데이터2만 건의 검증 데이터가 포함되어 있습니다.

3. 전처리: 토크나이제이션 및 입력-출력 구성

  • Tokenization에는 GPT‑2 서브워드 방식을 사용하고, 모든 토큰 ID를 하나의 .bin 파일에 수집해 학습용 대형 토큰 시퀀스를 구성합니다.

4. 모델 설계 및 학습

  • 글에서는 모델 구조나 학습 방법 등 자세한 내용은 제공되지 않았지만, 10~15M 파라미터 수준의 작은 구조로도 일관된 텍스트 생성이 가능할지에 대한 실험이 핵심으로 제시됩니다.

?

List of Articles
번호 분류 제목 글쓴이 날짜 조회 수
공지 Tool/etc Programming 게시판 관련 2 MoA 2014.11.01 27064
310 Agent Vibe Code an MVP Web App OBG 2025.08.28 2354
309 Deeplearning I Want Everything Local — Building My Offline AI Workspace OBG 2025.08.28 2652
308 Agent Kimi K2 클로드 코드와 함께 사용하는 방법 OBG 2025.08.28 2425
» LLM Build a Small Language Model (SLM) From Scratch OBG 2025.08.16 2671
306 LLM OpenAI의 새로운 오픈소스 모델은 사실상 Phi-5임 OBG 2025.08.12 2648
305 LLM ChatGPT가 7억 명을 서비스할 수 있는데, 나는 왜 GPT-4 하나도 로컬에서 못 돌릴까? OBG 2025.08.12 2880
304 Omarchy, DHH가 만든 Linux 배포판 OBG 2025.08.12 3482
303 LLM OpenAI의 gpt‑oss‑120b, gpt‑oss‑20b: 개인 컴퓨터에서 ChatGPT 사용? OBG 2025.08.12 2745
302 LLM AI가 만든 코드, 결국엔 모두 레거시가 된다? OBG 2025.08.12 2683
301 모던 Node.js 패턴 (2025) OBG 2025.08.07 2000
300 Deeplearning AI 발전을 따라잡는 나만의 방법 (그리고 당신도 꼭 해야 하는 이유) OBG 2025.08.07 2665
299 Web JSON.stringify를 두 배 이상 빠르게 만든 방법 OBG 2025.08.07 2399
298 Tool/etc OS 개발에 관한 작은 책 OBG 2025.03.24 3248
297 LLM 알리바바, 딥시크·오픈AI 넘는 추론 모델 출시..."오픈 소스 최강 입증" (QwQ-32B) OBG 2025.03.10 3494
296 Site 2024년 가장 조회수 높은 소프트웨어 엔지니어링 발표들 OBG 2025.02.18 3401
295 Deeplearning 존 카맥이 일리야 수츠키버를 4년전에 만났을때, 추천받은 책과 논문 목록 OBG 2025.02.18 3626
294 Tool/etc 나이 들어가는 프로그래머 - [발표영상] 요약 OBG 2025.02.14 4047
293 Tool/etc GitHut Copilot - Agent 모드 공개 OBG 2025.02.14 3971
292 Tool/etc GDB Dashboard OBG 2025.01.14 3922
291 LLM AI-hub 공공데이터를 활용하여 한국어-영어 번역 LLM 만들기 OBG 2025.01.14 3562
Board Pagination Prev 1 2 3 4 5 6 7 8 9 10 ... 17 Next
/ 17