로그인

검색

OBG
조회 수 0 추천 수 0 댓글 0
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 게시글 수정 내역 댓글로 가기 인쇄
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 게시글 수정 내역 댓글로 가기 인쇄

https://medium.com/@shravankoninti/build-a-small-language-model-slm-from-scratch-3ddd13fa6470

 

ChatGPT 요약

핵심 요약

1. SLM이란? (Small Language Model)

  • 현재 기준으로 1억 개 미만의 파라미터를 갖는 모델을 **작은 언어 모델(SLM)**로 정의합니다.

  • 과거 GPT‑3 (~175B), GPT‑4(추정치: ~1T)와 비교할 때 매우 작은 크기의 모델입니다.

2. TinyStories 데이터셋

  • TinyStories는 GPT‑3.5 및 GPT‑4가 생성한, 3~4세 어린이가 이해할 수 있는 단어만으로 구성된 짧은 이야기들의 합성 데이터셋입니다. Hugging Face에서 불러올 수 있으며, 약 200만 건의 학습 데이터2만 건의 검증 데이터가 포함되어 있습니다.

3. 전처리: 토크나이제이션 및 입력-출력 구성

  • Tokenization에는 GPT‑2 서브워드 방식을 사용하고, 모든 토큰 ID를 하나의 .bin 파일에 수집해 학습용 대형 토큰 시퀀스를 구성합니다.

4. 모델 설계 및 학습

  • 글에서는 모델 구조나 학습 방법 등 자세한 내용은 제공되지 않았지만, 10~15M 파라미터 수준의 작은 구조로도 일관된 텍스트 생성이 가능할지에 대한 실험이 핵심으로 제시됩니다.

?

List of Articles
번호 분류 제목 글쓴이 날짜 조회 수
공지 Tool/etc Programming 게시판 관련 2 MoA 2014.11.01 15606
» LLM Build a Small Language Model (SLM) From Scratch new OBG 2025.08.16 0
23 LLM OpenAI의 새로운 오픈소스 모델은 사실상 Phi-5임 OBG 2025.08.12 25
22 LLM ChatGPT가 7억 명을 서비스할 수 있는데, 나는 왜 GPT-4 하나도 로컬에서 못 돌릴까? OBG 2025.08.12 31
21 LLM OpenAI의 gpt‑oss‑120b, gpt‑oss‑20b: 개인 컴퓨터에서 ChatGPT 사용? OBG 2025.08.12 28
20 LLM AI가 만든 코드, 결국엔 모두 레거시가 된다? OBG 2025.08.12 35
19 LLM 알리바바, 딥시크·오픈AI 넘는 추론 모델 출시..."오픈 소스 최강 입증" (QwQ-32B) OBG 2025.03.10 1423
18 LLM AI-hub 공공데이터를 활용하여 한국어-영어 번역 LLM 만들기 OBG 2025.01.14 1624
17 LLM 얼렁뚱땅 LLM을 만들어보자 OBG 2025.01.10 1710
16 LLM Comparing Replit and Cursor for AI-Powered Coding OBG 2024.09.21 2579
15 LLM Anthropic, LLM의 내부를 이해하는데 있어 상당한 진전을 보임 OBG 2024.06.03 2375
14 LLM llama3 implemented from scratch OBG 2024.05.24 1646
13 LLM [VESSL AI] 뉴욕주민의 프로젝트플루토 — LLM, LLMOps를 활용한 금융 미디어의 혁신 OBG 2024.04.21 2645
12 LLM PEFT: Parameter-Efficient Fine-Tuning of Billion-Scale Models on Low-Resource Hardware OBG 2024.04.15 1772
11 LLM The difference between quantization methods for the same bits OBG 2024.04.14 2670
10 LLM Mixture of Experts - Part 2 OBG 2024.04.14 2194
9 LLM ChatGPT의 강력한 경쟁 언어모델 등장!, Mixtral 8x7B OBG 2024.04.14 2582
8 LLM Real-Time Stock News Sentiment Prediction with Python OBG 2024.04.11 2442
7 LLM Getting Started with Sentiment Analysis using Python OBG 2024.04.11 2478
6 LLM How LLMs Work ? Explained in 9 Steps — Transformer Architecture OBG 2024.04.11 2522
5 LLM 만능 프롬프트 OBG 2024.04.07 2622
Board Pagination Prev 1 2 Next
/ 2