로그인

검색

OBG
조회 수 0 추천 수 0 댓글 0
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 게시글 수정 내역 댓글로 가기 인쇄
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 게시글 수정 내역 댓글로 가기 인쇄

https://medium.com/@shravankoninti/build-a-small-language-model-slm-from-scratch-3ddd13fa6470

 

ChatGPT 요약

핵심 요약

1. SLM이란? (Small Language Model)

  • 현재 기준으로 1억 개 미만의 파라미터를 갖는 모델을 **작은 언어 모델(SLM)**로 정의합니다.

  • 과거 GPT‑3 (~175B), GPT‑4(추정치: ~1T)와 비교할 때 매우 작은 크기의 모델입니다.

2. TinyStories 데이터셋

  • TinyStories는 GPT‑3.5 및 GPT‑4가 생성한, 3~4세 어린이가 이해할 수 있는 단어만으로 구성된 짧은 이야기들의 합성 데이터셋입니다. Hugging Face에서 불러올 수 있으며, 약 200만 건의 학습 데이터2만 건의 검증 데이터가 포함되어 있습니다.

3. 전처리: 토크나이제이션 및 입력-출력 구성

  • Tokenization에는 GPT‑2 서브워드 방식을 사용하고, 모든 토큰 ID를 하나의 .bin 파일에 수집해 학습용 대형 토큰 시퀀스를 구성합니다.

4. 모델 설계 및 학습

  • 글에서는 모델 구조나 학습 방법 등 자세한 내용은 제공되지 않았지만, 10~15M 파라미터 수준의 작은 구조로도 일관된 텍스트 생성이 가능할지에 대한 실험이 핵심으로 제시됩니다.

?

  1. Programming 게시판 관련

    Date2014.11.01 CategoryTool/etc ByMoA Views15606
    read more
  2. Build a Small Language Model (SLM) From Scratch

    Date2025.08.16 CategoryLLM ByOBG Views0
    Read More
  3. OpenAI의 새로운 오픈소스 모델은 사실상 Phi-5임

    Date2025.08.12 CategoryLLM ByOBG Views26
    Read More
  4. ChatGPT가 7억 명을 서비스할 수 있는데, 나는 왜 GPT-4 하나도 로컬에서 못 돌릴까?

    Date2025.08.12 CategoryLLM ByOBG Views31
    Read More
  5. OpenAI의 gpt‑oss‑120b, gpt‑oss‑20b: 개인 컴퓨터에서 ChatGPT 사용?

    Date2025.08.12 CategoryLLM ByOBG Views28
    Read More
  6. AI가 만든 코드, 결국엔 모두 레거시가 된다?

    Date2025.08.12 CategoryLLM ByOBG Views35
    Read More
  7. 알리바바, 딥시크·오픈AI 넘는 추론 모델 출시..."오픈 소스 최강 입증" (QwQ-32B)

    Date2025.03.10 CategoryLLM ByOBG Views1423
    Read More
  8. AI-hub 공공데이터를 활용하여 한국어-영어 번역 LLM 만들기

    Date2025.01.14 CategoryLLM ByOBG Views1624
    Read More
  9. 얼렁뚱땅 LLM을 만들어보자

    Date2025.01.10 CategoryLLM ByOBG Views1710
    Read More
  10. Comparing Replit and Cursor for AI-Powered Coding

    Date2024.09.21 CategoryLLM ByOBG Views2579
    Read More
  11. Anthropic, LLM의 내부를 이해하는데 있어 상당한 진전을 보임

    Date2024.06.03 CategoryLLM ByOBG Views2375
    Read More
  12. llama3 implemented from scratch

    Date2024.05.24 CategoryLLM ByOBG Views1646
    Read More
  13. [VESSL AI] 뉴욕주민의 프로젝트플루토 — LLM, LLMOps를 활용한 금융 미디어의 혁신

    Date2024.04.21 CategoryLLM ByOBG Views2645
    Read More
  14. PEFT: Parameter-Efficient Fine-Tuning of Billion-Scale Models on Low-Resource Hardware

    Date2024.04.15 CategoryLLM ByOBG Views1772
    Read More
  15. The difference between quantization methods for the same bits

    Date2024.04.14 CategoryLLM ByOBG Views2670
    Read More
  16. Mixture of Experts - Part 2

    Date2024.04.14 CategoryLLM ByOBG Views2194
    Read More
  17. ChatGPT의 강력한 경쟁 언어모델 등장!, Mixtral 8x7B

    Date2024.04.14 CategoryLLM ByOBG Views2582
    Read More
  18. Real-Time Stock News Sentiment Prediction with Python

    Date2024.04.11 CategoryLLM ByOBG Views2442
    Read More
  19. Getting Started with Sentiment Analysis using Python

    Date2024.04.11 CategoryLLM ByOBG Views2478
    Read More
  20. How LLMs Work ? Explained in 9 Steps — Transformer Architecture

    Date2024.04.11 CategoryLLM ByOBG Views2522
    Read More
  21. 만능 프롬프트

    Date2024.04.07 CategoryLLM ByOBG Views2622
    Read More
Board Pagination Prev 1 2 Next
/ 2