로그인

검색

OBG
조회 수 1730 추천 수 0 댓글 0
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 게시글 수정 내역 댓글로 가기 인쇄
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 게시글 수정 내역 댓글로 가기 인쇄

https://medium.com/@shravankoninti/build-a-small-language-model-slm-from-scratch-3ddd13fa6470

 

ChatGPT 요약

핵심 요약

1. SLM이란? (Small Language Model)

  • 현재 기준으로 1억 개 미만의 파라미터를 갖는 모델을 **작은 언어 모델(SLM)**로 정의합니다.

  • 과거 GPT‑3 (~175B), GPT‑4(추정치: ~1T)와 비교할 때 매우 작은 크기의 모델입니다.

2. TinyStories 데이터셋

  • TinyStories는 GPT‑3.5 및 GPT‑4가 생성한, 3~4세 어린이가 이해할 수 있는 단어만으로 구성된 짧은 이야기들의 합성 데이터셋입니다. Hugging Face에서 불러올 수 있으며, 약 200만 건의 학습 데이터2만 건의 검증 데이터가 포함되어 있습니다.

3. 전처리: 토크나이제이션 및 입력-출력 구성

  • Tokenization에는 GPT‑2 서브워드 방식을 사용하고, 모든 토큰 ID를 하나의 .bin 파일에 수집해 학습용 대형 토큰 시퀀스를 구성합니다.

4. 모델 설계 및 학습

  • 글에서는 모델 구조나 학습 방법 등 자세한 내용은 제공되지 않았지만, 10~15M 파라미터 수준의 작은 구조로도 일관된 텍스트 생성이 가능할지에 대한 실험이 핵심으로 제시됩니다.

?

  1. Programming 게시판 관련

    Date2014.11.01 CategoryTool/etc ByMoA Views21506
    read more
  2. 오픈 노트북(Open Notebook): Google의 Notebook LM을 대체하는 오픈소스 플랫폼

    Date2025.10.29 CategoryTool/etc ByOBG Views61
    Read More
  3. Claude Skills는 굉장하다, MCP보다 더 큰 혁신일지도

    Date2025.10.29 CategoryLLM ByOBG Views55
    Read More
  4. 원격 서버 개발용 편집기로 Helix 에디터를 활용하는 방법

    Date2025.10.29 CategoryTool/etc ByOBG Views55
    Read More
  5. SQLite Online - 11년간 1인이 개발, 하루 1.1만 명 사용

    Date2025.10.15 CategoryTool/etc ByOBG Views762
    Read More
  6. macOS에서 로컬 LLM 실험하기

    Date2025.09.15 CategoryLLM ByOBG Views1412
    Read More
  7. 알아두면 유익한 2019 개발이야기

    Date2025.09.15 CategoryWeb ByOBG Views1156
    Read More
  8. 초보를 위한 Claude Code 안내서

    Date2025.09.15 CategoryAgent ByOBG Views1308
    Read More
  9. Spec Kit(Spec-Driven Development)

    Date2025.09.15 CategoryAgent ByOBG Views1249
    Read More
  10. Show GN: 유튜브 영상/웹페이지를 10초만에 구조화된 노트로 만드는 크롬 확장프로그램

    Date2025.09.07 CategoryTool/etc ByOBG Views1414
    Read More
  11. VIM Master - Vim 명령어를 배우는 가벼운 브라우저 게임

    Date2025.09.07 CategoryTool/etc ByOBG Views1437
    Read More
  12. 나노바나나 공식 출시! 구글 제미나이에서 직접 사용하는 방법

    Date2025.09.07 CategoryLLM ByOBG Views1305
    Read More
  13. 구글 개발자가 말하는 나노바나나의 진짜 실체

    Date2025.09.07 CategoryLLM ByOBG Views1237
    Read More
  14. llama.cpp gpt-oss-120b 5090으로 돌려본 후기

    Date2025.09.07 CategoryLLM ByOBG Views1321
    Read More
  15. Claude Code를 최고의 설계 파트너로 만들기

    Date2025.08.28 CategoryAgent ByOBG Views1588
    Read More
  16. 코딩 에이전트 만드는 법

    Date2025.08.28 CategoryAgent ByOBG Views1655
    Read More
  17. Vibe Code an MVP Web App

    Date2025.08.28 CategoryAgent ByOBG Views1502
    Read More
  18. I Want Everything Local — Building My Offline AI Workspace

    Date2025.08.28 CategoryDeeplearning ByOBG Views1598
    Read More
  19. Kimi K2 클로드 코드와 함께 사용하는 방법

    Date2025.08.28 CategoryAgent ByOBG Views1551
    Read More
  20. Build a Small Language Model (SLM) From Scratch

    Date2025.08.16 CategoryLLM ByOBG Views1730
    Read More
  21. OpenAI의 새로운 오픈소스 모델은 사실상 Phi-5임

    Date2025.08.12 CategoryLLM ByOBG Views1709
    Read More
Board Pagination Prev 1 2 3 4 5 6 7 8 9 10 ... 17 Next
/ 17