해랑의 디지털 저장소A

ai 연구1

DeepSeek-R1 모델 소개 DeepSeek-R1 모델 소개DeepSeek-R1의 배경DeepSeek-R1은 복잡한 문제 해결(수학, 코딩, 논리 등)에서 뛰어난 성능을 보이는 reasoning 모델입니다. OpenAI의 o1 모델처럼, 모델이 추론 능력을 향상시키기 위해 추론 과정에 집중하는 방식이 도입되었습니다.모델의 핵심 혁신기본 모델 활용: DeepSeek-R1은 강력한 기본 모델(DeepSeek-V3, 671B Mixture of Experts)을 기반으로 합니다.비용 효율성: Multi Token Prediction(MTP), Multi-Head Latent Attention(MLA)와 같은 아키텍처 변경과 하드웨어 최적화를 통해 훈련 비용을 약 550만 달러로 낮췄습니다.두 가지 모델 접근법:DeepSeek-R1-Zer.. 📚 Copy & Paste 2025. 2. 9.

이전 1 다음

티스토리툴바