Hugging Face가 보여준 오픈소스 AI의 진짜 모습 – “2백만 모델 중, 실제로 쓰이는 건 0.01%”

한눈에 보는 핵심 포인트

Hugging Face는 2025년 기준 1,300만 유저, 200만 개 모델, 50만 개 이상의 데이터셋을 기록했다.
상위 0.01%인 200개 모델이 전체 다운로드의 49.6%를 차지하고, 절반 가까운 모델은 200회 미만만 내려받혔다.
중국은 2025년에 급성장해, 현재 전체 모델 다운로드의 약 41%를 차지하는 지역이 됐다.
로보틱스 데이터셋은 1,145개에서 26,991개로 급증해, 텍스트 생성보다 더 큰 카테고리로 성장했다.

1. 허깅페이스 플랫폼 규모 – 이미 하나의 별도 우주

Hugging Face의 Spring 2026 리포트에 따르면, 2025년 한 해 동안 플랫폼은 1,300만 명의 사용자, 200만 개 이상의 공개 모델, 50만 개 이상의 공개 데이터셋 규모로 성장했다. 단순한 “모델 저장소”가 아니라, 파인튜닝·어댑터·벤치마크·애플리케이션까지 함께 쌓이는 거대한 협업 공간이 된 셈이다.

리포트는 특히 “이제는 미리 학습된 모델을 소비하는 것에서, 파생 아티팩트(파인튜닝, 래퍼, 벤치, 앱)를 만드는 쪽으로 사용 패턴이 이동했다”고 강조한다. 오픈소스를 “완제품 무료 다운로드”가 아니라 “기본 재료를 같이 다듬는 공장”으로 보는 시각이 강해지고 있다는 의미다.

2. 하지만 절반은 사실상 ‘유령 모델’이다

리포트에서 가장 눈에 띄는 부분은 “집중도”다. Hugging Face는 “약 절반의 모델이 200회 미만 다운로드에 그치고, 상위 200개(전체의 0.01%) 모델이 전체 다운로드의 49.6%를 차지한다”고 밝힌다. 200만 개 중 극소수 모델만이 실제로 대규모로 사용되고 있는 셈이다.

이 구조는 앱 마켓, npm, PyPI 같은 다른 생태계와도 닮았다. 누구나 올리지만, 실제 프로덕션에서 반복 사용되는 건 극소수 “코어 패키지”들이고, 나머지는 실험·학습·니치 용도에 머문다. 오픈 LLM을 고를 때 “리더보드 순위만 볼 게 아니라, 다운로드·파생 작업량까지 보라”는 메시지가 자연스럽게 따라온다.

핵심은, 허브에 수백만 개 모델이 올라와 있어도 실제 생태계를 움직이는 건 상위 0.01%의 소수 모델이라는 것이다.

3. 중국의 급부상 – DeepSeek 이후, 다운로드의 41%

리포트는 2025년 한 해를 “중국 AI 생태계가 오픈소스로 급격히 선회한 해”로 규정한다. DeepSeek R1이 2025년 1월 바이럴 히트를 치면서, 중국 기업들의 Hugging Face 활동량이 폭발적으로 증가했다는 분석이다.

구체적으로, Baidu는 2024년 0개 릴리즈에서 2025년 100개 이상으로 뛰었고, ByteDance와 Tencent 역시 릴리즈 수를 8~9배 수준으로 늘렸다. 여러 정리 글을 종합하면 2026년 봄 시점에 중국은 Hugging Face 전체 모델 다운로드의 약 41%를 차지하는 지역이 되었다. 폐쇄 전략을 택하던 조직들까지 오픈 릴리즈로 기조를 바꾼 점이 상징적이라는 평가다.

즉, “미국·유럽 중심의 오픈소스 LLM 지도”가 2025년 이후에는 “중국을 포함한 3극 구도”로 재편되고 있다는 신호로 볼 수 있다.

4. 평균은 200억 파라미터, 현실은 ‘작은 모델’ 위주

모델 크기 분포도 흥미롭다. 리포트에 따르면, 다운로드되는 오픈 모델의 평균 파라미터 수는 2023년 8.27억에서 2025년 208억으로 뛰었다. 양자화와 MoE 구조 덕분에, 고급 사용자들이 점점 더 큰 모델을 적극 실험하고 있다는 뜻이다.

하지만 중앙값은 3.26억에서 4.06억으로 소폭만 증가했다. 이는 상위 소수 사용자가 거대 모델을 끌어올려 평균을 올리고 있을 뿐, 현실의 대부분 워크로드는 여전히 수억 파라미터급 작은 모델이 담당하고 있다는 신호다. 로컬·엣지·비용 제약 때문에 많은 팀이 여전히 “중소형 모델 + 좋은 엔지니어링” 조합을 기본값으로 두고 있다는 설명이 뒤따른다.

정리하면, “큰 모델이 화제의 중심”이지만 실제 배포·서비스 레벨에서는 작은 모델이 개수와 트래픽 모두에서 생태계를 지탱하고 있다고 볼 수 있다.

5. 로보틱스 데이터셋 – 텍스트를 제치고 1위 카테고리

Hugging Face가 꼽은 또 하나의 큰 변화는 로보틱스다. 로보틱스 데이터셋은 2024년 1,145개에서 2025년 26,991개로 늘어, 3년 만에 허브 최대 데이터셋 카테고리로 올라섰다. 같은 시기 텍스트 생성(text generation) 카테고리는 약 5,000개 정도였으니, 단순 숫자만 보면 로보틱스가 그 5배 이상이다.

이는 “로봇 제어·시뮬레이션·센서 데이터” 영역이 더 이상 소수 연구소 전유물이 아니라, 오픈소스 기반으로 빠르게 공유·재사용되는 단계에 접어들었다는 의미다. LLM·비전·제어 정책을 한 번에 학습하는 멀티모달/멀티태스크 연구가 늘어나면서, 로보틱스가 LLM과 나란히 오픈소스 성장 축으로 떠오르고 있다는 분석이 붙는다.

숫자만 보면, “텍스트 LLM 시대”에서 “텍스트+로보틱스+멀티모달” 시대로 오픈소스의 무게 중심이 이동 중이라고 해석할 수 있다.

6. 기업 참여 – 포춘 500의 30% 이상이 허깅페이스에 있다

리포트는 “오픈소스 = 개인 개발자 놀이터”라는 오래된 인식을 깨는 데이터도 제시한다. 2025년 기준 포춘 500 기업의 30% 이상이 Hugging Face에 검증된(verified) 계정을 가지고 있으며, 조직 구독을 상향 조정하는 사례가 늘고 있다는 것이다.

스타트업들은 기본적으로 오픈 웨이트 모델을 조합해 제품을 만들고, VS Code·Cursor 같은 IDE도 상용·오픈 모델을 나란히 지원하는 방향으로 움직이고 있다. 오픈소스 모델이 단순 취미나 데모용을 넘어, 실제 제품 인프라의 한 축으로 자리 잡고 있다는 의미다.

결국, “폐쇄형 API vs 오픈소스”의 구도가 아니라, 오픈 모델을 기본 재료로 삼아 각자 상품화·서비스화하는 경쟁 구도로 재편되고 있다고 볼 수 있다.

'IT+ > AI' 카테고리의 다른 글

Claude 3.7 Sonnet – ‘일반 LLM + 추론 모델’ 두 얼굴을 가진 하이브리드 모델 뜯어보기 (1)	2026.04.23
OpenAI o3‑mini – 2025년형 ‘작은 추론 모델’이 실제로 어디까지 써먹을 수 있는지 스펙부터 정리해보기 (0)	2026.04.21
AI 노트 필기가 편해진 만큼, 회의실 안에서 사라지는 ‘당신의 비밀들’ – 노트테이커가 만드는 9가지 위험 (0)	2026.04.15
뉴욕 변호사를 무너뜨린 ‘가짜 판례 6개’ – Mata v. Avianca 사건으로 보는 AI 할루시네이션의 현실 (0)	2026.04.13
입만 열면 나, 눈만 감아도 나? – AI 딥페이크가 위험한 진짜 이유 (0)	2026.04.08