
고성능 모델 추론을 위한 크로스 플랫폼 머신러닝 엔진입니다.
프리미엄

ONNX Runtime은 다양한 하드웨어 및 소프트웨어 환경에서 머신러닝 모델을 최적화할 때 발생하는 고질적인 병목 현상을 해결하기 위해 설계된 프로덕션급 AI 엔진입니다. 학습 및 추론을 위한 통합 인터페이스를 제공함으로써, 팀은 성능 저하 없이 CPU, GPU, NPU 전반에 걸쳐 모델을 배포할 수 있습니다. 거대 언어 모델(LLM)을 다루든 표준 예측 모델을 다루든, 이 엔진은 기본 인프라와 관계없이 애플리케이션이 낮은 지연 시간과 높은 처리량을 유지하도록 보장합니다. 유연성을 고려하여 설계된 이 런타임은 Python, C#, C++, Java, JavaScript, Rust 등 다양한 프로그래밍 언어를 지원하므로 복잡한 기술 스택에 매우 적합합니다. 개발과 운영 사이의 간극을 메워주며, 개발자가 Linux, Windows, macOS, 모바일 플랫폼 및 웹 브라우저 전반에서 일관된 모델 동작을 유지할 수 있도록 돕습니다. 최첨단 모델의 실행을 간소화함으로써 엔지니어들이 하드웨어 호환성이나 성능 저하 문제를 해결하는 대신 지능형 기능을 구축하는 데 집중할 수 있게 합니다.
CPU, GPU, NPU를 포함한 광범위한 하드웨어 전반에서 지연 시간, 처리량 및 메모리 사용량을 최적화하여 모델이 어떤 장치에서든 효율적으로 실행되도록 보장합니다.
Linux, Windows, macOS와 같은 주요 운영 체제는 물론 모바일 플랫폼 및 웹 브라우저에 이르기까지 강력한 호환성을 제공하여 진정한 의미의 이식성 있는 AI 전략을 가능하게 합니다.
Python, C#, C++, Java, JavaScript, Rust를 사용하는 개발자를 위한 네이티브 통합을 제공하여, 다양하고 기존의 기술 스택에 고성능 AI를 쉽게 결합할 수 있습니다.
최첨단 거대 언어 모델(LLM) 배포를 지원하며, 프로덕션 애플리케이션 내에서 텍스트 생성 및 이미지 합성 같은 고급 작업을 직접 수행할 수 있습니다.
개발자는 최적화된 런타임 구성을 활용하여 모바일 폰이나 IoT 하드웨어와 같이 리소스가 제한된 장치에서도 고성능 AI 모델을 배포할 수 있습니다.
엔지니어는 프로덕션 환경에서 머신러닝 모델을 안정적으로 서비스할 수 있으며, 최종 사용자 애플리케이션이 낮은 지연 시간과 높은 처리량의 이점을 누릴 수 있도록 보장합니다.
여러 플랫폼용 애플리케이션을 구축하는 팀은 단일 통합 런타임을 사용하여 데스크톱, 모바일, 웹 환경 전반에서 일관된 AI 성능을 유지할 수 있습니다.
AI 애플리케이션이 프로덕션급 성능 표준을 충족하도록 모델 추론 속도와 리소스 효율성을 최적화하는 데 집중하는 전문가입니다.
다양한 언어로 애플리케이션에 AI를 통합하며, 기존 기술 스택에 적합한 안정적이고 고성능인 실행 엔진이 필요한 개발자입니다.
오픈 소스 프로젝트로서 무료로 제공됩니다.