
Un motor de aprendizaje automático multiplataforma para la inferencia de modelos
Freemium

ONNX Runtime es un motor de IA de nivel de producción diseñado para resolver el cuello de botella común que supone optimizar modelos de aprendizaje automático para diversos entornos de hardware y software. Al proporcionar una interfaz unificada para el entrenamiento y la inferencia, permite a los equipos desplegar modelos en CPUs, GPUs y NPUs sin sacrificar el rendimiento. Tanto si trabaja con modelos de lenguaje extensos (LLMs) como con modelos predictivos estándar, este motor garantiza que sus aplicaciones mantengan una baja latencia y un alto rendimiento, independientemente de la infraestructura subyacente. Diseñado para ofrecer flexibilidad, el runtime admite una amplia gama de lenguajes de programación —incluidos Python, C#, C++, Java, JavaScript y Rust—, lo que lo convierte en una opción versátil para pilas tecnológicas complejas. Cierra la brecha entre el desarrollo y la producción, permitiendo a los desarrolladores mantener un comportamiento consistente del modelo en Linux, Windows, macOS, plataformas móviles y navegadores web. Al optimizar la ejecución de modelos de última generación, permite a los ingenieros centrarse en crear funciones inteligentes en lugar de solucionar problemas de compatibilidad de hardware o degradación del rendimiento.
Optimiza el rendimiento en cuanto a latencia, caudal y uso de memoria en una amplia gama de hardware, incluyendo CPUs, GPUs y NPUs, asegurando que sus modelos se ejecuten de manera eficiente en cualquier dispositivo.
Proporciona una compatibilidad robusta en los principales sistemas operativos como Linux, Windows y macOS, así como en plataformas móviles y navegadores web, permitiendo una estrategia de IA verdaderamente portátil.
Ofrece integración nativa para desarrolladores que utilizan Python, C#, C++, Java, JavaScript y Rust, facilitando la incorporación de IA de alto rendimiento en pilas tecnológicas diversas y existentes.
Permite el despliegue de modelos de lenguaje extensos (LLMs) de última generación, soportando tareas avanzadas como la generación de texto y la síntesis de imágenes directamente dentro de sus aplicaciones de producción.
Los desarrolladores pueden desplegar modelos de IA de alto rendimiento en dispositivos con recursos limitados, como teléfonos móviles o hardware IoT, aprovechando configuraciones de runtime optimizadas.
Los ingenieros pueden servir modelos de aprendizaje automático de forma fiable en entornos de producción, asegurando que las aplicaciones de los usuarios finales se beneficien de una baja latencia y un alto rendimiento.
Los equipos que crean aplicaciones para múltiples plataformas pueden utilizar un único runtime unificado para mantener un rendimiento de IA consistente en entornos de escritorio, móviles y web.
Profesionales centrados en optimizar la velocidad de inferencia de modelos y la eficiencia de los recursos para garantizar que sus aplicaciones de IA cumplan con los estándares de rendimiento de nivel de producción.
Desarrolladores que integran IA en aplicaciones a través de varios lenguajes y que necesitan un motor de ejecución fiable y de alto rendimiento que se adapte a su pila tecnológica existente.