SAM Audio, el modelo de IA de Meta que separa cualquier sonido

Portada » Noticias » SAM Audio, el modelo de IA de Meta que separa cualquier sonido

La llegada de SAM Audio supone un cambio importante en la forma en que tratamos el sonido en el día a día. Meta ha dado el salto de la segmentación de imágenes a la separación de audio, permitiendo que cualquier persona pueda aislar voces, instrumentos o ruidos concretos de una grabación con unas pocas indicaciones sencillas.

En lugar de depender de múltiples programas y ajustes técnicos complicados, este modelo de inteligencia artificial pensado para mezclar y limpiar audio busca que la edición resulte mucho más natural: escribir lo que se quiere o hacer clic sobre lo que suena y dejar que el sistema haga el trabajo pesado. Aunque se trata de una tecnología global, su potencial encaja especialmente bien con el ecosistema creativo europeo, donde la producción de música, pódcast y contenidos audiovisuales no deja de crecer.

Qué es SAM Audio y qué intenta resolver

SAM Audio es un modelo unificado de separación de audio desarrollado por Meta dentro de la familia Segment Anything, conocida hasta ahora por segmentar elementos en imágenes y vídeos. En esta nueva variante, el foco está en descomponer una mezcla compleja para identificar y manipular fuentes sonoras concretas: desde una voz principal hasta un aplauso de fondo.

Hasta hoy, la edición de sonido avanzada se apoyaba en un conjunto disperso de herramientas, cada una pensada para un caso muy concreto: quitar ruido, separar pistas musicales, limpiar diálogos, etc. SAM Audio intenta concentrar estos usos en un solo modelo que imita cómo las personas perciben el audio: pensando en lo que se oye (un instrumento, un ruido, una voz) y en cuándo o dónde ocurre.

Según Meta, el sistema busca ofrecer un rendimiento de vanguardia en situaciones reales, tanto en grabaciones domésticas hechas con el móvil como en producciones más cuidadas para cine, televisión o plataformas de vídeo. La idea es que tanto profesionales como usuarios sin experiencia técnica puedan trabajar con las mismas bases tecnológicas.

Un modelo multimodal: texto, imagen y tiempo

La principal particularidad de SAM Audio es su enfoque multimodal. El modelo no se limita a interpretar el sonido, sino que combina la información auditiva con lo que se ve en pantalla y con la referencia temporal. Para interactuar con el sistema se pueden usar tres tipos de indicaciones, que es posible aplicar por separado o mezclar entre sí.

En primer lugar están las indicaciones de texto. El usuario escribe descripciones como «ladrido de perro», «voz cantando», «guitarra eléctrica» o «aplausos» y el modelo se encarga de localizar ese elemento en la mezcla para aislarlo. A partir de ahí se puede conservar, atenuar, eliminar o resaltar en la edición final.

Google AI Pro amplía su almacenamiento en la nube hasta 5TB sin subir el precio

En segundo lugar se encuentran las indicaciones visuales, especialmente útiles cuando se trabaja con vídeo. Basta con pulsar sobre la persona u objeto que produce el sonido —por ejemplo, un batería, un orador en un escenario, un coche pasando o un público aplaudiendo— para que SAM Audio identifique y separe el audio asociado a ese punto concreto.

El tercer pilar son las indicaciones de intervalo de tiempo, una función que Meta presenta como novedad dentro de este tipo de modelos. El usuario marca el tramo exacto en el que ocurre el sonido objetivo dentro del archivo, lo que permite centrar la separación en un momento muy concreto de la grabación sin afectar al resto.

La combinación de estos tres sistemas de órdenes proporciona un control muy preciso e intuitivo sobre el resultado. Por ejemplo, se puede seleccionar visualmente a un músico en pantalla, restringir la acción a un par de segundos del vídeo y, además, describir por texto el tipo de sonido que interesa conservar.

Aplicaciones en música, pódcast y audiovisual

Meta apunta a un abanico de casos de uso bastante amplio, con especial peso en la producción musical y la creación de contenidos sonoros. En un concierto grabado con el móvil, por ejemplo, sería posible extraer la guitarra solista o la voz principal para mezclarlas de nuevo, corregir desequilibrios o reutilizarlas en otra pieza.

En el terreno del pódcast, SAM Audio facilita tareas muy habituales como eliminar ruidos de fondo en una entrevista grabada en la calle, suprimir ladridos de un perro o reducir el tráfico que se ha colado en una conversación en exteriores. Todo ello se realiza a través de instrucciones sencillas, sin necesidad de recorrer manualmente el archivo en busca de cada ruido.

La herramienta también encaja en producciones de cine y televisión, donde la limpieza de diálogos y la gestión de ambientes sonoros consumen gran cantidad de tiempo. Poder aislar la voz de un actor entre el bullicio de una plaza o destacar determinados efectos sin rehacer toda la mezcla puede ayudar a acelerar el trabajo en posproducción.

Más allá del entretenimiento, Meta menciona la investigación científica y la accesibilidad como áreas de interés. Separar señales concretas dentro de registros complejos —como grabaciones de campo, experimentos de laboratorio o entornos urbanos— puede resultar útil en proyectos académicos y técnicos. En el ámbito de la accesibilidad, aislar voces o reducir ruidos puede contribuir a mejorar la comprensión del contenido para personas con dificultades auditivas.

València instalará cámaras en zonas turísticas para crear mapas de calor y gestionar mejor el flujo de visitantes

Para Europa y España, donde el sector audiovisual y musical tiene un peso cultural y económico considerable, un sistema capaz de reducir la barrera de entrada a la edición de audio de nivel profesional puede abrir oportunidades tanto a pequeños estudios como a creadores independientes que trabajan desde casa, así como a profesionales que invierten en auriculares Audio-Technica para monitorización.

Segment Anything Playground: probar el modelo sin coste

Meta ha puesto SAM Audio a disposición del público a través de Segment Anything Playground, una plataforma web donde se pueden probar los distintos modelos de la colección sin necesidad de instalar software complejo. Desde un ordenador basta con acceder a la página, elegir la opción de aislar audio, subir un archivo de vídeo o sonido y empezar a experimentar con las indicaciones.

El proceso está pensado para que resulte directo: cargar el contenido, introducir un prompt y seleccionar la acción deseada. El usuario escribe, por ejemplo, «voz cantando» o «ruido de tráfico», o hace clic sobre un objeto en el vídeo, y la herramienta se encarga de separar el elemento indicado. Después, se puede descargar el resultado para integrarlo en un proyecto de edición más amplio.

Además de la prueba en línea, Meta permite descargar el modelo para uso independiente, lo que abre la puerta a su integración en flujos de trabajo profesionales, en aplicaciones de terceros o en herramientas internas de empresas y estudios. Esto resulta especialmente interesante para compañías europeas de postproducción, desarrolladores de software de audio y plataformas de creación de contenido.

Dentro del mismo entorno web se ofrecen otras utilidades basadas en la familia Segment Anything, como la creación de recortes de vídeo e imagen (SAM 3) o la generación de escenas y cuerpos tridimensionales con SAM 3D. Todo ello forma parte de una apuesta más amplia por un ecosistema unificado de edición multimedia asistida por IA.

Ventajas frente a las herramientas tradicionales

Uno de los mensajes reiterados por Meta es que SAM Audio pretende superar la fragmentación habitual en la edición de sonido. En lugar de cambiar de programa para cada tarea —uno para limpiar ruido, otro para separar voces, otro para procesar instrumentos—, el modelo busca cubrir esos casos de uso desde una sola base tecnológica.

Al apoyarse en indicaciones en lenguaje natural y en selecciones visuales, el sistema reduce la necesidad de conocimientos técnicos avanzados. Usuarios sin experiencia en ingeniería de sonido pueden ejecutar acciones que, hasta hace poco, requerían dominar ecualizadores, puertas de ruido o algoritmos de separación de fuentes muy específicos.

Arduino UNO Q: doble cerebro con IA y Linux, especificaciones y disponibilidad

Meta sostiene que, en pruebas comparativas, el modelo alcanza un nivel de calidad y eficiencia superior a otros desarrollos previos en tareas de separación de audio. Aunque estos resultados dependen del material de partida y de la complejidad de la mezcla, el objetivo declarado es situar a SAM Audio como referencia de mercado en este tipo de procesos.

Para profesionales del sector, la principal aportación no es solo la calidad de la separación, sino la posibilidad de acelerar flujos de trabajo: limpiar primero con SAM Audio y refinar después con herramientas clásicas puede ahorrar tiempo y permitir centrarse en decisiones creativas en lugar de en tareas puramente mecánicas.

Un paso más en la estrategia de IA de Meta

El anuncio de SAM Audio se enmarca en la evolución de Segment Anything, el proyecto de Meta orientado a identificar y segmentar elementos concretos en imágenes, vídeos y ahora también en audio. La compañía ha presentado el modelo como un movimiento natural tras los avances en visión por computador y generación de contenido.

Junto con la publicación del sistema, Meta ha decidido compartir con la comunidad modelos adicionales, benchmarks y trabajos de investigación relacionados con SAM Audio y con su codificador de percepción, con el objetivo declarado de que otros actores del ecosistema puedan construir nuevas herramientas encima de esta base.

En paralelo, la empresa trabaja en posibles integraciones de la tecnología en sus propios productos y ha mencionado colaboraciones con organizaciones del sector de los audífonos y con aceleradoras centradas en proyectos liderados por personas con discapacidad. Estas alianzas apuntan a aplicaciones prácticas en entornos de accesibilidad y en dispositivos orientados a mejorar la escucha del usuario.

Aunque todavía es pronto para saber hasta qué punto se incorporará SAM Audio a servicios ampliamente usados en Europa —como Facebook, Instagram o WhatsApp—, la existencia del Playground y de la versión descargable permite que investigadores, startups y creadores europeos experimenten desde ahora con la tecnología.

Con la puesta en marcha de SAM Audio, Meta refuerza su apuesta por una edición de sonido más intuitiva, en la que aislar una voz, un instrumento o un ruido concreto deja de ser una tarea reservada a especialistas y pasa a estar al alcance de cualquier persona con un ordenador y conexión a Internet, algo especialmente relevante para la intensa comunidad creativa de España y del resto de Europa.