/COMUNICAE/

El SDK NVIDIA Maxine de streaming de video con IA en cloud se basa en la investigación de las GAN y se exhibirá en CVPR 2021

Byline: Isha Salian.

«Sales de la cama, enciendes la laptop, activas la cámara web y disfrutas de la perfección en cada videollamada, con la ayuda de la IA desarrollada por los investigadores de NVIDIA».

Vid2Vid Cameo , uno de los modelos de deep learning detrás del SDK de NVIDIA Maxine para videoconferencias, utiliza redes generativas antagónicas, conocidas como GAN, para sintetizar videos realistas de cabezas parlantes utilizando una sola imagen 2D de una persona.

Eso significa que un asistente a una reunión con el cabello desarreglado y la pijama puesta puede aparecer como si estuviera vestido con una camisa formal, mientras la IA mapea los movimientos faciales del usuario con una foto previamente cargada del individuo, con un atuendo apropiado para el trabajo. Si el sujeto está mirando hacia la izquierda, la tecnología puede ajustar el punto de vista para que el asistente parezca estar haciendo contacto visual con la cámara web.

Además de ayudar a los asistentes a las reuniones a lucir lo mejor posible, esta técnica de IA también reduce el ancho de banda necesario para las videoconferencias hasta en 10 veces, lo que evita la fluctuación y el retraso en la recepción de la imagen. Pronto estará disponible en el SDK de NVIDIA Video Codec como el Códec AI Face.

“Muchas personas tienen un ancho de banda de Internet limitado, pero aun así quieren tener una videollamada sin problemas con amigos y familiares», dijo el investigador de NVIDIA Ming-Yu Liu, coautor del proyecto. «Además de ayudarlos, esta tecnología también podría usarse para ayudar al trabajo de animadores, editores de fotos y desarrolladores de juegos».

Vid2Vid Cameo se presentó esta semana en la prestigiosa Conferencia sobre Visión de Computación y Reconocimiento de Patrones, uno de los 28 documentos de NVIDIA en el evento virtual.

La IA se Roba el Show
En un guiño a las películas clásicas de atracos (y un exitoso programa de Netflix), los investigadores de NVIDIA pusieron su modelo GAN de cabeza parlante para que participe de una reunión virtual. La demostración destaca las características clave de Vid2Vid Cameo, incluida la redirección facial, los avatares animados y la compresión de datos.

Liga de la grabación del Pre Briefing: https://drive.google.com/drive/folders/1p_P-pes9unkav8R568iGSZhhgwU4P-Tp?usp=sharing

Estas capacidades llegarán pronto al SDK de NVIDIA Maxine, que ofrece a los desarrolladores modelos optimizados previamente entrenados para efectos de video, audio y realidad aumentada en videoconferencias y transmisión en vivo.

Los desarrolladores ya pueden adoptar los efectos de Maxine AI, incluida la eliminación inteligente del ruido, la ampliación de video y la estimación de la postura corporal. El SDK de descarga gratuita también se puede combinar con la plataforma NVIDIA Jarvis para aplicaciones de IA conversacionales, incluidas la transcripción y la traducción.

Saludo desde el Lado de la IA
Vid2Vid Cameo
requiere sólo dos elementos para crear una cabeza parlante de IA realista para videoconferencias: una sola toma de la apariencia de la persona y una transmisión de video que dicta cómo se debe animar esa imagen.

El modelo se entrenó en un sistema NVIDIA DGX, utilizando un conjunto de datos de 180,000 videos de cabezas parlantes de alta calidad. La red aprendió a identificar 20 puntos clave que se pueden utilizar para modelar el movimiento facial sin anotaciones humanas. Los puntos codifican la ubicación de los rasgos como los ojos, la boca y la nariz.

A continuación, se extrae estos puntos clave de una imagen de referencia de la persona que llama, que puede enviarse a otros participantes de la videoconferencia previamente o volver a utilizarse tomada de reuniones anteriores. De esta manera, en lugar de enviar voluminosos streamings de video en vivo de un participante a otro, las plataformas de videoconferencia pueden simplemente enviar datos sobre cómo se mueven los puntos faciales clave del orador.

Del lado del receptor, el modelo GAN utiliza esta información para sintetizar un video que imita la apariencia de la imagen de referencia.

Al comprimir y enviar solo la posición de la cabeza y los puntos clave hacia adelante y hacia atrás, en lugar de secuencias de video completas, esta técnica puede reducir las necesidades de ancho de banda para las videoconferencias hasta en 10 veces, lo que proporciona una experiencia de usuario más fluida. El modelo se puede ajustar para transmitir una cantidad diferente de puntos clave para adaptarse a diferentes entornos de ancho de banda sin comprometer la calidad visual.

El punto de vista del video de la cabeza parlante resultante también se puede ajustar libremente para mostrar al usuario desde un perfil lateral o recto, así como desde un ángulo de cámara más bajo o más alto. Esta función también la pueden aplicar los editores de fotografías que trabajan con imágenes fijas.

Los investigadores de NVIDIA descubrieron que Vid2Vid Cameo supera a los modelos de vanguardia al producir resultados más realistas y nítidos, ya sea que la imagen de referencia y el video sean de la misma persona, o cuando la IA tiene la tarea de transferir el movimiento de una persona a una imagen de referencia de otra.

Esta última característica se puede utilizar para aplicar los movimientos faciales de un orador a fin de animar un avatar digital, prestando expresión y movimiento realistas a una figura de dibujos animados.

El documento detrás de Vid2Vid Cameo fue escrito por los investigadores de NVIDIA Ting-Chun Wang, Arun Mallya y Ming-Yu Liu. El equipo de investigación de NVIDIA está formado por más de 200 científicos de todo el mundo y se centra en áreas como la IA, la Visión de Computación, los Vehículos Autónomos, la Robótica y los Gráficos.

NVIDIA desea agradecer y dar crédito al actor Edan Moses (voz en off en inglés del Profesor en “La Casa De Papel” / ”Money Heist” en Netflix) por su contribución en este video con su última investigación de IA.

Fuente Comunicae

Ir a la fuente
Author:

You missed

14.8 Millones de vidas iluminadas, pero más de 600 millones de personas aún viven en la oscuridad En el marco del Día Internacional de la Luz de la UNESCO, la Fundación Signify anunció que ha llevado acceso a iluminación sostenible a 14.8 millones de personas en el mundo desde 2017, impulsando proyectos que buscan transformar comunidades a través de acceso seguro y confiable a la luz. Sin embargo, el desafío global sigue siendo enorme. Actualmente, más de 600 millones de personas aún viven sin acceso adecuado a iluminación, una realidad que continúa limitando la seguridad, la educación, la atención médica y las oportunidades económicas de millones de comunidades. En México, la situación también refleja importantes retos de infraestructura básica. De acuerdo con la Encuesta de Caracterización de Asentamientos de TECHO México 2024, sólo 4 de cada 10 familias cuentan con una conexión adecuada a la red eléctrica, limitando condiciones esenciales de seguridad, movilidad, educación y bienestar dentro de las comunidades. Para la Fundación Signify, la iluminación no debe verse únicamente como un servicio complementario, sino como infraestructura esencial para el desarrollo social y económico. “La iluminación suele tratarse como un componente secundario del desarrollo, cuando en realidad es fundamental. Sin ella, las clínicas cierran al atardecer, los niños dejan de estudiar y las mujeres no se sienten seguras al regresar a casa”, afirmó Mario Giordano, Presidente de la Fundación Signify. “La oportunidad que tenemos por delante es integrar sistemáticamente la luz en estrategias más amplias de desarrollo, acción climática e infraestructura pública.” “Hablar de iluminación también es hablar de seguridad, educación, movilidad y bienestar. Cuando una comunidad cuenta con espacios iluminados, las personas pueden extender sus actividades, sentirse más seguras y mejorar su calidad de vida. Ese es el tipo de impacto que buscamos impulsar desde Signify”, señaló José Ávalos, Director de Asuntos Públicos y Relaciones Gubernamentales de Signify México & North Latam. En 2025, las iniciativas de la Fundación abarcaron 22 proyectos en 19 países, beneficiando principalmente a comunidades vulnerables donde la falta de iluminación limita actividades esenciales de la vida diaria. Mujeres y niñas representaron el 52% de las personas impactadas. A través de su programa Brighter Communities, la Fundación impulsa proyectos enfocados en tres áreas prioritarias: ● Brighter Learning: ha iluminado más de 1,000 escuelas, hogares infantiles y parques para crear espacios seguros de aprendizaje y recreación. ● Brighter Health: ha fortalecido la atención médica mediante iluminación confiable en 161 hospitales, centros de salud y clínicas. ● Brighter Living: enfocado en mejorar la seguridad en calles y espacios compartidos mediante iluminación en 152 aldeas y asentamientos informales. Como parte de la alianza entre Signify y TECHO México, las soluciones de vivienda impulsadas en comunidades vulnerables integran luminarias solares que permiten ampliar las actividades cotidianas, fortalecer la seguridad y mejorar las condiciones de habitabilidad desde el primer momento. “La luz transforma mucho más que un espacio físico: transforma la manera en que las personas estudian, se movilizan, conviven y habitan sus comunidades”, señaló TECHO México. De acuerdo con CEPAL, cerrar la brecha de acceso a electricidad mediante energías renovables en América Latina y el Caribe podría reducir cerca de 100 millones de toneladas de emisiones de CO₂ frente a tecnologías tradicionales, además de generar hasta 700 mil nuevos empleos en la región durante la próxima década. En este contexto, la Fundación Signify y TECHO México coinciden en la necesidad de integrar la iluminación sostenible dentro de estrategias más amplias de vivienda, espacio público, servicios básicos y desarrollo comunitario, impulsando soluciones que respondan a las condiciones reales de los territorios y fortalezcan el bienestar de las comunidades. “La iluminación sostenible debe formar parte de una política más amplia de vivienda, espacio público y servicios básicos. Soluciones como las luminarias solares demuestran cómo la tecnología puede responder a las condiciones reales del territorio y contribuir a construir comunidades más seguras, resilientes e inclusivas”, destacó TECHO México. “Cuando los residentes de una comunidad pueden señalar una farola y decir: ‘Nosotros instalamos esto’, el proyecto se convierte en parte de la comunidad, no en una intervención externa”, señaló Yue Cui, Directora de la Fundación Signify. “En este Día Internacional de la Luz, invitamos a aliados del sector público y privado a tratar la iluminación pública como infraestructura esencial que respalda la seguridad, la movilidad y la actividad económica.”