Forbes Argentina
Captions, Inteligencia Artificial, App
Negocios

Así es Captions, la app de edición de video que recaudó 25 millones de dólares

Rashi Shrivastava

Share

El software de edición de video, diseñado para "videos hablados", fue utilizado por 3 millones de creadores hasta la fecha y tiene una valoración de 250 millones de dólares.

22 Junio de 2023 12.30

En un breve video, un hombre explica cómo hacer fajitas en una freidora de aire. El video, que se reproduce en la aplicación de edición de vídeo Captions, basada en inteligencia artificial, genera automáticamente subtítulos en negrita. Gaurav Misra, director general y cofundador de Captions, muestra cómo puede utilizarse la herramienta de traducción de la aplicación para doblar todo el video a otro idioma, el hindi. Mediante una serie de toques y conmutaciones, muestra las funciones de la aplicación que pueden ajustar automáticamente el volumen del audio, el color del fondo, eliminar ciertas palabras y añadir transiciones.

Esta demostración, dice Misra, pone de relieve cómo su empresa facilita a los creadores de video llegar a un público más amplio. Además, la startup de edición de video anunció el jueves que recaudó 25 millones de dólares en una ronda de serie B liderada por la empresa de capital riesgo de Silicon Valley Kleiner Perkins, con participación de Sequoia Capital, Andreessen Horowitz y SV Angel.

La nueva inyección de liquidez eleva la valoración de la empresa a 250 millones de dólares y el total de fondos captados a 40 millones. Kleiner Perkins se mostró "entusiasta" con el sector de la comunicación por video , afirma Everett Randle, socio de la empresa, que ya lideró rondas de financiación de la startup de video con inteligencia artificial Synthesia y de la plataforma de grabación de video Loom. "Gaurav vino a nosotros con lo que él pensaba que era una valoración justa para el negocio incorporando su tracción, rentabilidad y visión, manteniendo al mismo tiempo un montón de ventajas para los inversores, y estuvimos de acuerdo con él", dice Randle.

Captions, Inteligencia Artificial, App
Gaurav Misra, director general y cofundador de Captions, muestra cómo puede utilizarse la herramienta de traducción de la aplicación para doblar todo el video a otro idioma, el hindi. 

Cuándo y cómo nació Captions

Captions tiene su origen en la etapa de Misra al frente del equipo de ingeniería de diseño de Snap Inc. desde 2016 hasta 2021. Durante ese tiempo, fue testigo de la evolución de los videos en las redes sociales, desde los vídeos de baile al estilo TikTok hasta los Instagram Reels y los YouTube Shorts. También fue testigo del auge de una nueva categoría: los "videos hablados", en los que los creadores se dirigen directamente a la cámara, estaban ganando adeptos. En 2020, Misra dejó Snap y se unió a su antiguo colega Dwight Churchill, que dejó Goldman Sachs, para cofundar Captions.

Desde entonces, unos 3 millones de creadores utilizaron la aplicación para subtitular y editar videos automáticamente, en categorías tan variadas como golf, inmobiliaria y aviación, según Misra. La aplicación tiene unos 100.000 usuarios activos diarios y cada mes se crean en la plataforma alrededor de un millón de videos.

Sin embargo, no está sola en el mercado. La startup neoyorquina se enfrenta a empresas más consolidadas, como CapCut, la aplicación de edición propiedad de Bytedance, que alcanzó los 200 millones de usuarios activos, y Adobe, que desplegó sus propias funciones de IA generativa bajo el paraguas de Firefly. Otras empresas de edición de video y audio basadas en IA, como Descript, aparecieron en los últimos años y obtuvieron millones de dólares de financiación de sociedades de capital riesgo.

Misra afirma que el enfoque de Captions con respecto al software de edición de video es diferente porque sus herramientas están diseñadas específicamente para editar videos hablados. "La mayoría de los programas de edición de video se centran más en la estética, como los filtros y los colores, mientras que nosotros nos centramos más en transmitir una idea o una experiencia", explica Misra a Forbes.

Captions, Inteligencia Artificial, App
 La función AI script writer de la aplicación permite a los creadores utilizar ChatGPT para escribir un guión para su video y Whisper, la herramienta de voz a texto de OpenAI, para subtitular su audio. 

¿Qué funciones ofrece la novedosa aplicación?

Por 10 dólares al mes, la aplicación ofrece un conjunto de funciones generativas basadas en IA que abarcan las distintas fases de la producción de video, como la grabación, la edición y la distribución. Aunque la mayoría de las funciones se basan en modelos de código abierto, algunas fueron creadas por el equipo de 16 personas de Captions, explica Misra. La función AI script writer de la aplicación permite a los creadores utilizar ChatGPT para escribir un guión para su video y Whisper, la herramienta de voz a texto de OpenAI, para subtitular su audio.

Ofrece una herramienta interna de clonación de voz que se entrena a partir de grabaciones de audio con licencia para traducir el audio de los usuarios a otros 28 idiomas o utilizar una voz en off de IA para narrar el contenido desde cero. Para reducir las posibilidades de uso indebido, los creadores sólo pueden cambiar el idioma del audio en lugar de insertar o crear una nueva grabación de audio para un video importado, dice Misra, reconociendo los riesgos de que los usuarios utilicen el software para crear deepfakes.

Otras funciones permiten a los usuarios ampliar y reducir automáticamente, detectar y eliminar palabras de relleno y ofensivas y ajustar el nivel de sonido del audio de fondo de un video. Captions también utiliza una herramienta de corrección ocular por IA, desarrollada originalmente por Nvidia para su posible aplicación en Zoom, para ajustar los ojos de los usuarios y que parezca que miran a la cámara.

Con la nueva inyección de capital, la startup planea ampliar su equipo y desarrollar funciones ya existentes, como la de música por IA, que crea música instrumental de fondo reorganizando automáticamente instrumentos musicales pregrabados. Según Misra, añadir más funciones facilitará aún más a los creadores de contenidos competir en igualdad de condiciones con competidores mejor dotados.

"Nuestro objetivo es acercar estas tecnologías a la gente corriente", afirma Misra. "La mitad de la batalla es la tecnología".

*Con información de Forbes US

10