En los últimos años, los modelos de IA experimentaron grandes saltos en las capacidades basadas en texto e imágenes, pero sus creadores tienen una visión más elevada: interfaces de IA multimodales que puedan ver, escuchar y hablar con los humanos. Pero para poder llevar a cabo tareas impresionantes como contar chistes y cantar canciones, los modelos como el GPT-4o de OpenAI necesitan un tipo de infraestructura de red más rápida y eficiente, la que proporciona la startup menos conocida de tres años LiveKit.
“Si OpenAI está construyendo el cerebro, LiveKit está creando el sistema nervioso para llevar señales hacia y desde ese cerebro”, dijo el CEO y cofundador de LiveKit, Russ D'Sa.
Todavía en noviembre de 2023, D'Sa tuvo dificultades para reunir capital para su startup porque los inversores pensaban que estos modelos multimodales aún estaban al menos a cinco años vista. Esa creencia cambió en sólo unos meses, cuando tanto Google como OpenAI hicieron demostraciones y publicaron nuevos modelos de IA capaces de procesar y generar contenidos en formatos de audio y visuales. “De repente me estaban llamando los mismos inversores para preguntarme cómo iban las cosas con la ronda”, dijo D'Sa a Forbes.
La empresa consiguió una inversión de serie A de 22,7 millones de dólares liderada por Altimeter Capital con la participación de Redpoint Ventures. También se unieron a la ronda inversores ángeles de todo el sector de la IA, como el científico jefe de Google Jeff Dean, el inversor tecnológico Elad Gil y fundadores de destacadas startups de IA como el CEO de Perplexity Aravind Srinivas, el CEO de Pika Demi Guo y el CEO de ElevenLabs Mati Staniszewski.
Con unos 38 millones de dólares de financiación total, LiveKit está valorada en 110 millones de dólares, según una fuente familiarizada con la ronda. Sus herramientas ya son utilizadas por unos 20.000 desarrolladores en empresas como OpenAI, Character AI, Spotify y Meta, y el año pasado registró una facturación anual de 3 millones de dólares.
El interés proviene del hecho de que la infraestructura actual de Internet no está optimizada para transportar datos multimodales dentro y fuera de los modelos de IA, dijo D'Sa. Eso se debe en parte a que cada vez que una persona envía una información o una solicitud, el remitente necesita primero recibir de vuelta una respuesta que confirme y reconozca que el paquete de datos fue recibido antes de poder enviar más.
Esto suele hacerse para garantizar que los datos no se pierdan durante la transmisión. Este desfase apenas es perceptible cuando lo único que le preocupa es el texto. Pero para los datos de gran ancho de banda, como los videos y el audio, no hay tiempo suficiente para enviar una notificación cada vez que se transfieren los datos y seguir garantizando un funcionamiento sin problemas.
Para solucionar este problema, LiveKit utiliza un protocolo llamado UDP que permite a las aplicaciones transmitir contenidos de audio y video sin necesidad de confirmar cada paquete (el inconveniente aumenta el riesgo de pérdida de datos). El lanzamiento de la compañía convenció al CEO de Perplexity, Aravind Srinivas, que también está buscando sumar capacidades de voz a su motor de búsqueda impulsado por IA, para invertir en su startup.
“Uno mismo puede seguir construyendo algo con la arquitectura tradicional, pero esto es algo que realmente escala a muchos usuarios y escala no sólo a través de la voz, sino que también consume imágenes y videos a la vez”, dijo Srinivas, y añadió que le impresionó el hecho de que la demostración de OpenAI de su último modelo multimodal, GPT-4o, se realizara en la red de LiveKit.
D'Sa conoció a su cofundador David Zhao en Y Combinator en 2007, donde ambos trabajaban en distintas startups de transmisión de video. D'Sa y Zhao se separaron y pasaron temporadas en Twitter y Motorola, respectivamente. En 2012, se asociaron por primera vez. Tras probar varias ideas, el dúo acabó fundando una aplicación de recomendación de noticias basada en el aprendizaje automático llamada Evie Labs, que vendieron a Medium en 2019 por 30 millones de dólares. La pareja fundó LiveKit en 2021 para proporcionar herramientas que permitieran sumar fácilmente capacidades de video y audio a las aplicaciones interactivas en medio de la pandemia de Covid-19.
Los creadores de modelos de IA no son los únicos clientes de LiveKit. Las herramientas de código abierto de LiveKit también se están utilizando para impulsar las llamadas de atención al cliente, programar citas con pacientes en hospitales, conducir tractores autónomos en granjas y realizar una cuarta parte de las llamadas de despacho al 911, dijo D'Sa. LiveKit afirma que su conjunto de herramientas resulta útil para estas aplicaciones de audio y video en tiempo real, haciendo que el proceso de transferencia de datos sea rápido y más eficiente a escala.
Según D'Sa, a medida que más empresas aspiran a hacer que las interfaces de voz y video suenen y se presenten más parecidas a las humanas, una red de alta velocidad que pueda mover los datos con rapidez marcaría una diferencia significativa en las capacidades de estos sistemas y permitiría interacciones más flexibles con la IA.
“Casi todo el mundo se centra en la parte informática de la IA”, afirmó, "casi nadie se centra en la parte de red de la misma, pero es una pieza tan crítica para impulsar este futuro”.