EJECUTA IA en LOCAL GRATIS 👉 ¡Genera Código, Vídeo, Imágenes y Texto!
By Dot CSV Lab
Summary
## Key takeaways - **Run AI Locally: Text, Code, Images, Video**: You can execute advanced AI models for text, code, image, and video generation directly on your computer, avoiding third-party services and costs. [00:05], [01:03] - **LM Studio: Effortless Local LLM Deployment**: LM Studio simplifies downloading, configuring, and running open-source language models like GPT-OSS 20B, offering a familiar chat interface and fast token generation speeds. [01:57], [04:21] - **Advanced Code Generation with Local Models**: Utilize models like Quentrescoder (30B parameters) locally and integrate them with IDEs like Cursor via an MPC server for seamless code generation without an internet connection. [09:38], [12:46] - **ComfyUI for Creative Control in Media Generation**: ComfyUI's node-based interface provides granular control for image and video editing, allowing for complex workflows and hybridization of open-source tools like the Quen Image Edit model. [14:13], [18:57] - **Local Video Animation with One 2.2 Models**: The One 2.2 model family, executable locally via ComfyUI, enables impressive video animation from a single image, offering more control than some private models. [19:48], [25:36]
Topics Covered
- Run advanced AI models locally for free.
- Open source video generation rivals private models.
- LM Studio simplifies local AI model deployment.
- Local RAG requires careful context window management.
- ComfyUI offers granular control over generative AI.
Full Transcript
Hoy os traigo uno de estos vídeos que sé
que os gusta, donde vamos a estar
trabajando, sí, con inteligencia
artificial, pero ejecutada en nuestros
ordenadores. inteligencia artificial en
local, con la que vamos a trabajar con
nuestros textos y documentos, como si
tuviéramos nuestro propio chat GPT,
donde conectaremos los modelos más
avanzados de programación open source
con herramientas como cursor para poder
programar con todas sus funcionalidades,
pero sin gastar 1 € y os enseñaré
también cómo podéis ejecutar en vuestro
equipo un modelo tipo nanobanana para
editar imágenes completamente en local
con unos resultados que son asombrosos.
Y el plato fuerte para el final. Si sois
de los que creéis que los modelos open
source están por detrás de los modelos
privados, pues hoy os voy a enseñar cómo
trabajar con modelos de vídeo como One
2.2, que para ciertas ediciones de vídeo
concretas y donde vais a tener mucho más
control que con otras herramientas, a
día de hoy es de las que mejores
resultados están ofreciendo, texto,
código, imagen y vídeo, que como digo,
va a estar todo ejecutado en nuestro
ordenador. En este caso, este vídeo pues
está patrocinado por Nvidia, quien es la
que me ha mandado este portátil para que
hagamos todos los experimentos, todas
las pruebas dentro de este ordenador. Un
ordenador que, no os dejéis engañar,
tiene en su interior una tarjeta RTX
5090 de Nvidia. Ya sabéis que contar con
una tarjeta gráfica de Nvidia es
indispensable para poder ejecutar todos
estos modelos de inteligencia artificial
de forma eficiente, de forma rápida. Y
muchas veces pensamos que estas tarjetas
tienen que estar en ordenadores enormes,
superpesados, pero como podéis ver
también podemos contar con GPUs
superpotentes dentro de estos portátiles
que van a permitir que si eres
estudiante, si eres un profesional, pues
puedas aprovecharte de toda esta
potencia de la inteligencia artificial
con la portabilidad de un equipo como
sería un portátil. Y os lo voy a
demostrar. Vamos a empezar a jugar con
nuestro portátil con nuestra
y a ver qué podemos hacer. Y la primera
herramienta con la que vamos a trabajar
ya es una vieja conocida del canal y es
LM Studio, que para mí es de las mejores
suits para poder descargar modelos del
lenguaje que podremos instalar,
configurar y empezar a utilizar en
cuestión de minutos. Por ejemplo,
sabemos que este verano Open AI presentó
su modelo open source GPT OSS en dos
versiones, una de 120,000 millones de
parámetros que es muy grande, y una
versión más reducida, que sí podemos
ejecutar bien en nuestros ordenadores.
Una versión de 20,000 millones de
parámetros, que es la que tenemos aquí.
¿Cómo podemos utilizarlo? ¿Cómo podemos
empezar a trabajar con este modelo que
tan altruistamente estos laboratorios
nos están ofreciendo? Pues la mejor
forma de trabajar es con LM Studio, que
como digo, nos va a permitir buscar
dentro de todo su catálogo de modelos,
pues los últimos modelos que se hayan
publicado. En este caso, pues queremos
buscar GPT o SS, que ya no es un modelo
nuevo, pero es el modelo que queremos
utilizar. Buscamos aquí el nombre y
efectivamente nos aparece pues este
modelo. Además tenemos modelos
disponibles de hag face, lo vemos por el
emoji. Tenemos también en morado modelos
seleccionados por la propia aplicación,
recomendados por ellos. Y en este caso,
pues tenemos el modelo GPT OS20B que
directamente podemos descargar. Aquí
tenemos la posibilidad, según el modelo
que estemos eligiendo, de clicar en show
all options para ver todas las opciones
cuantificadas de estos modelos, donde ya
sabéis que podemos pues reducir su
tamaño restándole un poco de capacidad y
podéis buscar aquella opción que mejor
se ajuste al hardware que tengáis
disponible en este momento. En el caso
del modelo de Open AI, pues solamente
hay una única versión, así que va a ser
la que vamos a descargar. Yo en mi caso
ya la tengo descargada, así que ya esto
me permite, en este caso este botón me
dice utilizar en un nuevo chat. Clicamos
y automáticamente LM Studio se está
encargando de configurar, de lanzar este
modelo y de ponérmelo en disposición
para empezar a trabajar con él. Desde ya
clicamos aquí en crear nuevo chat y ya
tenemos una interfaz s super parecida lo
que sería trabajar con Chat GPT, con
Gemini, con Cloud, pues una interfaz
tipo chat. Y podemos escribir, "Hola,
¿qué tal?" Y el modelo pues debería de
respondernos generando tokens. Y fijaos
que en este caso estos no son tokens de
haber llamado un servicio de terceros a
una API, sino que esto ha sido generado
en el corazón de este portátil con estas
GPUs y es impresionante. Hola, ¿todo
bien por aquí? ¿Qué onda contigo?
Tenemos el modelo respondiendo y fijaos,
una generación que ha sido a 157 tokens
por segundo, la verdad que bastante
rápido. Y podemos seguir hablando con
él. Le puedo decir, "Estoy probando la
bondades de ejecutar modelos del
lenguaje en local." Y de nuevo
respuestas rapidísimas donde podemos
seguir interactuando con nuestro chat
GPT en local. Y esta es una herramienta
que ya conocíais, ya hemos visto en
otras ocasiones en el pasado, pero me
parece muy interesante cómo estas
herramientas y también los modelos del
lenguaje han seguido evolucionando,
pues, para brindarnos más y más
capacidades que podemos disfrutar en
nuestros equipos. Y algunas novedades
que tenemos respecto a lo que teníamos
en el pasado, pues es, por ejemplo, el
estar trabajando con modelos
razonadores, que como son open source,
pues podemos incluso entrar a consultar
cuáles son esas trazas de razonamiento
que han generado. Pues aquí vemos que el
modelo dice necesito responder en
español y ser supportive. Muy bien. Y
vemos también que el M Studio nos lo
pone muy sencillito a la hora de poder
seleccionar, por ejemplo, cuánto tiempo
de razonamiento queremos que esté
pensando el modelo. Si queremos
plantearle un problema, por ejemplo,
para la universidad, le estamos subiendo
problemas de matemáticas, problemas
científicos más complejos, ya sabéis que
tenemos que configurar estos modelos en
alta capacidad de razonamiento y esto
nos va a dar mejores resultados. Por
ejemplo, si estáis estudiando en la
carrera, pues el funcionamiento de las
redes neuronales artificiales, podéis
tener en vuestro equipo un modelo en
local al que hacerle todas las preguntas
sin necesidad de estar conectados en
internet. Y vemos que aquí el modelo se
pone a razonar, podemos ver todas las
traas de pensamiento, superinesante
también para depurar todos estos
modelos. La verdad que al que le gusta
un poquito todo lo que está pasando con
los LLMs, pues poder ejecutarla y
testearla en nuestros ordenadores, la
verdad que es una pasada. Y vemos que el
modelo pues hace una respuesta perfecta
con las fórmulas, muy bien maquetado en
este caso también por parte de LM
Studio, fórmulas que todos conocemos y
la verdad que es una aplicación bastante
guay, además con código muy completo.
Otras novedades que se incluyen en LM
Studio respecto a lo que vimos en el
pasado y que son muy interesantes son,
por ejemplo, la posibilidad de
conectarnos con MCP a otras
herramientas. Ya sabéis que ahora los
modelos del lenguaje pueden actuar
usando otras herramientas. Si por
ejemplo esta explicación que acabamos de
hacer de las redes neuronales queremos
volcarla dentro de Notion o queremos
volcarla dentro de Obsidian para tener
nuestros apuntes bien maquetados en
nuestro ordenador, podemos configurar un
servidor MCP de forma sencilla que a
partir de, bueno, de ese momento, el
modelo empezará a utilizar como una
herramienta más y por tanto haciendo
mucho más capaz lo que estos modelos
open source pueden hacer. Y otra novedad
muy útil que quiero comentar es la
posibilidad de adjuntar documentos, que
si recordáis en el pasado teníamos que
montarnos aquí un sistema superclejo
conectándonos con anything ll. Esto ya
queda atrás porque ahora el M Studio
incluye su propio sistema para cargar
documentos y hacer RAG. Y sobre esto
quiero comentaros un truquito. Y el
truquito es que si podéis evitéis usar
el RA de LM Studio porque no funciona
muy bien. La verdad que lo he estado
probando y no funciona tan bien como me
gustaría, sino que para mí lo que sería
ideal sería pues trabajar cómo
trabajamos con Chat GPT, que yo le subo
un PDF y le empiezo a hacer preguntas y
ya está. Y como digo, con RA no funciona
del todo bien porque ahí pues el modelo
lo único que está haciendo es buscar
según la query del usuario aquellas
partes del documento que puedan ser más
relevantes y no siempre lo hace bien.
Con lo cual vamos a intentar forzar que
el modelo de lenguaje vea el documento
entero. Y esto LM Studio lo puede hacer,
pero siempre y cuando el modelo tenga el
contexto suficiente, la ventana de
contexto suficiente para volcar ese
documento que tú le estás subiendo en su
ventana. Y claro, vemos que la ventana
de contexto que nos configura por
defecto el Mi Studio sobre este modelo
es de 4,000, pero si nosotros tenemos
pues más memoria RAM o V RAM, podemos
subir este valor para que pues eh sea
capaz de ver más tokens en su ventana de
contexto. Voy a ponerle, por ejemplo,
24,000 tokens, creo que va a ser
suficiente. Y con esto ahora sí, si yo
subo un documento, por ejemplo, aquí
tengo un paper que quiero subir. Pensad,
por ejemplo, que son los apuntes de
clase o algún documento para vuestra
empresa que no queréis mandar a
servidores de tercero, sino que queréis
analizar dentro de la comodidad y
privacidad de vuestros equipos. y le voy
a pedir que me haga un resumen de este
documento. Le vamos a dar a enter. Y
fijaos aquí que en este caso pues el
modelo parece que ha tirado de RA y nos
dice que no se han encontrado citas en
los archivos del usuario. Es decir, es
lo que os comentaba, el sistema RA
funciona bastante mal. Pero, ¿por qué no
ha funcionado? Bueno, porque no le he
dado a confirmar. Entonces, vamos a
aplicar los cambios y a recargar de
nuevo el modelo para que veáis la
diferencia de comportamiento. Volvemos a
subir el documento, borramos la
respuesta anterior y vamos a repetir el
mismo prompt. Le damos a generar de
nuevo respuesta y vamos a ver si la cosa
ahora cambia. Y fijaos que sí, ya nos
está indicando que la estrategia de
inyección ha cambiado a Inyect full
content, que es que va a cargar todo el
PDF en su ventana de contexto porque
ahora sí cabe. Y fijaos que esto ya ha
cambiado pues el comportamiento del
modelo. Ahora sí está encontrando esta
información. Vemos que ya está razonando
con toda esta información del paper y
rápidamente nos está haciendo un resumen
que podría ser supervalioso para
nosotros seguir aprendiendo de lo que
este paper nos quiere contar. Con lo
cual ya habéis aprendido cómo podés
cargar cualquier modelo del lenguaje
open source de estos que van saliendo
cada 2 tr semanas cada vez más capaces
en vuestros equipos con toda comodidad.
Y la cosa no se queda aquí porque no
solo trabajamos con texto, sino que ya
sabéis que con estos modelos también
podemos trabajar a nivel de código,
porque ya sabéis que también contamos
con muchos modelos open source que son
muy buenos, no solo generando texto,
sino generando pues código de
programación. Un ejemplo de modelo
bastante capaz sería el modelo
Quentrescoder de un tamaño de
30,000,000000 de parámetros que tenemos
disponible también para descargar dentro
de LM Studio y que vamos a configurar de
una forma un poquito diferente para que
veáis cómo conectarlo de forma sencilla
con otras herramientas como por ejemplo
cursor. En este caso tenemos diferentes
opciones cuantizadas del modelo que
podemos elegir para descargar y yo ya
tengo descargada pues esta versión de
aquí que de nuevo puedo empezar a
utilizar en una conversación. Pues por
ejemplo, le digo a Quencoder que me haga
una plantilla HTML como punto de partida
de mi portfolio. Le damos a ejecutar y
fijaos como en este caso pues Quencoder
sin ningún problema empieza a generarnos
el código muy bien maquetado dentro de
la herramienta, pero que ahora tendría
que copiar, llevármelo al entorno de
desarrollo que esté utilizando y se
puede hacer más cómodo. Y para hacerlo
tenemos que hacer dos cosas. La primera
venirnos a este apartado de aquí de
desarrollo donde vamos a configurar el M
Studio como un servidor. Al igual que
cuando tú usas herramientas de tercero
de empresas privadas, te conectas a sus
servidores para hacer uso de sus
modelos. También podemos configurar que
nuestro equipo se convierta en un
servidor que otras aplicaciones puedan
utilizar para poder hacer uso de los
modelos que estemos ejecutando open
source. Y esto se configura de forma muy
sencilla en esta pantalla. Simplemente
nos venimos al desplegable y elegimos el
modelo que queremos alojar, en este caso
el modelo Quentrescoder 30B. Lo
estaríamos cargando en memoria. Podéis
configurar aspectos como la ventana de
contexto, cuánto va a estar alojado en
la GPU para que su ejecución sea mucho
más rápida. Podéis configurar un montón
de parámetros y una vez lo tengamos, el
siguiente paso sería lanzar el servidor,
que simplemente lo hacemos clicando aquí
y ya estaría. Ya tendríamos nuestro
servidor lanzado. Así de sencillo. Y
ahora tendríamos que pasarnos a la
herramienta que queramos conectar. que
en este caso va a ser Cursor. Y Cursor
más o menos te permite conectarte con
modelos en local, aunque te exige hacer
algunos pasos un poco incómodos
técnicamente. Entonces, vamos a hacerlo
más sencillo trabajando con otra
herramienta que en este caso es Cine.
Nos vendremos en cursor o Visual Code o
el ID que estéis utilizando a su
marketplace y vamos a instalar esta
herramienta que va a ser la que nos
permita conectarnos directamente con el
M Studio. Una vez la tengamos tendremos
el icono por aquí. y podemos fijarlo
aquí arriba para poder entrar
fácilmente. Y esto nos va a desplegar un
menú lateral similar al que tenemos en
cursor, pero en este caso que podemos
configurar si venimos para acá para
seleccionar pues el proveedor de API,
pues ya sea Google Gemini, Open AI,
Antropic o incluso podemos ver por aquí
tenemos opciones como el M Studio.
Cuando le damos el M Studio ya
automáticamente nos va a permitir
seleccionar los modelos que tengamos
disponibles en el M Studio. En este caso
el modelo 30B que es el que estamos
sirviendo. Y con esto, chicos y chicas,
ya tendríamos configurado nuestro modelo
en cursor. Así de sencillo, donde como
si estuviéramos trabajando con cursor
winsurf, lo que sea, le podemos poner,
quiero desarrollar una web portfolio
para DCSV. Vamos a ver si el modelo en
local sabe quién soy yo. Y le digo,
empieza desarrollando una plantilla
inicial con un estilo moderno y oscuro.
Le damos a enter y fijaos que ahora se
está conectando a través de una conexión
API, pero que es directamente a nuestro
servidor en local. podría quitar la
conexión a internet y esto funcionaría
exactamente igual. Y ya vemos que el
modelo empieza a funcionar en modo
agente, que es como operan estos modelos
actualmente, ejecutando comandos,
desarrollando código y poco a poco
resolviendo la tarea que le hemos
puesto. Fijaos cómo empieza a generar
código. Ha creado el index html, va a
empezar a crear nuestro portfolio y para
que veáis que no hay trampa ni cartón,
vamos a quitar la conexión a internet.
Desactivo aquí la conexión y fijaos como
todo sigue funcionando perfectamente.
Imaginad, por ejemplo, que estáis ante
un vuelo de 10 horas y queréis estar
programando vuestros proyectos y en 2025
ya no vas a programar tú las cosas a
mano, sino que quieres utilizar estos
modelos. Pero es que en el avión no hay
conexión, no pasa nada, porque ahora
podemos utilizar los modelos en local en
portátiles como este, que la verdad me
parece una locura que eh todo esto se
esté ejecutando en un ordenador. No sé,
no entiendo nada, la verdad.
Y listo. En cuestión de un minuto nos ha
hecho la tarea que le hemos planteado.
Nos dice tarea completada y además nos
da el comando para lanzar la web. Y si
abrimos la página web nos encontramos
pues un portfolio como este, ¿vale? Un
portfolio donde yo puedo colocar mis
proyectos. es la plantilla inicial que
le hemos pedido, muy sencillita, pero
con la que ahora podríamos empezar a
trabajar, desarrollar con el modelo
ejecutándose en el M Studio a través de
un servidor. Sin embargo, si lo que
queréis es aprovechar la generativa de
generación de imágenes, vídeo, audio y
tener un control absoluto, para eso
tenemos que cambiar de herramienta, para
trabajar con la gran, con la
consolidada, con la madre de todas las
herramientas de generativa con Confi UI,
herramienta que nos vamos a descargar y
vamos a empezar a instalar. Descargamos
la versión de Windows, la instalamos y
empezamos la configuración. Y lo primero
que nos van a preguntar es si nuestro
setup cuenta con una tarjeta gráfica de
Nvidia con KUDA instalado, que como ya
hemos dicho, pues es fundamental para
poder ejecutar todos estos modelos, pues
que no dure la ejecución horas, sino que
podamos ejecutarlo en minutos. Le damos
a siguiente, siguiente, instalar y
dejamos que todo se instale. Y Carlos,
¿qué es Confi UI? Bueno, para el que no
lo conozca, Confi UI es una forma de
ejecutar modelos open source,
típicamente modelos de IA generativa en
esta interfaz de conexión de nodos, que
lo que representan son pues las
diferentes etapas que se ejecutan cuando
ejecutamos estos modelos normalmente con
código. Claro, esta forma de conectar
las diferentes etapas de la ejecución,
pues por una parte te da un control
absoluto sobre qué puedes hacer con
estos modelos y además te va a permitir
hibridar diferentes herramientas open
source para crear flujos de trabajo
incluso más avanzados de lo que muchas
empresas privadas muchas veces nos
ofrecen. Pero es cierto que saber cómo
conectar todos estos nodos, estas
herramientas, saber que hace el Campler,
pues es algo bastante complejo para
muchos, pero la buena noticia es que
mucha parte de la comunidad comparten
sus workflows que vosotros podéis
descargar y empezar a utilizarlo sin
tener que tocar muchas cosas. Y por eso
cuando entramos en Conf UI, pues lo
primero que nos presentan es, oye,
comienza con una de estas plantillas,
con uno de estos workflows y empieza a
pasártelo bien. Y entonces tenemos aquí
un montón de modelos de imagen, de
vídeo, de audio, de 3D. Tenemos un
montón de cosas que podemos aprovechar y
hoy quería pues que trabajáramos con el
modelo Quen Edit, que es un modelo open
source increíble para edición de
imágenes que nos ofrece pues muy
parecido a lo que nos ofrece modelos
como Nano Banana. Así que vamos a
buscarlo. Fijaos, tenéis modelos de
generación de imágenes, de loras, de out
painting, de apps scalers y si bajamos
por aquí, pues tenemos el modelo Quen
Image Edit. Y al clicarlo, pues nos mete
al lío y nos abre esta ventana de aquí,
que lo que nos está diciendo es que muy
bien que tú quieres usar el modelo, pero
que antes te tienes que descargar pues
los modelos necesarios para ejecutar
este workflow. Y nos lo pone muy
sencillo porque es simplemente clicar
aquí, clicar aquí, clicar aquí, clicar
aquí y esperar a que se ejecute la
descarga. Y una vez tenemos los modelos
descargados, pues casi casi estaría.
Todavía nos queda hacer un par de
pasitos más y el primero que tendréis
que hacer si tenéis una nueva
instalación de Conf UI es instalaros
este menú de aquí que es el nodo del
manager. Y lo que tendréis que hacer
será acceder al GitHub de Conf UI
Manager, que es esta herramienta de
aquí, y simplemente pues descargar el
contenido de este repositorio. Podéis
descargarlo con el comando en la ruta
que nos indican aquí, que es simplemente
confui customes. Una vez lo hagáis,
reiniciáis, confui y ya vais a tener
este menú superior que es muy
importante. Y es muy importante porque
seguramente cuando accedáis a este
workflow os aparezcan muchos errores de
nodos que no han sido encontrados, nodos
necesarios que tendréis que instalar uno
a uno haciendo lo que acabamos de hacer
y que podemos simplificarlo bastante si
venís directamente a la opción de
manager y clicar aquí, que es para
instalar todos esos nodos que están
faltando. Una vez le deis, pues va a
aparecer aquí un listado. Iréis clicando
en los que os falten, instalar,
instalar, instalar. Y una vez lo tengáis
instalado, pues reiniciaremos con Fui y
ahora sí estaremos listos para empezar a
trabajar. Y como digo, cada workflow
pues puede ser muy intimidante, pero la
comunidad se suele ocupar bastante de eh
dejar bastante bien explicado cómo
funciona. Entonces, tenemos que ir
fijándonos en cada caso pues de las
instrucciones y los pasos que nos vayan
indicando. Por lo general todo va a
estar configurado por defecto para poder
funcionar, pero sí, por ejemplo, hay
cosas como, "Oye, ¿qué imagen quieres
editar?" Pues que tendremos que
configurar nosotros. En este caso, este
es el nodo para cargar una imagen. Pues
vamos a cargar una imagen como esta, una
imagen de un gatete que he sacado de
internet y que vamos a colocar aquí. Lo
siguiente que nos dicen que tenemos que
configurar es el prompt, que en este
caso pues ya viene por defecto.
Sustituye al gato con un dálmata, pero
tú aquí puedes ser todo lo creativo que
quieras. Oye, convierte esta imagen de
día a noche o pone el gato prendido a
fuego, lo que queráis. Y ya con esto, al
menos por este workflow, no tenemos que
configurar nada más. con lo cual lo
siguiente que vamos a hacer será
ejecutarlo. Clicamos en el botón de aquí
y si todo está perfectamente
configurado, vais a ver cómo se empiezan
a iluminar en verde cada uno de estos
nodos según la ejecución se va
produciendo. Y bueno, pues cuando esté
listo deberíamos de ver nuestro
resultado final aquí. Y tras unos
minutillos pues tenemos este resultado
que, perdón, es bastante
espectacular. Fijaos, ha cambiado
perfectamente al gato que teníamos por
un matar, manteniendo la consistencia
del resto de la imagen. Y todo esto,
amigos y amigas, ejecutado en local.
Oye, ¿y si la imagen que subo es la de
mi cara? Y en este caso vamos a cambiar
el prompt y le vamos a pedir pues que
baje la iluminación de la imagen como si
estuvieran las luces apagadas y que me
ponga una antorcha eh con fuego en la
cabeza iluminando la escena. Vamos a ver
si el modelo Quen Edit es capaz de hacer
esta edición. Le damos a ejecutar y
esperamos para tener este resultado.
Dios, qué miedo. Vale, pues lo ha hecho.
Vale, nos ha puesto el fuego en la
cabeza y nos ha iluminado los ojos y
esta imagen, pues además de molar mucho,
nos va a servir como punto de partida
para nuestro siguiente tutorial, porque
ahora vamos a trabajar con vídeo.
Fijaos, nos venimos de nuevo a Templates
y vamos a seleccionar la pestaña de
vídeo, donde de nuevo tenéis un montón
de workflows creados por la comunidad
que se van a conectar a modelos open
source cada vez más impresionantes. Y en
este caso vamos a trabajar con la
familia de modelos One 2.2. Y aunque no
hemos hablado en profundidad de ello en
este canal, la familia de modelos One ha
sido durante este último año la mejor
opción open source para generación de
vídeo en local, con resultados que,
bueno, originalmente no eran tan buenos,
pero que con cada actualización de este
modelo y con la actualización de sus
capacidades, como suele ocurrir con los
modelos open source, pues nos ha dejado
a finales de 2025 con una herramienta de
generación y edición de vídeo que aporta
unos resultados impresionantes. Y en
concreto, si bien tenemos la opción de
generar texto a vídeo o imagen a vídeo,
yo os voy a recomendar que probéis la
herramienta de animar vídeos. Así que
clicamos el workflow, dejamos que de
nuevo nos diga todos los modelos que
tenemos que descargar. Empezamos a
descargar modelos, descargamos,
descargamos y este sí va a ser un modelo
exigente que te va a requerir de, por
supuesto, una tarjeta gráfica de Nvidia
para hacer esta inferencia mucho más
rápido, pero también de suficiente V RAM
para poder ejecutar estos modelos. En
este caso, este portátil, por ligero que
parezca, tiene 24 GB de V RAM, lo cual
es una salvajada y creo que va a ser
suficiente para poder hacer unos cuantos
experimentos. Y una vez lo tengamos,
vamos a encontrarnos con otro sistema de
nodos. Madre mía, qué cosa más
intimidante. No os preocupéis porque os
voy a llevar paso a paso a cómo ejecutar
este modelo que no es tan complicado. Lo
primero que tenemos que hacer, pues será
tener los modelos descargados, que ya lo
hemos hecho, y lo siguiente va a ser
venirnos a este paso de aquí, donde
vamos a cargar el vídeo que queremos
utilizar como referencia para manipular
el vídeo final. Y yo voy a cargar este
vídeo de aquí donde estoy delante de la
cámara moviendo la cabeza, haciendo
diferentes gestos y que como habéis
visto es de donde he sacado el fotograma
que hemos editado anteriormente. Este
vídeo va a ser el vídeo de referencia
que va a guiar el movimiento del vídeo
final. Y esta imagen de aquí va a ser la
que nosotros utilicemos como referencia
para manipular, es decir, vamos a
trasladar el movimiento de este vídeo a
esta imagen de aquí. Para evitar tiempos
largos de ejecución y problemas con
falta de memoria, os voy a recomendar
que bajéis el tamaño de el vídeo final,
que en este caso lo podemos ajustar aquí
en ancho y altura, y donde, como nos
indica esta nota de aquí abajo, pues
tenemos que ponerlo en relación a
múltiplos de 16. Estos son cositas de
cómo funcionan los modelos, así que
vamos a tener que hacer un cálculo
porque fijaos que yo pues mi vídeo tiene
esta dimensioneta aquí. Yo he comprobado
que esto ya son múltiplos de 16, o sea,
que puedo dividir sin problema el
tamaño. Y yo, en mi caso, voy a hacer
una división entre dos, ¿vale? Voy a
bajar esta cifra a una resolución de la
mitad. Hago los cálculos perfectamente
de cabeza. A ver, ¿cuánto era, sí? Eh,
384. Madre mía, qué genio matemático
soy. Ni GPT5. Vale, ya tenemos cargada
el vídeo de referencia, la imagen y
tenemos también eh el ancho y el alto
que queremos. El siguiente paso similar
a como hemos hecho antes será escribir
un prompt que sirva un poco de
referencia al modelo de lo que estamos
haciendo. No hay que complicarse mucho,
pero sí le podemos indicar que es una
persona frente a una cámara con el pelo
prendido fuego. Pues se lo escribimos
sin más complicación y casi casi ya lo
tendríamos. Una cosa que tenéis que
saber es que este modelo tiene dos
formas de actuar. La que viene por
defecto es cogiendo este vídeo original
y reemplazando la persona. Es decir, si
yo, por ejemplo, pongo esta imagen de
referencia, lo que va a ser el modelo va
a ser recortarme a mí y poner pues a
esta persona y seguramente veamos que el
fondo se va a quedar blanco y que, por
ejemplo, el efecto del fuego no va a
aparecer porque realmente ese fuego
queda fuera de la máscara de mi persona.
Eso me pasó, por ejemplo, con este
ejemplo de aquí, donde estaba intentando
colocarme una peluca de payaso y por lo
que sea el modelo no lo hacía y era
porque estaba haciendo el recorte de mi
persona. Entonces, si de repente en
vuestra imagen de referencia hay algo
que se vaya a salir del marco de la
máscara que el modelo va a generar
automáticamente, yo lo que os recomiendo
es que vengáis a este módulo de aquí, a
Chrow Mask, y que expandáis la máscara,
pues 50 píxeles, 100 píxeles, lo que
necesitéis para que esa máscara pues le
permita al modelo tener más libertad
para generar lo que necesite.
Igualmente, si vais a trabajar con
máscara, tenemos que hacer un paso
extra, que es este de aquí, que es guiar
un poco al modelo indicándole quién eres
tú y cuál es el fondo y cómo se
diferencia. Y para poder trabajarlo,
pues necesitamos primero hacer una
primera ejecución que no vamos a hacer
hasta el final, simplemente hasta que se
actualice este nodo con la imagen de
nuestro vídeo. Ahí estaría. Cancelamos
la ejecución y ahora ya tenemos cargada
nuestra imagen donde simplemente pues
este nodo nos permite colocar los puntos
que va a marcar pues dónde está la
persona y dónde está el fondo, ¿vale?
Con el botón derecho izquierdo y con la
tecla shift podemos hacer esta
configuración. Con esto ya le hemos
dicho el modelo. Este es Carlos. Este es
el fondo. Sustitúyelo y a ver qué sale.
Y tras unos minutos, el resultado que
obtenemos es este de aquí, que como ya
esperábamos, pues es raro porque el
modelo ha intentado mezclar pues tanto
el fondo blanco con la cara oscura, no
he entendido cómo integrar esta
información y bueno, vemos que el
resultado es muy raro, no es exactamente
lo que estábamos buscando, así que vamos
a hacerlo mejor. El problema, como os
comentaba, viene del hecho de querer
enmascarar y simplemente reemplazar
estas partes de aquí, que esto vendría
útil si lo que queréis es sustituir a la
persona en un vídeo que vosotros
tengáis, pues a lo mejor una persona que
está caminando por la calle, queréis
reemplazarla con otro personaje o en
vuestra casa, podéis hacerlo con la
configuración actual, pero en mi caso,
lo que queremos es tener toda esta
imagen, toda esta imagen al completo en
el vídeo final. Y para hacer eso no
tenemos que hacer muchas cosas muy
complicadas, simplemente tenemos que
quitar este enlace de aquí, lo quitamos
y este enlace de aquí. Hemos quitado la
conexión de enmascaramiento del fondo y
enmascaramiento del personaje. Si ahora
volvemos a ejecutar nuestro prompt, el
resultado que obtenemos es el siguiente.
Y ahora sí podéis comprobar que tenemos
un resultado que se ve espectacular.
Ahora sí tenemos toda la imagen bien
animada y la verdad que es increíble
como eh este modelo de generación de
vídeo pues es capaz de entender que el
fuego de la cabeza pues tiene que tener
la animación del fuego o que por ejemplo
si lo que usamos es una imagen de una
chica con risos, los rizos se tienen que
mover con ciertas físicas o con un perro
pues la lengua se tiene que mover con
estas físicas. La verdad que lo que
logra este modelo en capacidad de
animación no lo hemos visto ni siquiera
en modelos privados como los que podría
ofrecer empresas como Rangway con su
modelo AL. Y todo esto partiendo de una
única imagen que no tiene que ser ni
siquiera el fotograma inicial. Podéis
cualquier fotograma de cualquier
parte del vídeo, utilizar nuestro
workflow en Confi para usar este modelo
de edición de imágenes en local. Y
chicos, chicas, ya lo habéis visto,
hemos trabajado con texto, con código,
con imágenes, con vídeo y le hemos dado
superpereres a un portátil para poder
ejecutar esta inteligencia artificial en
local, sin necesidad de gastar, sin
necesidad de mandar nuestros datos a
empresas de tercero y aprovechándonos de
las bondades de todos estos modelos que
semana tras semana no paran de salir.
Estos son los modelos que hemos testeado
hoy, pero este vídeo sirve sobre todo
para conocer herramientas como LM
Studio, como Conf UI y para quitaros
pues esa barrera mental de que esto es
muy complicado y realmente no es así.
Tenéis todo esto a la alcanza de
vuestras manos. Hay canales en YouTube
fantásticos dedicados a hablar de Confi
UI, a enseñaros cómo usar estos modelos
a usar el M Studio. Así que aprovechad
todas estas ventajas y si tenéis un
portátil o un equipo potenciado con una
tarjeta gráfica de Nvidia, pues sacadle
partido. Muchas gracias a Nvidia por
patrocinar este vídeo, por permitirme
traeros pues toda esta tecnología open
source y si os ha gustado compartidlo,
apoyadlo para saber que este tipo de
contenidos os gusta. Os dejo por aquí un
par de vídeos que podéis ojear y chicos,
chicas, nos vemos con más actualidad y
con más tutoriales aquí en DCSVLAP y con
toda la información de cómo está
avanzando la inteligencia artificial en
el canal principal en DCSV. Nos vemos en
el próximo vídeo.
Loading video analysis...