LongCut logo

EJECUTA IA en LOCAL GRATIS 👉 ¡Genera Código, Vídeo, Imágenes y Texto!

By Dot CSV Lab

Summary

## Key takeaways - **Run AI Locally: Text, Code, Images, Video**: You can execute advanced AI models for text, code, image, and video generation directly on your computer, avoiding third-party services and costs. [00:05], [01:03] - **LM Studio: Effortless Local LLM Deployment**: LM Studio simplifies downloading, configuring, and running open-source language models like GPT-OSS 20B, offering a familiar chat interface and fast token generation speeds. [01:57], [04:21] - **Advanced Code Generation with Local Models**: Utilize models like Quentrescoder (30B parameters) locally and integrate them with IDEs like Cursor via an MPC server for seamless code generation without an internet connection. [09:38], [12:46] - **ComfyUI for Creative Control in Media Generation**: ComfyUI's node-based interface provides granular control for image and video editing, allowing for complex workflows and hybridization of open-source tools like the Quen Image Edit model. [14:13], [18:57] - **Local Video Animation with One 2.2 Models**: The One 2.2 model family, executable locally via ComfyUI, enables impressive video animation from a single image, offering more control than some private models. [19:48], [25:36]

Topics Covered

  • Run advanced AI models locally for free.
  • Open source video generation rivals private models.
  • LM Studio simplifies local AI model deployment.
  • Local RAG requires careful context window management.
  • ComfyUI offers granular control over generative AI.

Full Transcript

Hoy os traigo uno de estos vídeos que sé

que os gusta, donde vamos a estar

trabajando, sí, con inteligencia

artificial, pero ejecutada en nuestros

ordenadores. inteligencia artificial en

local, con la que vamos a trabajar con

nuestros textos y documentos, como si

tuviéramos nuestro propio chat GPT,

donde conectaremos los modelos más

avanzados de programación open source

con herramientas como cursor para poder

programar con todas sus funcionalidades,

pero sin gastar 1 € y os enseñaré

también cómo podéis ejecutar en vuestro

equipo un modelo tipo nanobanana para

editar imágenes completamente en local

con unos resultados que son asombrosos.

Y el plato fuerte para el final. Si sois

de los que creéis que los modelos open

source están por detrás de los modelos

privados, pues hoy os voy a enseñar cómo

trabajar con modelos de vídeo como One

2.2, que para ciertas ediciones de vídeo

concretas y donde vais a tener mucho más

control que con otras herramientas, a

día de hoy es de las que mejores

resultados están ofreciendo, texto,

código, imagen y vídeo, que como digo,

va a estar todo ejecutado en nuestro

ordenador. En este caso, este vídeo pues

está patrocinado por Nvidia, quien es la

que me ha mandado este portátil para que

hagamos todos los experimentos, todas

las pruebas dentro de este ordenador. Un

ordenador que, no os dejéis engañar,

tiene en su interior una tarjeta RTX

5090 de Nvidia. Ya sabéis que contar con

una tarjeta gráfica de Nvidia es

indispensable para poder ejecutar todos

estos modelos de inteligencia artificial

de forma eficiente, de forma rápida. Y

muchas veces pensamos que estas tarjetas

tienen que estar en ordenadores enormes,

superpesados, pero como podéis ver

también podemos contar con GPUs

superpotentes dentro de estos portátiles

que van a permitir que si eres

estudiante, si eres un profesional, pues

puedas aprovecharte de toda esta

potencia de la inteligencia artificial

con la portabilidad de un equipo como

sería un portátil. Y os lo voy a

demostrar. Vamos a empezar a jugar con

nuestro portátil con nuestra

y a ver qué podemos hacer. Y la primera

herramienta con la que vamos a trabajar

ya es una vieja conocida del canal y es

LM Studio, que para mí es de las mejores

suits para poder descargar modelos del

lenguaje que podremos instalar,

configurar y empezar a utilizar en

cuestión de minutos. Por ejemplo,

sabemos que este verano Open AI presentó

su modelo open source GPT OSS en dos

versiones, una de 120,000 millones de

parámetros que es muy grande, y una

versión más reducida, que sí podemos

ejecutar bien en nuestros ordenadores.

Una versión de 20,000 millones de

parámetros, que es la que tenemos aquí.

¿Cómo podemos utilizarlo? ¿Cómo podemos

empezar a trabajar con este modelo que

tan altruistamente estos laboratorios

nos están ofreciendo? Pues la mejor

forma de trabajar es con LM Studio, que

como digo, nos va a permitir buscar

dentro de todo su catálogo de modelos,

pues los últimos modelos que se hayan

publicado. En este caso, pues queremos

buscar GPT o SS, que ya no es un modelo

nuevo, pero es el modelo que queremos

utilizar. Buscamos aquí el nombre y

efectivamente nos aparece pues este

modelo. Además tenemos modelos

disponibles de hag face, lo vemos por el

emoji. Tenemos también en morado modelos

seleccionados por la propia aplicación,

recomendados por ellos. Y en este caso,

pues tenemos el modelo GPT OS20B que

directamente podemos descargar. Aquí

tenemos la posibilidad, según el modelo

que estemos eligiendo, de clicar en show

all options para ver todas las opciones

cuantificadas de estos modelos, donde ya

sabéis que podemos pues reducir su

tamaño restándole un poco de capacidad y

podéis buscar aquella opción que mejor

se ajuste al hardware que tengáis

disponible en este momento. En el caso

del modelo de Open AI, pues solamente

hay una única versión, así que va a ser

la que vamos a descargar. Yo en mi caso

ya la tengo descargada, así que ya esto

me permite, en este caso este botón me

dice utilizar en un nuevo chat. Clicamos

y automáticamente LM Studio se está

encargando de configurar, de lanzar este

modelo y de ponérmelo en disposición

para empezar a trabajar con él. Desde ya

clicamos aquí en crear nuevo chat y ya

tenemos una interfaz s super parecida lo

que sería trabajar con Chat GPT, con

Gemini, con Cloud, pues una interfaz

tipo chat. Y podemos escribir, "Hola,

¿qué tal?" Y el modelo pues debería de

respondernos generando tokens. Y fijaos

que en este caso estos no son tokens de

haber llamado un servicio de terceros a

una API, sino que esto ha sido generado

en el corazón de este portátil con estas

GPUs y es impresionante. Hola, ¿todo

bien por aquí? ¿Qué onda contigo?

Tenemos el modelo respondiendo y fijaos,

una generación que ha sido a 157 tokens

por segundo, la verdad que bastante

rápido. Y podemos seguir hablando con

él. Le puedo decir, "Estoy probando la

bondades de ejecutar modelos del

lenguaje en local." Y de nuevo

respuestas rapidísimas donde podemos

seguir interactuando con nuestro chat

GPT en local. Y esta es una herramienta

que ya conocíais, ya hemos visto en

otras ocasiones en el pasado, pero me

parece muy interesante cómo estas

herramientas y también los modelos del

lenguaje han seguido evolucionando,

pues, para brindarnos más y más

capacidades que podemos disfrutar en

nuestros equipos. Y algunas novedades

que tenemos respecto a lo que teníamos

en el pasado, pues es, por ejemplo, el

estar trabajando con modelos

razonadores, que como son open source,

pues podemos incluso entrar a consultar

cuáles son esas trazas de razonamiento

que han generado. Pues aquí vemos que el

modelo dice necesito responder en

español y ser supportive. Muy bien. Y

vemos también que el M Studio nos lo

pone muy sencillito a la hora de poder

seleccionar, por ejemplo, cuánto tiempo

de razonamiento queremos que esté

pensando el modelo. Si queremos

plantearle un problema, por ejemplo,

para la universidad, le estamos subiendo

problemas de matemáticas, problemas

científicos más complejos, ya sabéis que

tenemos que configurar estos modelos en

alta capacidad de razonamiento y esto

nos va a dar mejores resultados. Por

ejemplo, si estáis estudiando en la

carrera, pues el funcionamiento de las

redes neuronales artificiales, podéis

tener en vuestro equipo un modelo en

local al que hacerle todas las preguntas

sin necesidad de estar conectados en

internet. Y vemos que aquí el modelo se

pone a razonar, podemos ver todas las

traas de pensamiento, superinesante

también para depurar todos estos

modelos. La verdad que al que le gusta

un poquito todo lo que está pasando con

los LLMs, pues poder ejecutarla y

testearla en nuestros ordenadores, la

verdad que es una pasada. Y vemos que el

modelo pues hace una respuesta perfecta

con las fórmulas, muy bien maquetado en

este caso también por parte de LM

Studio, fórmulas que todos conocemos y

la verdad que es una aplicación bastante

guay, además con código muy completo.

Otras novedades que se incluyen en LM

Studio respecto a lo que vimos en el

pasado y que son muy interesantes son,

por ejemplo, la posibilidad de

conectarnos con MCP a otras

herramientas. Ya sabéis que ahora los

modelos del lenguaje pueden actuar

usando otras herramientas. Si por

ejemplo esta explicación que acabamos de

hacer de las redes neuronales queremos

volcarla dentro de Notion o queremos

volcarla dentro de Obsidian para tener

nuestros apuntes bien maquetados en

nuestro ordenador, podemos configurar un

servidor MCP de forma sencilla que a

partir de, bueno, de ese momento, el

modelo empezará a utilizar como una

herramienta más y por tanto haciendo

mucho más capaz lo que estos modelos

open source pueden hacer. Y otra novedad

muy útil que quiero comentar es la

posibilidad de adjuntar documentos, que

si recordáis en el pasado teníamos que

montarnos aquí un sistema superclejo

conectándonos con anything ll. Esto ya

queda atrás porque ahora el M Studio

incluye su propio sistema para cargar

documentos y hacer RAG. Y sobre esto

quiero comentaros un truquito. Y el

truquito es que si podéis evitéis usar

el RA de LM Studio porque no funciona

muy bien. La verdad que lo he estado

probando y no funciona tan bien como me

gustaría, sino que para mí lo que sería

ideal sería pues trabajar cómo

trabajamos con Chat GPT, que yo le subo

un PDF y le empiezo a hacer preguntas y

ya está. Y como digo, con RA no funciona

del todo bien porque ahí pues el modelo

lo único que está haciendo es buscar

según la query del usuario aquellas

partes del documento que puedan ser más

relevantes y no siempre lo hace bien.

Con lo cual vamos a intentar forzar que

el modelo de lenguaje vea el documento

entero. Y esto LM Studio lo puede hacer,

pero siempre y cuando el modelo tenga el

contexto suficiente, la ventana de

contexto suficiente para volcar ese

documento que tú le estás subiendo en su

ventana. Y claro, vemos que la ventana

de contexto que nos configura por

defecto el Mi Studio sobre este modelo

es de 4,000, pero si nosotros tenemos

pues más memoria RAM o V RAM, podemos

subir este valor para que pues eh sea

capaz de ver más tokens en su ventana de

contexto. Voy a ponerle, por ejemplo,

24,000 tokens, creo que va a ser

suficiente. Y con esto ahora sí, si yo

subo un documento, por ejemplo, aquí

tengo un paper que quiero subir. Pensad,

por ejemplo, que son los apuntes de

clase o algún documento para vuestra

empresa que no queréis mandar a

servidores de tercero, sino que queréis

analizar dentro de la comodidad y

privacidad de vuestros equipos. y le voy

a pedir que me haga un resumen de este

documento. Le vamos a dar a enter. Y

fijaos aquí que en este caso pues el

modelo parece que ha tirado de RA y nos

dice que no se han encontrado citas en

los archivos del usuario. Es decir, es

lo que os comentaba, el sistema RA

funciona bastante mal. Pero, ¿por qué no

ha funcionado? Bueno, porque no le he

dado a confirmar. Entonces, vamos a

aplicar los cambios y a recargar de

nuevo el modelo para que veáis la

diferencia de comportamiento. Volvemos a

subir el documento, borramos la

respuesta anterior y vamos a repetir el

mismo prompt. Le damos a generar de

nuevo respuesta y vamos a ver si la cosa

ahora cambia. Y fijaos que sí, ya nos

está indicando que la estrategia de

inyección ha cambiado a Inyect full

content, que es que va a cargar todo el

PDF en su ventana de contexto porque

ahora sí cabe. Y fijaos que esto ya ha

cambiado pues el comportamiento del

modelo. Ahora sí está encontrando esta

información. Vemos que ya está razonando

con toda esta información del paper y

rápidamente nos está haciendo un resumen

que podría ser supervalioso para

nosotros seguir aprendiendo de lo que

este paper nos quiere contar. Con lo

cual ya habéis aprendido cómo podés

cargar cualquier modelo del lenguaje

open source de estos que van saliendo

cada 2 tr semanas cada vez más capaces

en vuestros equipos con toda comodidad.

Y la cosa no se queda aquí porque no

solo trabajamos con texto, sino que ya

sabéis que con estos modelos también

podemos trabajar a nivel de código,

porque ya sabéis que también contamos

con muchos modelos open source que son

muy buenos, no solo generando texto,

sino generando pues código de

programación. Un ejemplo de modelo

bastante capaz sería el modelo

Quentrescoder de un tamaño de

30,000,000000 de parámetros que tenemos

disponible también para descargar dentro

de LM Studio y que vamos a configurar de

una forma un poquito diferente para que

veáis cómo conectarlo de forma sencilla

con otras herramientas como por ejemplo

cursor. En este caso tenemos diferentes

opciones cuantizadas del modelo que

podemos elegir para descargar y yo ya

tengo descargada pues esta versión de

aquí que de nuevo puedo empezar a

utilizar en una conversación. Pues por

ejemplo, le digo a Quencoder que me haga

una plantilla HTML como punto de partida

de mi portfolio. Le damos a ejecutar y

fijaos como en este caso pues Quencoder

sin ningún problema empieza a generarnos

el código muy bien maquetado dentro de

la herramienta, pero que ahora tendría

que copiar, llevármelo al entorno de

desarrollo que esté utilizando y se

puede hacer más cómodo. Y para hacerlo

tenemos que hacer dos cosas. La primera

venirnos a este apartado de aquí de

desarrollo donde vamos a configurar el M

Studio como un servidor. Al igual que

cuando tú usas herramientas de tercero

de empresas privadas, te conectas a sus

servidores para hacer uso de sus

modelos. También podemos configurar que

nuestro equipo se convierta en un

servidor que otras aplicaciones puedan

utilizar para poder hacer uso de los

modelos que estemos ejecutando open

source. Y esto se configura de forma muy

sencilla en esta pantalla. Simplemente

nos venimos al desplegable y elegimos el

modelo que queremos alojar, en este caso

el modelo Quentrescoder 30B. Lo

estaríamos cargando en memoria. Podéis

configurar aspectos como la ventana de

contexto, cuánto va a estar alojado en

la GPU para que su ejecución sea mucho

más rápida. Podéis configurar un montón

de parámetros y una vez lo tengamos, el

siguiente paso sería lanzar el servidor,

que simplemente lo hacemos clicando aquí

y ya estaría. Ya tendríamos nuestro

servidor lanzado. Así de sencillo. Y

ahora tendríamos que pasarnos a la

herramienta que queramos conectar. que

en este caso va a ser Cursor. Y Cursor

más o menos te permite conectarte con

modelos en local, aunque te exige hacer

algunos pasos un poco incómodos

técnicamente. Entonces, vamos a hacerlo

más sencillo trabajando con otra

herramienta que en este caso es Cine.

Nos vendremos en cursor o Visual Code o

el ID que estéis utilizando a su

marketplace y vamos a instalar esta

herramienta que va a ser la que nos

permita conectarnos directamente con el

M Studio. Una vez la tengamos tendremos

el icono por aquí. y podemos fijarlo

aquí arriba para poder entrar

fácilmente. Y esto nos va a desplegar un

menú lateral similar al que tenemos en

cursor, pero en este caso que podemos

configurar si venimos para acá para

seleccionar pues el proveedor de API,

pues ya sea Google Gemini, Open AI,

Antropic o incluso podemos ver por aquí

tenemos opciones como el M Studio.

Cuando le damos el M Studio ya

automáticamente nos va a permitir

seleccionar los modelos que tengamos

disponibles en el M Studio. En este caso

el modelo 30B que es el que estamos

sirviendo. Y con esto, chicos y chicas,

ya tendríamos configurado nuestro modelo

en cursor. Así de sencillo, donde como

si estuviéramos trabajando con cursor

winsurf, lo que sea, le podemos poner,

quiero desarrollar una web portfolio

para DCSV. Vamos a ver si el modelo en

local sabe quién soy yo. Y le digo,

empieza desarrollando una plantilla

inicial con un estilo moderno y oscuro.

Le damos a enter y fijaos que ahora se

está conectando a través de una conexión

API, pero que es directamente a nuestro

servidor en local. podría quitar la

conexión a internet y esto funcionaría

exactamente igual. Y ya vemos que el

modelo empieza a funcionar en modo

agente, que es como operan estos modelos

actualmente, ejecutando comandos,

desarrollando código y poco a poco

resolviendo la tarea que le hemos

puesto. Fijaos cómo empieza a generar

código. Ha creado el index html, va a

empezar a crear nuestro portfolio y para

que veáis que no hay trampa ni cartón,

vamos a quitar la conexión a internet.

Desactivo aquí la conexión y fijaos como

todo sigue funcionando perfectamente.

Imaginad, por ejemplo, que estáis ante

un vuelo de 10 horas y queréis estar

programando vuestros proyectos y en 2025

ya no vas a programar tú las cosas a

mano, sino que quieres utilizar estos

modelos. Pero es que en el avión no hay

conexión, no pasa nada, porque ahora

podemos utilizar los modelos en local en

portátiles como este, que la verdad me

parece una locura que eh todo esto se

esté ejecutando en un ordenador. No sé,

no entiendo nada, la verdad.

Y listo. En cuestión de un minuto nos ha

hecho la tarea que le hemos planteado.

Nos dice tarea completada y además nos

da el comando para lanzar la web. Y si

abrimos la página web nos encontramos

pues un portfolio como este, ¿vale? Un

portfolio donde yo puedo colocar mis

proyectos. es la plantilla inicial que

le hemos pedido, muy sencillita, pero

con la que ahora podríamos empezar a

trabajar, desarrollar con el modelo

ejecutándose en el M Studio a través de

un servidor. Sin embargo, si lo que

queréis es aprovechar la generativa de

generación de imágenes, vídeo, audio y

tener un control absoluto, para eso

tenemos que cambiar de herramienta, para

trabajar con la gran, con la

consolidada, con la madre de todas las

herramientas de generativa con Confi UI,

herramienta que nos vamos a descargar y

vamos a empezar a instalar. Descargamos

la versión de Windows, la instalamos y

empezamos la configuración. Y lo primero

que nos van a preguntar es si nuestro

setup cuenta con una tarjeta gráfica de

Nvidia con KUDA instalado, que como ya

hemos dicho, pues es fundamental para

poder ejecutar todos estos modelos, pues

que no dure la ejecución horas, sino que

podamos ejecutarlo en minutos. Le damos

a siguiente, siguiente, instalar y

dejamos que todo se instale. Y Carlos,

¿qué es Confi UI? Bueno, para el que no

lo conozca, Confi UI es una forma de

ejecutar modelos open source,

típicamente modelos de IA generativa en

esta interfaz de conexión de nodos, que

lo que representan son pues las

diferentes etapas que se ejecutan cuando

ejecutamos estos modelos normalmente con

código. Claro, esta forma de conectar

las diferentes etapas de la ejecución,

pues por una parte te da un control

absoluto sobre qué puedes hacer con

estos modelos y además te va a permitir

hibridar diferentes herramientas open

source para crear flujos de trabajo

incluso más avanzados de lo que muchas

empresas privadas muchas veces nos

ofrecen. Pero es cierto que saber cómo

conectar todos estos nodos, estas

herramientas, saber que hace el Campler,

pues es algo bastante complejo para

muchos, pero la buena noticia es que

mucha parte de la comunidad comparten

sus workflows que vosotros podéis

descargar y empezar a utilizarlo sin

tener que tocar muchas cosas. Y por eso

cuando entramos en Conf UI, pues lo

primero que nos presentan es, oye,

comienza con una de estas plantillas,

con uno de estos workflows y empieza a

pasártelo bien. Y entonces tenemos aquí

un montón de modelos de imagen, de

vídeo, de audio, de 3D. Tenemos un

montón de cosas que podemos aprovechar y

hoy quería pues que trabajáramos con el

modelo Quen Edit, que es un modelo open

source increíble para edición de

imágenes que nos ofrece pues muy

parecido a lo que nos ofrece modelos

como Nano Banana. Así que vamos a

buscarlo. Fijaos, tenéis modelos de

generación de imágenes, de loras, de out

painting, de apps scalers y si bajamos

por aquí, pues tenemos el modelo Quen

Image Edit. Y al clicarlo, pues nos mete

al lío y nos abre esta ventana de aquí,

que lo que nos está diciendo es que muy

bien que tú quieres usar el modelo, pero

que antes te tienes que descargar pues

los modelos necesarios para ejecutar

este workflow. Y nos lo pone muy

sencillo porque es simplemente clicar

aquí, clicar aquí, clicar aquí, clicar

aquí y esperar a que se ejecute la

descarga. Y una vez tenemos los modelos

descargados, pues casi casi estaría.

Todavía nos queda hacer un par de

pasitos más y el primero que tendréis

que hacer si tenéis una nueva

instalación de Conf UI es instalaros

este menú de aquí que es el nodo del

manager. Y lo que tendréis que hacer

será acceder al GitHub de Conf UI

Manager, que es esta herramienta de

aquí, y simplemente pues descargar el

contenido de este repositorio. Podéis

descargarlo con el comando en la ruta

que nos indican aquí, que es simplemente

confui customes. Una vez lo hagáis,

reiniciáis, confui y ya vais a tener

este menú superior que es muy

importante. Y es muy importante porque

seguramente cuando accedáis a este

workflow os aparezcan muchos errores de

nodos que no han sido encontrados, nodos

necesarios que tendréis que instalar uno

a uno haciendo lo que acabamos de hacer

y que podemos simplificarlo bastante si

venís directamente a la opción de

manager y clicar aquí, que es para

instalar todos esos nodos que están

faltando. Una vez le deis, pues va a

aparecer aquí un listado. Iréis clicando

en los que os falten, instalar,

instalar, instalar. Y una vez lo tengáis

instalado, pues reiniciaremos con Fui y

ahora sí estaremos listos para empezar a

trabajar. Y como digo, cada workflow

pues puede ser muy intimidante, pero la

comunidad se suele ocupar bastante de eh

dejar bastante bien explicado cómo

funciona. Entonces, tenemos que ir

fijándonos en cada caso pues de las

instrucciones y los pasos que nos vayan

indicando. Por lo general todo va a

estar configurado por defecto para poder

funcionar, pero sí, por ejemplo, hay

cosas como, "Oye, ¿qué imagen quieres

editar?" Pues que tendremos que

configurar nosotros. En este caso, este

es el nodo para cargar una imagen. Pues

vamos a cargar una imagen como esta, una

imagen de un gatete que he sacado de

internet y que vamos a colocar aquí. Lo

siguiente que nos dicen que tenemos que

configurar es el prompt, que en este

caso pues ya viene por defecto.

Sustituye al gato con un dálmata, pero

tú aquí puedes ser todo lo creativo que

quieras. Oye, convierte esta imagen de

día a noche o pone el gato prendido a

fuego, lo que queráis. Y ya con esto, al

menos por este workflow, no tenemos que

configurar nada más. con lo cual lo

siguiente que vamos a hacer será

ejecutarlo. Clicamos en el botón de aquí

y si todo está perfectamente

configurado, vais a ver cómo se empiezan

a iluminar en verde cada uno de estos

nodos según la ejecución se va

produciendo. Y bueno, pues cuando esté

listo deberíamos de ver nuestro

resultado final aquí. Y tras unos

minutillos pues tenemos este resultado

que, perdón, es bastante

espectacular. Fijaos, ha cambiado

perfectamente al gato que teníamos por

un matar, manteniendo la consistencia

del resto de la imagen. Y todo esto,

amigos y amigas, ejecutado en local.

Oye, ¿y si la imagen que subo es la de

mi cara? Y en este caso vamos a cambiar

el prompt y le vamos a pedir pues que

baje la iluminación de la imagen como si

estuvieran las luces apagadas y que me

ponga una antorcha eh con fuego en la

cabeza iluminando la escena. Vamos a ver

si el modelo Quen Edit es capaz de hacer

esta edición. Le damos a ejecutar y

esperamos para tener este resultado.

Dios, qué miedo. Vale, pues lo ha hecho.

Vale, nos ha puesto el fuego en la

cabeza y nos ha iluminado los ojos y

esta imagen, pues además de molar mucho,

nos va a servir como punto de partida

para nuestro siguiente tutorial, porque

ahora vamos a trabajar con vídeo.

Fijaos, nos venimos de nuevo a Templates

y vamos a seleccionar la pestaña de

vídeo, donde de nuevo tenéis un montón

de workflows creados por la comunidad

que se van a conectar a modelos open

source cada vez más impresionantes. Y en

este caso vamos a trabajar con la

familia de modelos One 2.2. Y aunque no

hemos hablado en profundidad de ello en

este canal, la familia de modelos One ha

sido durante este último año la mejor

opción open source para generación de

vídeo en local, con resultados que,

bueno, originalmente no eran tan buenos,

pero que con cada actualización de este

modelo y con la actualización de sus

capacidades, como suele ocurrir con los

modelos open source, pues nos ha dejado

a finales de 2025 con una herramienta de

generación y edición de vídeo que aporta

unos resultados impresionantes. Y en

concreto, si bien tenemos la opción de

generar texto a vídeo o imagen a vídeo,

yo os voy a recomendar que probéis la

herramienta de animar vídeos. Así que

clicamos el workflow, dejamos que de

nuevo nos diga todos los modelos que

tenemos que descargar. Empezamos a

descargar modelos, descargamos,

descargamos y este sí va a ser un modelo

exigente que te va a requerir de, por

supuesto, una tarjeta gráfica de Nvidia

para hacer esta inferencia mucho más

rápido, pero también de suficiente V RAM

para poder ejecutar estos modelos. En

este caso, este portátil, por ligero que

parezca, tiene 24 GB de V RAM, lo cual

es una salvajada y creo que va a ser

suficiente para poder hacer unos cuantos

experimentos. Y una vez lo tengamos,

vamos a encontrarnos con otro sistema de

nodos. Madre mía, qué cosa más

intimidante. No os preocupéis porque os

voy a llevar paso a paso a cómo ejecutar

este modelo que no es tan complicado. Lo

primero que tenemos que hacer, pues será

tener los modelos descargados, que ya lo

hemos hecho, y lo siguiente va a ser

venirnos a este paso de aquí, donde

vamos a cargar el vídeo que queremos

utilizar como referencia para manipular

el vídeo final. Y yo voy a cargar este

vídeo de aquí donde estoy delante de la

cámara moviendo la cabeza, haciendo

diferentes gestos y que como habéis

visto es de donde he sacado el fotograma

que hemos editado anteriormente. Este

vídeo va a ser el vídeo de referencia

que va a guiar el movimiento del vídeo

final. Y esta imagen de aquí va a ser la

que nosotros utilicemos como referencia

para manipular, es decir, vamos a

trasladar el movimiento de este vídeo a

esta imagen de aquí. Para evitar tiempos

largos de ejecución y problemas con

falta de memoria, os voy a recomendar

que bajéis el tamaño de el vídeo final,

que en este caso lo podemos ajustar aquí

en ancho y altura, y donde, como nos

indica esta nota de aquí abajo, pues

tenemos que ponerlo en relación a

múltiplos de 16. Estos son cositas de

cómo funcionan los modelos, así que

vamos a tener que hacer un cálculo

porque fijaos que yo pues mi vídeo tiene

esta dimensioneta aquí. Yo he comprobado

que esto ya son múltiplos de 16, o sea,

que puedo dividir sin problema el

tamaño. Y yo, en mi caso, voy a hacer

una división entre dos, ¿vale? Voy a

bajar esta cifra a una resolución de la

mitad. Hago los cálculos perfectamente

de cabeza. A ver, ¿cuánto era, sí? Eh,

384. Madre mía, qué genio matemático

soy. Ni GPT5. Vale, ya tenemos cargada

el vídeo de referencia, la imagen y

tenemos también eh el ancho y el alto

que queremos. El siguiente paso similar

a como hemos hecho antes será escribir

un prompt que sirva un poco de

referencia al modelo de lo que estamos

haciendo. No hay que complicarse mucho,

pero sí le podemos indicar que es una

persona frente a una cámara con el pelo

prendido fuego. Pues se lo escribimos

sin más complicación y casi casi ya lo

tendríamos. Una cosa que tenéis que

saber es que este modelo tiene dos

formas de actuar. La que viene por

defecto es cogiendo este vídeo original

y reemplazando la persona. Es decir, si

yo, por ejemplo, pongo esta imagen de

referencia, lo que va a ser el modelo va

a ser recortarme a mí y poner pues a

esta persona y seguramente veamos que el

fondo se va a quedar blanco y que, por

ejemplo, el efecto del fuego no va a

aparecer porque realmente ese fuego

queda fuera de la máscara de mi persona.

Eso me pasó, por ejemplo, con este

ejemplo de aquí, donde estaba intentando

colocarme una peluca de payaso y por lo

que sea el modelo no lo hacía y era

porque estaba haciendo el recorte de mi

persona. Entonces, si de repente en

vuestra imagen de referencia hay algo

que se vaya a salir del marco de la

máscara que el modelo va a generar

automáticamente, yo lo que os recomiendo

es que vengáis a este módulo de aquí, a

Chrow Mask, y que expandáis la máscara,

pues 50 píxeles, 100 píxeles, lo que

necesitéis para que esa máscara pues le

permita al modelo tener más libertad

para generar lo que necesite.

Igualmente, si vais a trabajar con

máscara, tenemos que hacer un paso

extra, que es este de aquí, que es guiar

un poco al modelo indicándole quién eres

tú y cuál es el fondo y cómo se

diferencia. Y para poder trabajarlo,

pues necesitamos primero hacer una

primera ejecución que no vamos a hacer

hasta el final, simplemente hasta que se

actualice este nodo con la imagen de

nuestro vídeo. Ahí estaría. Cancelamos

la ejecución y ahora ya tenemos cargada

nuestra imagen donde simplemente pues

este nodo nos permite colocar los puntos

que va a marcar pues dónde está la

persona y dónde está el fondo, ¿vale?

Con el botón derecho izquierdo y con la

tecla shift podemos hacer esta

configuración. Con esto ya le hemos

dicho el modelo. Este es Carlos. Este es

el fondo. Sustitúyelo y a ver qué sale.

Y tras unos minutos, el resultado que

obtenemos es este de aquí, que como ya

esperábamos, pues es raro porque el

modelo ha intentado mezclar pues tanto

el fondo blanco con la cara oscura, no

he entendido cómo integrar esta

información y bueno, vemos que el

resultado es muy raro, no es exactamente

lo que estábamos buscando, así que vamos

a hacerlo mejor. El problema, como os

comentaba, viene del hecho de querer

enmascarar y simplemente reemplazar

estas partes de aquí, que esto vendría

útil si lo que queréis es sustituir a la

persona en un vídeo que vosotros

tengáis, pues a lo mejor una persona que

está caminando por la calle, queréis

reemplazarla con otro personaje o en

vuestra casa, podéis hacerlo con la

configuración actual, pero en mi caso,

lo que queremos es tener toda esta

imagen, toda esta imagen al completo en

el vídeo final. Y para hacer eso no

tenemos que hacer muchas cosas muy

complicadas, simplemente tenemos que

quitar este enlace de aquí, lo quitamos

y este enlace de aquí. Hemos quitado la

conexión de enmascaramiento del fondo y

enmascaramiento del personaje. Si ahora

volvemos a ejecutar nuestro prompt, el

resultado que obtenemos es el siguiente.

Y ahora sí podéis comprobar que tenemos

un resultado que se ve espectacular.

Ahora sí tenemos toda la imagen bien

animada y la verdad que es increíble

como eh este modelo de generación de

vídeo pues es capaz de entender que el

fuego de la cabeza pues tiene que tener

la animación del fuego o que por ejemplo

si lo que usamos es una imagen de una

chica con risos, los rizos se tienen que

mover con ciertas físicas o con un perro

pues la lengua se tiene que mover con

estas físicas. La verdad que lo que

logra este modelo en capacidad de

animación no lo hemos visto ni siquiera

en modelos privados como los que podría

ofrecer empresas como Rangway con su

modelo AL. Y todo esto partiendo de una

única imagen que no tiene que ser ni

siquiera el fotograma inicial. Podéis

cualquier fotograma de cualquier

parte del vídeo, utilizar nuestro

workflow en Confi para usar este modelo

de edición de imágenes en local. Y

chicos, chicas, ya lo habéis visto,

hemos trabajado con texto, con código,

con imágenes, con vídeo y le hemos dado

superpereres a un portátil para poder

ejecutar esta inteligencia artificial en

local, sin necesidad de gastar, sin

necesidad de mandar nuestros datos a

empresas de tercero y aprovechándonos de

las bondades de todos estos modelos que

semana tras semana no paran de salir.

Estos son los modelos que hemos testeado

hoy, pero este vídeo sirve sobre todo

para conocer herramientas como LM

Studio, como Conf UI y para quitaros

pues esa barrera mental de que esto es

muy complicado y realmente no es así.

Tenéis todo esto a la alcanza de

vuestras manos. Hay canales en YouTube

fantásticos dedicados a hablar de Confi

UI, a enseñaros cómo usar estos modelos

a usar el M Studio. Así que aprovechad

todas estas ventajas y si tenéis un

portátil o un equipo potenciado con una

tarjeta gráfica de Nvidia, pues sacadle

partido. Muchas gracias a Nvidia por

patrocinar este vídeo, por permitirme

traeros pues toda esta tecnología open

source y si os ha gustado compartidlo,

apoyadlo para saber que este tipo de

contenidos os gusta. Os dejo por aquí un

par de vídeos que podéis ojear y chicos,

chicas, nos vemos con más actualidad y

con más tutoriales aquí en DCSVLAP y con

toda la información de cómo está

avanzando la inteligencia artificial en

el canal principal en DCSV. Nos vemos en

el próximo vídeo.

Loading...

Loading video analysis...