Hospedei uma IA no meu Servidor: O Poder do Ollama + Open WebUI

By Mayk Brito

Summary

Topics Covered

Servidor dedicado é obrigatório para LLMs
Parâmetros crescentes exigem GPU dedicada
Conecte Gemini gratuito ao servidor privado
Landing pages ilimitadas sem gastar tokens

Full Transcript

Eu instalei uma LLM num servidor dedicado, ou seja, minha própria LLM, para eu não precisar pagar mais o chat de PT para ter tokens ilimitados e assim eu puder gerar quantas landing pages eu

quiser ou código que eu quiser. Porém,

eu saí de algo que no momento me impressionou bastante para depois deixar um pouco decepcionado em relação à velocidade, performance e depois como que eu resolvi isso ainda mantendo tudo

no nosso servidor. Vou te falar quais foram as ferramentas, as tecnologias que eu escolhi colocar para rodar. E vamos

lá, vamos entender nesse vídeo como que você poderia replicar isso caso você queira, tá? Primeira coisa, quais foram

queira, tá? Primeira coisa, quais foram as ferramentas que eu escolhi aqui? A

primeira de todas, o lama. O lama é uma maneira de você usar LLM local. Você

pode usar ela direto no seu computador, se você quiser. Aí você pode desligar a internet, você vai baixar um modelo de a mais baratinho, na verdade mais levinho para rodar no seu computador, né? Tem

que ser mais leve, porém nem sempre é muito legal a resposta dele, tá? E aí

você poderia táar colocando no seu PC, só que eu não quero colocar no meu PC, porque muitas vezes a gente vai querer acessar isso à distância. A gente vai querer acessar de qualquer outro lugar entrando no endereço de IP específico,

né, ou num site específico. Por isso

colocar dentro do servidor. E aí eu aproveitei que tenho parceria aqui com a HostGator e coloquei dentro do servidor dedicado deles, Linux. Eu escolhi esse

servidor aqui para fazer esse teste, tá bom? 4 VCPU, 16 de RAM. Olha, Mike,

bom? 4 VCPU, 16 de RAM. Olha, Mike,

achei caro. Veja bem, isso daqui não é para qualquer pessoa, tá? Imagina que

você é uma agência, você trabalha com revenda. Isso aquii é baratíssimo,

revenda. Isso aquii é baratíssimo, porque você tem aqui 50 contas, por exemplo, que você vai poder vender de clientes. Significa que você paga isso

clientes. Significa que você paga isso daqui com muita facilidade. Um cliente

talvez já paga a mensalidade do servidor, tá? Então isso aqui é para

servidor, tá? Então isso aqui é para profissional. Então entenda isso daqui

profissional. Então entenda isso daqui primeiro. Agora, por que um servidor

primeiro. Agora, por que um servidor dedicado e não um servidor VPS ou um servidor compartilhado? Essa fica a

servidor compartilhado? Essa fica a pergunta. O compartilhado, fora de

pergunta. O compartilhado, fora de questão, compartilhado você não tem acesso para instalar essas coisas que a gente vai colocar aqui. E compartilhado

é compartilhado significa que se alguém lá naquele servidor tiver utilizando alguma coisa muito pesada, vai derrubar o seu servidor. Seu servidor sai de um status bonitinho para um status de não

presto mais, porque tem outras pessoas utilizando ali o servidor, tá? Essa é a ideia de um servidor compartilhado. E

geralmente esses servidores baratinhos de R$ 10, às vezes até menos, né, a gente encontra por aí, são servidores compartilhados e a galera tem péssima experiência com isso. VSs, bom, VPS a

gente já tá falando de algo que vai pagar um pouquinho mais, né? Geralmente

aí você vai encontrar $, encontra quem sabe um pouquinho mais. Agora a VPS, pessoal, você tem um acesso já. É uma

máquina que ela está ali virtualizada.

Então, Virtual Private Server é um servidor privado, é virtual, você está compartilhando o mesmo endereço de IP que outras máquinas e tá compartilhando

os recursos da máquina também. Então, às

vezes ali você vê 4 VCPU, que é o que a gente tá vendo nesse dedicado, e esse 4 VCPU às vezes tá sendo compartilhado também com outras pessoas, tá? É,

depende de uso também. Então, quando a gente tá falando de servidor dedicado, que vai ser o custo um pouco maior, o dedicado significa que é uma máquina.

Dedicato, dedicado significa que é uma máquina que agora ela é mais sua, tá bem? Tá bom. Aqui o preço ele vai

bem? Tá bom. Aqui o preço ele vai variar, não chega a ser tudo isso, né?

Mas vamos lá, vai variar de empresa para empresa. E aí a gente tá falando de uma

empresa. E aí a gente tá falando de uma máquina que tem recursos para você, IP dedicado. Então, vamos lá. Se você tem

dedicado. Então, vamos lá. Se você tem um VPS e aquele IP caiu numa blacklist, alguma coisa assim, aquele IP ele tá bloqueado na internet para outros serviços e você nem sabia disso. Você

contratou um VPS, mas aquele IP tá bloqueado, você precisa fazer um proxy, dá para resolver isso, mas se você tem um dedicado, o IP é seu, então você tem que cuidar com tudo que você tá fazendo ali. Tudo bem? Bom, esse foi o servidor

ali. Tudo bem? Bom, esse foi o servidor que eu escolhi, especialmente por ser parceiro aqui do canal, né? E aí, se você quiser, eu vou deixar links aqui na descrição para você também ter um acesso

mais interessante. Eu entro nesse link

mais interessante. Eu entro nesse link painel hm hm.

OM é um gestor muito semelhante aí ao que a gente vê quando a gente entra num Versel, num Netlify, você tem um gerenciador ali de serviço, né? Se você

tá tá na Railway, você tem o gerenciador deles. Geralmente nas nossas VPS eu

deles. Geralmente nas nossas VPS eu gosto de instalar o Culify. Aqui já veio com o wh. Então eu deixo o WHM, entro na parte de terminal aqui e na parte de terminal já tenho acesso root à máquina.

Tudo bem? Só isso. Já tô acessado, já estou configurado na máquina. Quando

você cria sua conta, obviamente você precisa só criar uma senha, né? Bom,

OLAMA, olha só, quando você vai no OLAMA, ele tem uma maneira aqui de você fazer o download. Você pode já instalar na sua máquina se você quiser, ou você pode pegar esse código aqui e colocar direto no seu servidor dedicado, tá bem?

Até que seja um VPS. Se for um VPS funciona também, tranquilo, tá? que você

vai estar instalando, porque você tem o acesso no VPS, você tem o acesso à máquina ali. Então aqui leva um tempo

máquina ali. Então aqui leva um tempo para fazer a instalação do OLAMA. Vamos

deixar ele instalar aqui. Enquanto ele

tá lá instalando, deixa eu falar um pouco mais o que que é a ideia do OLAMA.

Então ele vai ter vários modelos, várias LLMs que você pode usar na sua máquina.

Essas LLMs que você coloca na sua máquina, quanto mais e menorzinha for isso daqui, ó, 7 bilhões de parâmetros.

Significa que você consegue conversar ela numa máquina bem leve, né? é uma

máquina que não é muito poderosa, 32 bilhões de parâmetros, a máquina já tem que ser mais poderosa, precisa ter uma GPU, porque isso daí ajuda bastante. E

quando você tem poucos parâmetros, assim, a gente tá falando de uma máquina de de uma resposta de LLM que não vai ser tão interessante. Talvez você

precisa trabalhar bastante a engenharia de prompt para ter respostas legais.

Aqui você talvez tenha mais informações porque a gente tá falando de muitos dados que elas que ela foi treinada, né?

Só que a máquina, geralmente um computador normal, ele não aguenta isso daqui, né? Aqui a gente vai ter diversos

daqui, né? Aqui a gente vai ter diversos tipos de LLM. Aqui eu vou querer usar com você ali, ó. Por exemplo, essa daqui é do chat GPT gratuito que eles deixam, né, da Open AI, no caso, né? A gente

fala chat E GPT, mas é que é o comum pra galera. é open AI gratuita, que tem a

galera. é open AI gratuita, que tem a maior aqui de 120 bilhões de parâmetros, mas se você não tem uma GPU, que é o nosso caso aqui no nosso VPS, nós não

temos uma GPU, que seria uma placa de vídeo dedicada. Lembrando, as LLMs com

vídeo dedicada. Lembrando, as LLMs com GPUs, elas tendem a trabalhar muito mais rápido. Num CPU, elas tendem a ser mais

rápido. Num CPU, elas tendem a ser mais lentas. Por isso que a gente vai fazer

lentas. Por isso que a gente vai fazer os testes aqui, né? A que eu vou querer usar com vocês ali vai ser a gema 3. A

gema é, imagina que é o Gemini, só que não é o Gemini, né? Mas é, é da Google.

É da Google. E ali você vai ter ali um monte para testar. Se você colocasse de 270 milhões de parâmetros no seu computador, um computador de 1 GB, não, que não existe mais, né? Computador de 4

GB de RAM, talvez isso daqui já rode. Se

tiver uma dedicada, uma placa dedicada, vai rodar legalzinho. Mas a ideia abaixo de 1 bilhão de parâmetros, geralmente é a ideia para que você possa rodar até em celular, tá? Ó, depois de um tempo aqui,

celular, tá? Ó, depois de um tempo aqui, ele já avisa, ó, o lama está instalado, mas não encontramos GPU. E a Oama, então vai rodar apenas no modo GPU, no modo

CPU, tá bem? Para rodar ele aqui no servidor, eu colocaria algo como o olama run gema 3. Isso aqui vai baixar o gema pro meu servidor. Leva-se um tempo. Aqui

eu já tinha baixado um pouquinho antes, tá? E aí eu consigo conversar com o Gema

tá? E aí eu consigo conversar com o Gema 3. Então, oi, tudo bem? Olha só aqui a

3. Então, oi, tudo bem? Olha só aqui a velocidade no servidor com CPU. Ah, tudo

bem comigo e com você? como pode se ajudar hoje? Ã, eu posso perguntar para

ajudar hoje? Ã, eu posso perguntar para ele aquela pergunta padrão que a gente faz quando a gente quer testar a evolução das LLMs, né? Quantas letras Rs

tem em Strawberry? Geralmente eles não conseguem identificar que são três. Ã,

agora esses modelos já novos conseguem, tá? Ó, existem três Rs. Isso aqui é

tá? Ó, existem três Rs. Isso aqui é muito rápido e isso aqui me impressionou quando eu fiz o primeiro teste. Eu

falei: "Cara, tá no CPU, tá rodando muito rápido". É, agora eu vou pro

muito rápido". É, agora eu vou pro próximo passo, né? Então, primeiro, ó, exit. Vou pro próximo passo. Eu vou

exit. Vou pro próximo passo. Eu vou

instalar aqui o Open Web UI. Open Web

UI. E vou explicar para vocês o que é essa decisão do Open Web UI. Eu até

deixei ele aqui bonitinho. Essa decisão

de colocar o Open Web UI é a seguinte.

Imagina então que você não precisa ter mais o chat GPT. O chat GPT ele é uma interface ou Gemini, tanto faz, né? Chat

Open AI. Ele é uma interface aonde ele mantém os seus chats aqui, sua lista de chat. Ele tem um monte de ferramentas,

chat. Ele tem um monte de ferramentas, tá? Ó, tem várias ferramentas que você

tá? Ó, tem várias ferramentas que você pode adicionar, né? Eu quero adicionar documentos, eu quero que crie imagem, eu quero que pense, eu quero que pesquise.

Isso daqui são ferramentas da inteligência artificial. Tem como você

inteligência artificial. Tem como você conversar com ele. Tem um monte de ideias aqui. Beleza? O open web UI é

ideias aqui. Beleza? O open web UI é como você ter isso daqui, só que na sua máquina gratuitamente.

Gratuitamente, né? Você tá pagando só pela sua máquina, você poderia ter no seu computador local, tá? Olha que

interessante. Então, se eu posso ter esse Open Web UI, eu vou simplesmente encontrar onde que ele está por aqui.

Ah, aqui, na verdade, a gente tem a parte de comunidade, tá? Mas a parte que eu quero está em docs, open web, UI.

Provavelmente eu vou encontrar por aqui.

E aqui eu tenho quick start. Ele já fala que como começar com o olama. A ideia

dele é ser offline mesmo, trabalhar com OLAM, com e e ali, como a gente já instalou o OLAMA, já tá tudo certo. Eu

vou rodar ele como Python o V. O que é o V, né? O V, para quem vem da galera, a

V, né? O V, para quem vem da galera, a galera que vem aí do do JavaScript, npm, é um gestor de pacote, só que ele roda de uma maneira bem mais leve pra Python, tá? Então a ideia dele é trabalhar com

tá? Então a ideia dele é trabalhar com Python. Então eu vou colar esse carinha

Python. Então eu vou colar esse carinha aqui que ele vai instalar o UV na minha máquina e é muito rápido assim mesmo, tá? A instalação do UV é bem rápida.

tá? A instalação do UV é bem rápida.

Após que ele instala, após a instalação do EV, a gente vai colocar o Open Webi para ele rodar, tá bem? Aqui eu vou colar aquela informação, vou colocar um

ecomercial só para ele poder soltar, liberar para mim o meu terminal, né?

Significa agora que se eu colocar um curl 127.0 0 pon1 na porta 8080 eu tenho uma resposta.

Então tudo que eu preciso fazer é pegar o meu endereço de IP. Eu vou pegar esse aqui primeiro que tá aparecendo. Vou

jogar aqui na porta 8080. E eu tenho o Open Web UI. Olha aí que bacana. Agora a

gente tem como entrar no nosso chat. Ó,

você vai criar uma cadercial aqui colocando nome, e-mail e senha.

Fechou? Olha que bacana, né? Então vamos

lá, vamos começar a funcionar aqui. Note

que aqui ele já encontrou o gema. Por

quê? Porque a gente já instalou ele.

Então, se eu fizesse a mesma pergunta aqui, algo como quantas letras R tem no Strumberry, ele vai responder aqui para

mim. Detalhe, eu noto que responde numa

mim. Detalhe, eu noto que responde numa velocidade aceitável, porém se eu pedir para ele fazer para mim agora um novo chat, ó, vou pedir um novo chat, vou

falar assim, ó, crie uma landing page sobre um app de meditação, tá? Pode ser uma land page

sobre o app de meditação. Primeiro erro

aqui, né? Eu não tô dando contexto nenhum. Ele já tá criando aqui alguma

nenhum. Ele já tá criando aqui alguma coisa, tá respondendo até que interessante, mas não tô dando contexto para ele poder gerar o HTML, o CSS.

Então o que que ele tá fazendo para ele?

A landing page tá sendo criada na questão de conteúdo, tá sem direcionamento. Então é importante a

direcionamento. Então é importante a gente dar direcionamentos. Essa é a primeira coisa. Para responder o texto

primeira coisa. Para responder o texto assim, eu acho que tá OK. Não é a velocidade mais ideal. Você encontra por aí coisas muito mais rápidas. Ainda não

é algo interessante. Agora eu vou pedir pr a mesma coisa, ó. Crie um app de meditação usando HTML

CSS tail wind, tá? E uma interface moderna, Bento UI. Ã, vou deixar só essa informação. Deixa, deixa o restante das

informação. Deixa, deixa o restante das informações para outro momento que eu já vou mostrar para você o que é que a gente vai fazer melhor. Nesse exato

momento. O que acontece? tá rodando

aquele lá ainda está rodando ele, aquela resposta ainda tá sendo gerada aqui. Ele

ainda, ele não está pegando uma nova resposta para gerar. Ele até pode estar gerando, inclusive uma coisa que eu notei aqui, ele fica aqui com essa bolinha mexendo, mas nem sempre ele está

respondendo rapidamente. Ele já começa a

respondendo rapidamente. Ele já começa a ficar lento e isso para mim já começa a ficar chato. Então, por mais que eu

ficar chato. Então, por mais que eu esteja já usando uma inteligência artificial sem pagar tokens, tá gratuito para mim. Se eu tivesse usando na minha

para mim. Se eu tivesse usando na minha máquina, seria isso daí. Poderia ter,

não poderia ter internet. Ó, ele criou o aplicativo lá. Como que funciona? Ele

aplicativo lá. Como que funciona? Ele

criou lá, terminou de de funcionar todas as informações do Zenflow que ele criou aqui, tá vendo? Eu vou abrir aqui, ó, para você ver todas as listas de chat que ele tá fazendo. Então, essa aqui foi a primeira, essa foi a segunda e essa

daqui é a que ele tá trabalhando agora.

Então, entende que ficou numa filinha, ele voltou para cá, continuou trabalhando. Eu acho que isso é lento

trabalhando. Eu acho que isso é lento perto do de toda a experiência que nós temos com inteligência artificial. que é

lento, porém não quer pagar nada por token mais, tá aqui, você já pode usar isso daqui. Quer ter seus dados todos

isso daqui. Quer ter seus dados todos privados, é isso aqui. Além do mais, essa ferramenta aqui, se você quiser usar a nível empresarial, deixa ele trabalhando aí. Você venha nessa parte

trabalhando aí. Você venha nessa parte de painel administrativo aqui, você pode colocar usuários e grupos. Então ele tem um acesso, um controle de acesso muito interessante, ó, docs, você vai colocar

aqui Open Web UI, né, a parte de documentação dele. E as coisas que você

documentação dele. E as coisas que você pode entender aqui é você tem as partes de features, você tem o roll rolly based

access, o RB AC, ou seja, eu quero colocar algumas pessoas, alguns níveis e esses níveis podem acessar X, Y, Z na ferramenta. É possível. Você tem tools e

ferramenta. É possível. Você tem tools e functions. Que que é isso? Significa que

functions. Que que é isso? Significa que

você tem uma ferramenta expansível. Se

você, você é programador, né? Eu também

sou. Não sei se você é. Escreve aí no comentário aqui. Ele já tá criando o aplicativo

aqui. Ele já tá criando o aplicativo para você visualizar. Ele tem essa opção de visualização. Já vou mostrar para

de visualização. Já vou mostrar para você. Aqui estão as ferramentas que você

você. Aqui estão as ferramentas que você pode colocar. Então, além das

pode colocar. Então, além das ferramentas básicas, você pode expandir isso daqui se você quiser colocar mais integrações, que são functions e tools.

Você pode fazer isso na ferramenta, uma ferramenta bem poderosa, tem toda a ideia de você avaliar, você essa avaliação aqui, se você tem outras pessoas usando a aplicação, você consegue verificar depois as avaliações,

tá? Você pode mexer nisso daqui. E essa

tá? Você pode mexer nisso daqui. E essa

parte aqui de preview são as ideias dos artefatos que ele tem aqui. Tá vendo

essa ideia de artefatos? Ou seja, isso aqui tá feio, cara. Isso daqui não dá para trabalhar com isso daqui. A gente

precisa melhorar. A gente vai melhorar.

Calma. Já vou mostrar para você como que a gente vai melhorar. Então, só de entender que essa ferramenta ela já gera para você tokens infinitos. Você pode

usar ela sem pagar nada mais por isso.

Já é uma coisa legal que você tem os seus dados todos privados. Aqui você

pode colocar essa parte de, vamos voltar aqui, ó, essa parte de rag. Você

consegue colocar os seus documentos, documentos das suas empresas, da sua empresa ali, para ele trabalhar em cima dos documentos. Tudo isso de maneira

dos documentos. Tudo isso de maneira privada, sem expor esses dados pela web.

Tá só fechado, claro, tá no seu servidor, tá fechado ali no seu servidor. Isso aqui já é assim, a mente

servidor. Isso aqui já é assim, a mente já explode. Se o seu servidor tiver

já explode. Se o seu servidor tiver acesso a GPU, aí o negócio fica interessante. Porém,

interessante. Porém, mesmo melhorando, a gente vai melhorar agora. Eu vou mostrar para você como que

agora. Eu vou mostrar para você como que a gente vai melhorar um pouco a resposta, mas mesmo melhorando não vai ser a melhor resposta. Você pode fazer workspaces aqui e nessa parte de workspaces você pode criar um novo

modelo, ele chama de modelo, tá? Então

vou colocar aqui como é landing page generator generator, tá? Esse landing

page generator que a gente tá fazendo aqui, nessa parte de descrição, eu poderia descrever ele. A parte do model eu vou usar o gema 3 e no system prompt eu vou colocar um prompt que eu já tenho

aqui. Depois eu posso dar esse prompt

aqui. Depois eu posso dar esse prompt para vocês também se vocês quiserem.

Aqui eu posso habilitar as coisas que eu quero nele. Eu quero que ele visualize

quero nele. Eu quero que ele visualize se eu mandar um print, ele funciona, funciona. Eu quero enviar arquivos. Se

funciona. Eu quero enviar arquivos. Se

se eu mandar arquivos, ele funciona, funciona. Para procurar na web,

funciona. Para procurar na web, funciona, funciona e etc. Tá? Inclusive,

uma coisa da OLAMA é que você faz uma chave de API gratuita aqui no cloud deles. É gratuito, tá? Mas quando você

deles. É gratuito, tá? Mas quando você faz a chave de API gratuita e coloca lá no lama, você tem acesso a buscas na web gratuitamente. Você também pode fazer

gratuitamente. Você também pode fazer isso daqui aqui nessa ferramenta. Ele

tem uma parte administrativa onde você vai explorar depois a sua vontade, né, essas esse system que você pode colocar um monte de coisas extras aqui. E uma

dessas coisas extras é fazer essa configuração, essa conexão aqui, ó, conexões externas. Você pode fazer as

conexões externas. Você pode fazer as conexões aqui para trabalhar, sei lá, com brave search, com outros searchs que você quiser. A gente já vai voltar aqui

você quiser. A gente já vai voltar aqui porque eu preciso trabalhar uma coisa legal com vocês. Então, agora que eu tenho landator, vou clicar aqui, ele vai abrir uma nova ideia, né? Aqui eu só vou

colocar app meditação, por qu eu não vou não preciso colocar mais contexto porque eu já coloquei isso lá no system prompt dele. Isso aqui vai ser veloz? Não,

dele. Isso aqui vai ser veloz? Não,

então a velocidade é algo, infelizmente, que não é bom porque não tem GPU, tá? E

qualidade também acho que não vai ser bom, porque é o Gema, o Gema 3 ele ele tá meio, não é aquela versão 27 bilhões, eu acho, tá no latest ali, mas eu não coloquei do 27 bilhões de parâmetros,

então eu já sei que ela não vai ser eficiente e eu já vou trabalhar com você a eficiência. A eficiência é a seguinte,

a eficiência. A eficiência é a seguinte, eu não sei se você sabe, API Key Gemini.

O Gemini ele oferece chaves gratuitas de API e você pode ter essas chaves gratuitas de API. Você vai pesquisar por aí, criando uma chave gratuita e aí você consegue acessar o Gemini 2.5 Flash e às

vezes você consegue até acessar umas outras opções, tá bem? Eu vou pegar uma chave de API, vou vir aqui nessa parte de adminel, vou vir na parte de settings e na parte de connections. Aqui na parte

de connections, eu vou remover essa parte aqui do open AI aqui, ó, nessa configuração e vou colocar essa informação aqui. Generative language

informação aqui. Generative language Google.com/v1/open.

Google.com/v1/open.

Vem para cá, opai/, tá? É isso aqui que eu vou colocar, tá

tá? É isso aqui que eu vou colocar, tá bem? Fechou sua chave de API. Aqui

bem? Fechou sua chave de API. Aqui

coloquei a minha chave de API e salvei.

Que que vai acontecer agora? Olha que

legal, tá? Vou salvar aqui. Ele já

estava salvo, né? Na verdade, aqui se eu passar o mouse em cima, ele fala assim: "Olha, eu vou pesquisar sempre que você procurar agora, eu vou buscar informações no Gemini." Isso daqui é

uma, é um end point do Gemini, que é parecido com a Open AI e funciona liso aqui dentro desse Open Web UI. Aqui

nessa parte ele tá criando ainda a aplicação. Não, esse aqui já foi criado.

aplicação. Não, esse aqui já foi criado.

Esse daqui é o que ele tá criando ainda.

Deixa o menino trabalhar. Esse aqui é o horrível que foi criado, que não dá para viver. Vou voltar no workspace. Olha que

viver. Vou voltar no workspace. Olha que

legal, tá? Vou voltar aqui em configurações e editar. E aqui agora, bum, eu tenho um monte de modelos. E

esses são os modelos do Gemini. Eu vou

usar o Gemini 2.5 Flash aqui. Vou deixar

ele travado. Inclusive o Gema tá aqui, ó. Eu posso usar o Gema de 27 bilhões,

ó. Eu posso usar o Gema de 27 bilhões, etc. Nas chaves gratuitas às vezes dá problema. Vou até te mostrar como que

problema. Vou até te mostrar como que você pode verificar se tá dando problema ou não. Vou salvar ali e atualizar.

ou não. Vou salvar ali e atualizar.

Voltando lá naquelas chaves gratuitas AI Studio Google. Voltando nas suas API

Studio Google. Voltando nas suas API keys aqui, ó. API Ky. Sempre que você tiver algum probleminha, ó, fez um barulhinho aqui. Deixa eu voltar no Open

barulhinho aqui. Deixa eu voltar no Open WI. Enquanto isso, ó, terminou lá. Essa

WI. Enquanto isso, ó, terminou lá. Essa

aqui já é uma versão melhorada porque já tem um prompt um pouco melhor por debaixo dos panos.

Ainda não tá legal, tá usando gema, né?

Ainda não tá tão legal. Voltando aqui,

ó. Se você tiver algum problema de chave de API, você vai encontrar sua chave de API, vai clicar no usage e aqui ele vai colocar erros para você. Então, por

exemplo, comigo já aconteceu erros. 505

unavailable significa que eu não consegui acessar o serviço, ele não estava disponível. 429. To many

estava disponível. 429. To many

requests. Geralmente não é too many requests. To many requests é você tá

requests. To many requests é você tá pedindo demais. Não, mas você não tá

pedindo demais. Não, mas você não tá pedindo demais duas vezes não é pedindo demais. É porque você não tá pagando.

demais. É porque você não tá pagando.

Ele coloca dois o 429 como erro. É

porque você não tá pagando e você tá tentando acessar modelos que são pagos.

Então esse problema aqui deu para mim, por exemplo, quando eu tentei acessar o 3 Pro. Aí ele fala assim: "Cara, você

3 Pro. Aí ele fala assim: "Cara, você tem uma chave de API aí, tá listado ali, mas você não pode acessar ela". E o bad request é porque eu tentei acestar o Gema, acho que foi até o próprio Gema. E

a maneira que ele está configurado ali não permitiu pelo Open Web UI ser acessado. Tudo bem? E todos esses outros

acessado. Tudo bem? E todos esses outros erros aqui foi o 2.5 Flash, que não estava podendo ser acessado naquele momento que eu tava tentando. Espero que

aqui na hora do vídeo ele funcione. Bom,

ã, onde é que eu parei? Aqui, né? Vamos

voltar aqui. Arrumei já, né, o landpage generator. Vou abrir de novo app de

generator. Vou abrir de novo app de meditação. Agora a resposta dele vai ser

meditação. Agora a resposta dele vai ser com o Gemini 2.5 Flash. Então, além de ser mais rápido, imagino eu, se não der, eu eu, além de ser mais rápido, opa,

olha aí, provavelmente a resposta vai ser bem mais interessante. E aqui eu quero me surpreender. Depois eu vou mostrar para você a surpresa agradável que eu tive, a primeira vez que eu testei isso. E qual que foi a resposta

testei isso. E qual que foi a resposta que ele me deu, eu tenho salvo aqui, eu vou mostrar para você. Vamos só ver essa resposta. Espero que ela seja agradável

resposta. Espero que ela seja agradável também aqui para que eu não decepcione a minha audiência, né? Coisas legais. Ó, o

aplicativo ele vai mantendo aqui o seu histórico de chat. Você pode criar pastas se você quiser, pode criar anotações, pode criar prompts específicos e deixar guardadinho ou

fazer essa ideia do que você pode mudar por aqui, né? Já vou mostrar para você.

Olha, esse daqui eu gostei. Gostei. Mas

calma aí, ó. Vou copiar. Eu vou abrir aqui o front editor pdev/ aqui o nome tá aura zen, né? Aura

zen. No front editor vou colar aqui.

Aqui eu vou abrir a opção de settings e vou simplesmente marcar o preview only.

e vou aplicar. Então, eu estou usando o aplicativo Front Editor, um aplicativo que eu criei há muito tempo e de edição de código, então eu posso modificar o código por ali. Aqui falta um alinhamento, né? Um alinhamento não tá

alinhamento, né? Um alinhamento não tá legal, mas vamos entender, ó, que bacana, já algumas coisas que já acontecem aqui, tá bem? Já ficou mais interessante. Dá para melhorar? Opa. Mas

interessante. Dá para melhorar? Opa. Mas

eu tenho até uma tabelinha de preço aqui que talvez fazer isso daqui na mão a é um pouco cansativo. Então ele tá bacana.

No Front Editor, então eu tinha um outro aqui que eu coloquei que foi o zen, deixa eu lembrar aqui, Zen Flow. Eu

coloquei um Zen Flow aqui para nós, ó.

Esse foi um dos que eu criei lá, tá bem?

E teve um outro ainda, esse app meditation foi o primeirinho que saiu, tá? Esse

primeirinho aqui eu gostei demais, cara.

Esse aqui ficou animal. Olha que bonito esse aplicativo aqui. Tá assim, para mim tá super alinhado, tem uns detalhezinhos muito bonitinhos. Quando eu passo aqui,

muito bonitinhos. Quando eu passo aqui, olha o blurzinho que ele fica ali, ó.

Que bonito. Os detalhes de mexer aqui.

Aqui ficou uma quebra. Eu deixei aqui, mas eu poderia pelo pelo front editor editar, já vou mostrar para você.

Poderia editar ali para melhorar, mas olha só, poderia colocar umas fotinhas aqui diferentes, né? No front editor eu só tiro esse preview only daqui para ele voltar na tela normal. E aqui eu poderia procurar exatamente aonde tá quebrando

ali essa quebra aqui e arrumar essa quebra. Ah, como tá com tail wind e tudo

quebra. Ah, como tá com tail wind e tudo mais aqui ele tá até colocando um pouco de JavaScript.

Cara, funciona liso, funciona muito bem isso daqui. Tá bem? Então, olha que

isso daqui. Tá bem? Então, olha que bacana que foi a gente entender desde o comecinho, né? Vamos fazer um review bem

comecinho, né? Vamos fazer um review bem rápido aqui. Cara, pensei como que eu

rápido aqui. Cara, pensei como que eu vou usar uma LLM ilimitada cancelando minha conta no chat EPT. Tokens

ilimitados, não preciso pagar mais nada por isso. É possível? É possível. Vamos

por isso. É possível? É possível. Vamos

colocar no servidor dedicado. Vamos.

Servidor dedicado não tem GPU, então fica um pouco lento, mas eu fiquei impressionado com a velocidade, tá? Eu

jurava que nem ia funcionar. Eu juro

para vocês. Eu eu fiz o teste, eu peguei lá o servidor, é parceiro aqui do canal, mas eu falei: "Não vai funcionar, acho que não vai nem instalar o Olama".

Instalou, funcionou legal. Eu gostei do OAMA. Não quis deixar no meu PC, apesar

OAMA. Não quis deixar no meu PC, apesar de que eu tenho uma versão rodando no meu PC, mas não quis deixar porque eu queria acessar de qualquer lugar.

Fechou, acessamos de qualquer lugar. Aí,

lógico, fui direto um servidor dedicado, porque eu sei que o recurso é mais garantido, né, do que outros recursos. O

OLAMA apenas já me resolveria, resolveria aqui no Open Web UI, que daí foi a grande sacada, porque eu posso colocar outras coisas aqui e estender ele e melhorar. No Open Web UI, sempre

que eu começar um novo chat, se eu quiser pagar nada, é só eu selecionar o Gema 3 aqui e pronto. Aqui no chat, tá?

Se eu quiser fazer uma rinha de chat, eu quero ver qual é que responde melhor. Eu

posso colocar essas duas informações e aí eh colocar lá para que ele responda.

Qual que vai responder melhor? Os dois

vão rodar ao mesmo tempo. Aqui, aqui já respondeu. Aqui já respondeu também. Os

respondeu. Aqui já respondeu também. Os

dois é da Google. Eu poderia estar colocando outros modelos aqui se eu quisesse. Uma dica é se quiser colocar o

quisesse. Uma dica é se quiser colocar o Open Router, por exemplo, que é uma uma end point que você acessa todos os modelos de maneira mais rápida possível, open router, tá? Talvez seja uma opção

que você queira colocar ali, porque todos os modelos às vezes nem saiu lá na empresa, nem tá lançado na empresa oficial, já tá aqui, porque ele tem a parceria com as empresas todinhas. Então

vai lançar amanhã, já tá aqui na Open Router, aí você vai pagar, obviamente, esse daqui você paga. Ele tem modelos gratuitos que você poderia estar usando, porém você pode colocar ele aqui para você acessar isso de uma maneira mais

livre. Agora fica você ficar eh

livre. Agora fica você ficar eh brincando com essa ferramenta. Vai dando

uma olhada aqui em tantas personalizações que dá para você fazer, dá para você mudar muita coisa aqui. Eu

espero que você tenha gostado do seu conteúdo. Agora sim, olha, obrigado pelo

conteúdo. Agora sim, olha, obrigado pelo seu like, obrigado por estar se inscrito no canal e tudo mais, mas comenta, eu queria seu comentário. Isso aqui tá fazendo sentido para você? Será que você já tentou, tentou colocar na sua máquina

pelo menos? Vai tentar colocar num

pelo menos? Vai tentar colocar num servidor para ver como é que é que funciona? Eh, qual que seria a

funciona? Eh, qual que seria a dificuldade que você entende de tudo isso que a gente criou aqui? Tá fazendo

sentido ou não? Coloque aqui, quem sabe você pode ter o seu gerador de landing page, que é o que eu tô fazendo aqui no final do dia, um gerador de landing page. Eu posso colocar acesso para

page. Eu posso colocar acesso para algumas pessoas aqui, cara. E ele já tá com promptadinho. Entrei ali, gerei

com promptadinho. Entrei ali, gerei minha landing page, funcionou legal e posso ter tantas outras e geradores como eu queira. Ah, e lembre, isso daqui é

eu queira. Ah, e lembre, isso daqui é uma comunidade aberta. Open Web UI é uma comunidade e você nessa comunidade você pode encontrar aqui um monte de pessoas

conversando, um monte de tools sendo criadas, um monte de agentes sendo criados. É só a questão de você entrar

criados. É só a questão de você entrar na na comunidade e gostar mais dessa ferramenta ou não. Vai depender de você agora e do uso que você vai ter nela.

Beleza? Te vejo no próximo. Abração do

Marcão. Tchau tchau. E fica com esses vídeos aqui. Vou deixar uns vídeos aqui

vídeos aqui. Vou deixar uns vídeos aqui para você poder curtir, tá bom? Valeu,

para você poder curtir, tá bom? Valeu,

Loading...

Loading video analysis...