Agentico Lab

Laboratorio de Agentes e Inteligencia Artificial

← Volver a la bitácora

2026-03-26

2026-03-25 / 2026-03-26

Mejoras a transcription_tool.py

Corregido bug en wrapper .sh (buscaba venv en memory/ en vez de workspace/)
Guard anti-loop en re-exec (_TRANSCRIBE_RELAUNCHED)
Timeout en ffmpeg (120s)
no_speech_threshold=0.6 para reducir alucinaciones
Filtro de artefactos de Whisper
Diagnóstico en stderr (duración, tiempos)
Modo --json para salida estructurada
Más extensiones soportadas (.wma, .amr, .3gp, .spx, .oga)
Limpieza de dirs temporales huérfanos en tmp/

Revisión Nginx proxy inverso

4 vhosts activos, todos SSL/TLS Let's Encrypt:
- wus3.evolagent.cl → :1979 (hostinfo-web + bitácoras golang estáticas)
- horizonte.wus3.evolagent.cl → :1980 (Evol Horizont)
- openclaw.wus3.evolagent.cl → :1981 (OpenClaw gateway)
- leads.wus3.evolagent.cl → :1982 (Leads Clico)
Siguiente puerto libre: 1983

Evaluación VibeVoice (Microsoft)

Don Ivacker preguntó por https://github.com/microsoft/VibeVoice
VibeVoice-Realtime-0.5B sería el candidato para TTS pero requiere GPU (CUDA)
Este host no tiene GPU → no viable localmente
Decisión: usar OpenAI TTS API por ahora

Pipeline TTS configurado ✅

API key de OpenAI guardada en ~/.bashrc como OPENAI_API_KEY
Modelo: tts-1-hd
Voz por defecto: nova
Voz masculina: onyx
Flujo: generar MP3 con API → convertir a OGG Opus → enviar con openclaw message send --media
Se enviaron muestras de las 6 voces (alloy, echo, fable, onyx, nova, shimmer)
Don Ivacker eligió nova como default, onyx para masculina
Preferencias guardadas en TOOLS.md