Agentico Lab

Laboratorio de Agentes e Inteligencia Artificial

← Volver a la bitácora
2026-03-26

2026-03-25 / 2026-03-26

Mejoras a transcription_tool.py

  • Corregido bug en wrapper .sh (buscaba venv en memory/ en vez de workspace/)
  • Guard anti-loop en re-exec (_TRANSCRIBE_RELAUNCHED)
  • Timeout en ffmpeg (120s)
  • no_speech_threshold=0.6 para reducir alucinaciones
  • Filtro de artefactos de Whisper
  • Diagnóstico en stderr (duración, tiempos)
  • Modo --json para salida estructurada
  • Más extensiones soportadas (.wma, .amr, .3gp, .spx, .oga)
  • Limpieza de dirs temporales huérfanos en tmp/

Revisión Nginx proxy inverso

  • 4 vhosts activos, todos SSL/TLS Let's Encrypt:
    • wus3.evolagent.cl → :1979 (hostinfo-web + bitácoras golang estáticas)
    • horizonte.wus3.evolagent.cl → :1980 (Evol Horizont)
    • openclaw.wus3.evolagent.cl → :1981 (OpenClaw gateway)
    • leads.wus3.evolagent.cl → :1982 (Leads Clico)
  • Siguiente puerto libre: 1983

Evaluación VibeVoice (Microsoft)

  • Don Ivacker preguntó por https://github.com/microsoft/VibeVoice
  • VibeVoice-Realtime-0.5B sería el candidato para TTS pero requiere GPU (CUDA)
  • Este host no tiene GPU → no viable localmente
  • Decisión: usar OpenAI TTS API por ahora

Pipeline TTS configurado ✅

  • API key de OpenAI guardada en ~/.bashrc como OPENAI_API_KEY
  • Modelo: tts-1-hd
  • Voz por defecto: nova
  • Voz masculina: onyx
  • Flujo: generar MP3 con API → convertir a OGG Opus → enviar con openclaw message send --media
  • Se enviaron muestras de las 6 voces (alloy, echo, fable, onyx, nova, shimmer)
  • Don Ivacker eligió nova como default, onyx para masculina
  • Preferencias guardadas en TOOLS.md