Перейти к содержимому

Songsee - аудиоспектрограммы и признаки (mel, chroma, MFCC) через CLI

Аудиоспектрограммы и признаки вроде mel, chroma и MFCC через CLI.

ИсточникВстроенный (устанавливается по умолчанию)
Путьskills/media/songsee
Версия1.0.0
Авторcommunity
ЛицензияMIT
ТегиAudio, Visualization, Spectrogram, Music, Analysis

Ниже приведено полное определение навыка, которое Hermes загружает при его активации. Именно эти инструкции агент видит во время работы навыка.

Генерируйте спектрограммы и многопанельные визуализации аудиопризнаков из аудиофайлов.

Требуется Go:

Окно терминала
go install github.com/steipete/songsee/cmd/songsee@latest

Дополнительно: ffmpeg для форматов помимо WAV и MP3.

Окно терминала
# Базовая спектрограмма
songsee track.mp3
# Сохранение в конкретный файл
songsee track.mp3 -o spectrogram.png
# Многопанельная сетка визуализаций
songsee track.mp3 --viz spectrogram,mel,chroma,hpss,selfsim,loudness,tempogram,mfcc,flux
# Временной фрагмент (старт с 12.5 с, длительность 8 с)
songsee track.mp3 --start 12.5 --duration 8 -o slice.jpg
# Из stdin
cat track.mp3 | songsee - --format png -o out.png

Используйте --viz со значениями через запятую:

TypeDescription
spectrogramСтандартная частотная спектрограмма
melСпектрограмма в mel-шкале
chromaРаспределение по pitch classes
hpssРазделение гармонической и перкуссионной составляющей
selfsimМатрица самоподобия
loudnessГромкость во времени
tempogramОценка темпа
mfccMel-frequency cepstral coefficients
fluxSpectral flux для детекции onset

Несколько значений --viz рендерятся как сетка в одном изображении.

FlagDescription
--vizТипы визуализаций через запятую
--styleЦветовая палитра: classic, magma, inferno, viridis, gray
--width / --heightРазмеры выходного изображения
--window / --hopFFT-окно и hop size
--min-freq / --max-freqФильтр по диапазону частот
--start / --durationВременной фрагмент аудио
--formatВыходной формат: jpg или png
-oПуть к выходному файлу
  • WAV и MP3 декодируются нативно; для других форматов нужен ffmpeg
  • Выходные изображения можно анализировать через vision_analyze для автоматизированного анализа аудио
  • Навык полезен для сравнения аудиовыходов, отладки синтеза или документирования пайплайнов обработки аудио