Songsee - аудиоспектрограммы и признаки (mel, chroma, MFCC) через CLI
Аудиоспектрограммы и признаки вроде mel, chroma и MFCC через CLI.
Метаданные навыка
Заголовок раздела «Метаданные навыка»| Источник | Встроенный (устанавливается по умолчанию) |
| Путь | skills/media/songsee |
| Версия | 1.0.0 |
| Автор | community |
| Лицензия | MIT |
| Теги | Audio, Visualization, Spectrogram, Music, Analysis |
Справка: полный SKILL.md
Заголовок раздела «Справка: полный SKILL.md»Ниже приведено полное определение навыка, которое Hermes загружает при его активации. Именно эти инструкции агент видит во время работы навыка.
songsee
Заголовок раздела «songsee»Генерируйте спектрограммы и многопанельные визуализации аудиопризнаков из аудиофайлов.
Требования
Заголовок раздела «Требования»Требуется Go:
go install github.com/steipete/songsee/cmd/songsee@latestДополнительно: ffmpeg для форматов помимо WAV и MP3.
Быстрый старт
Заголовок раздела «Быстрый старт»# Базовая спектрограммаsongsee track.mp3
# Сохранение в конкретный файлsongsee track.mp3 -o spectrogram.png
# Многопанельная сетка визуализацийsongsee track.mp3 --viz spectrogram,mel,chroma,hpss,selfsim,loudness,tempogram,mfcc,flux
# Временной фрагмент (старт с 12.5 с, длительность 8 с)songsee track.mp3 --start 12.5 --duration 8 -o slice.jpg
# Из stdincat track.mp3 | songsee - --format png -o out.pngТипы визуализаций
Заголовок раздела «Типы визуализаций»Используйте --viz со значениями через запятую:
| Type | Description |
|---|---|
spectrogram | Стандартная частотная спектрограмма |
mel | Спектрограмма в mel-шкале |
chroma | Распределение по pitch classes |
hpss | Разделение гармонической и перкуссионной составляющей |
selfsim | Матрица самоподобия |
loudness | Громкость во времени |
tempogram | Оценка темпа |
mfcc | Mel-frequency cepstral coefficients |
flux | Spectral flux для детекции onset |
Несколько значений --viz рендерятся как сетка в одном изображении.
Часто используемые флаги
Заголовок раздела «Часто используемые флаги»| Flag | Description |
|---|---|
--viz | Типы визуализаций через запятую |
--style | Цветовая палитра: classic, magma, inferno, viridis, gray |
--width / --height | Размеры выходного изображения |
--window / --hop | FFT-окно и hop size |
--min-freq / --max-freq | Фильтр по диапазону частот |
--start / --duration | Временной фрагмент аудио |
--format | Выходной формат: jpg или png |
-o | Путь к выходному файлу |
Примечания
Заголовок раздела «Примечания»- WAV и MP3 декодируются нативно; для других форматов нужен
ffmpeg - Выходные изображения можно анализировать через
vision_analyzeдля автоматизированного анализа аудио - Навык полезен для сравнения аудиовыходов, отладки синтеза или документирования пайплайнов обработки аудио