1 / 12

Ein Softwarepaket zum  Verwalten  Analysieren und  Annotieren von Schallsignalen

SOFTWARE. ENTWICKLUNG. STX. Ein Softwarepaket zum  Verwalten  Analysieren und  Annotieren von Schallsignalen. Entwickelt am Institut für Schallforschung der Österreichischen Akademie der Wissenschaften Die Software ist auf unserer Homepage verfügbar www.kfs.oeaw.ac.at.

inga
Download Presentation

Ein Softwarepaket zum  Verwalten  Analysieren und  Annotieren von Schallsignalen

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. SOFTWARE ENTWICKLUNG STX Ein Softwarepaket zum  Verwalten  Analysieren und  Annotieren von Schallsignalen Entwickelt am Institut für Schallforschung der Österreichischen Akademie der Wissenschaften Die Software ist auf unserer Homepage verfügbar www.kfs.oeaw.ac.at

  2. Signalanalyse, Segmentierung und Annotierung • Benutzerdefinierte Analyseprofile • Parallele graphische Darstellung von • Wellenform, Spektrogramm (FFT, LPC, • Wavelet, ...) und Parameterverläufen • (rms, f0, Formanten, …) • Annotierungen mit Attributvorlagen • lokales Detailspektrum (Sektion) Analyse Annotierung Echtzeitanalyse Analyse und graphische Darstellung von Signalen in Echtzeit

  3. Verwaltung von Signalen und Einstellungen Workspace - Sammelstelle für Programmeinstellungen und Projektdateien. Hier erfolgt die Auswahl von Signalen, Verarbeitungsprofilen und Benutzerscripts. TCP/IP DCOM (z.B.: ↔ R) DDE (z.B.: ↔ Excel) Clipboard Schnitt- stellen Wave-In Wave-Out Dateien: Wave, XML, Text etc. Recorder Aufnahme von Signalen mit Signalaussteuerung und Tagging. Input Output Verwaltung

  4. Kommandozeile Entwicklungsumgebung Ausführung von Scriptbefehlen für die interaktive Entwicklung von Scripts. Debuggingumgebung Interaktives Debugging von Scripts mit Breakpoints, Funktionsstack, Umgebungsinspektor etc. Entwicklung Anwendungs- programmierung

  5. Spektrogramme – Zeit-Frequenz Signaldarstellungen Vergleich verschiedener Spektrogramme des Sprachsignals „kreidebleich“ Spektrogramm = Signalamplitude als Funktion von Zeit und Frequenz = Zeit-Frequenz Darstellung Kurzzeit-Fouriertransformation (STFT) Konstante, frequenzunabhängige Zeit- und Frequenzauflösung konstante Bandbreite Wavelet-Transformation (Typ: Morlet) Hohe Frequenzauflösung bei niedrigen Frequenzen Hohe Zeitauflösung bei hohen Frequenzen konstantes Verhältnis von Bandbreite zu Mittenfrequenz Frequenz  Frequenz  Zeit  Zeit 

  6. Sprachanalyse – Spektrogramm und Sprachparameter Berechnung und Darstellung von Sprachsignalen und grundlegenden Sprachparametern Segmentmarkierung Zeitbereich und Metadaten (z.B. Transkription) Spektrogramm Zeit-Frequenz Analyse = Schalldruck als Funktion von Zeit und Frequenz Formantfrequenzen Resonanzen des Vokaltrakts Grundfrequenz (f0) Tonhöhenverlauf (Prosodie) Wellenform zeitlicher Verlauf des Schalldruckes Die berechneten Parameter können graphisch editiert (korrigiert), zur weiterverarbeitung im Workspace gespeichert und / oder exportiert werden.

  7. MULAC – Frame-Multiplier in Acoucstics Framework für die Entwicklung, Testung und Anwendung von Frame-Multipliern (siehe Projekt „MulAc“) Original (mongolischer Obertongesang) Modifikationsmatrix („Maske“) Modifiziertes Signal x = Frequenz [kHz] Zeit [s] Zeit [s] Zeit [s] Adaptives Kammfilter Auslöschung (0-setzen der Amplitude) Analyse und Resynthese erfolgen derzeit mittels Gaborframes. Andere Methoden mit variabler Zeit / Frequenz-Auflösung (z.B. basierend auf Wavelets) sind geplant. Die Definition von Modifikationen (Masken) erfolgt durch die graphische Auswahl des Zeit-Frequenz-Ausschnitts (Polygon) und die Angabe von Methode und Parametern. Die Erzeugung der Masken kann signalgetrieben (adaptiv) oder signalunabhängig erfolgen. Irrelevanzfilter (Übermaskierung) Schwarz = 1 = keine Änderung Weiss = 0 = Auslöschung

  8. SPExL – Graphisch / Akustisch unterstützte Transkription Benutzerfreundliches, rasches Segmentieren, Transkribieren und Annotieren umfangreicher Tondokumente Anwendungen vor allem in der Phonetik, Phonologie und Forensik Wellenform + Segmentmarkierung Spektrogramm + Transkription + (optional) f0, Formanten; schnelles Umschalten zwischen Schmal- und Breitbandanalyse möglich - Userinterface optimiert für Tastatureingabe (d.h. möglichst wenige Wechsel zwischen Maus und Tastatur) - Graphiklayout, GUI und Signaldarstellungen sind konfigurierbar. - Segmentattribute können anwendungsbezogen definiert werden (Segment-Templates) - Paralleles Arbeiten im Workspace ist möglich (Kontrollhören, Korrektur, Detailanalyse) Scroll + Zoom synchron für Wellenform und Spektrogramm Steuerung auch über Hotkeys und Kontextmenü verfügbar Segmentliste + Editor

  9. RETISIMO – REalTIme SIgnal MOdification Allgemeines Framework für Signalprocessing und Spektrumanalyse von Stereosignalen in Echtzeit (Anwendung der Frame-Multiplier, siehe Projekt „MulAc“) Blockdiagramm: Zeitbereich x(t) Spektrum a(f),φ(f) Zeitbereich y(t) Wave-Out oder Soundfile Processing Modul Wave-In oder Soundfile Input Multiplexer Output Multiplexer Output Postprocessing Analyse Synthese Input Preprocessing Level- meter Grafik (Spektren, PPM und vom Processing- Modul abhänige Funktionen) Implementierte Prozessing Module: Analyse Synthese • Standardfilter (Tiefpass, Hochpass, Bandpass) • Graphisch definierte Filter • HRTF-Rendering mit 3D Quellenpositionierung • Sprachsynthese und 3D Vokaltraktmodell • Rauschunterdrückung (Signalverbesserung) • Irrelevanzfilter (Simultanmaskierung) LAN Files Framework-Modul Framework-Modul; Funktion teilweise abhängig von Processing-Modul Externe 3D Graphik (z.B. für HRTF, Sprachsynthes) Externe Daten (z.B.: HRTFs, Filterspektren Sprachdaten) Processing-Modul; austauschbar Externe Programme und Daten; abhängig von Processing-Modul

  10. RETISIMO Modul – Irrelevanzfilter Entfernung nicht hörbarer („irrelevanter“) Teile von Klängen mittels Simultanmaskierung Blockdiagramm: Irrelevanzfilter Maskierungs- filter Pegel- adaptierung Maskierungs- spektrum Signalspektrum x(f) Irrelevanzspektrum y(f) x(f) für x(f)>m(f) y(f)= 0 für x(f)≤m(f) Maskierungsparameter Adapierungsparameter Signalspektrum • Anwendungen: • In der Signalanalyse • (Informationsreduktion) • Übermaskierung = • Trennung starker • („Vordergrund“) • und schwacher • („Hintergrund“) • Signalteile • In der Signalkodierung; • „perzeptive Coder“ • z.B.: MP3 Psychoakustisches Modell der Simultanmaskierung von Sinustönen Irrelevanzspektrum Maskierungsfunktion abhängig von Frequenz und Amplitude des Maskierungstones Maskierungs- ton Amplitude in dB Testton 1 nicht hörbar („maskiert“) Maskierungsspektrum Testton 2 hörbar Frequenz in Bark (= perzeptive Frequenzskala)

  11. RETISIMO Modul – Sprachsynthese Formant-Synthesizer (Dennis H. Klatt; JASA 67/3, 1980) und Berechnung der Vokaltraktquerschnitte mittels LPC (Linear Prediction Coding) Blockdiagramm: Formant-Synthesizer Sprachsignal Puls Generator Grundfrequenz und Amplitude Vokaltraktfilter LPC Analyse Mix Die Syntheseparameter werden über Dialog und Grafik eingegeben oder von einem Sprachdatenfile gelesen Rausch Generator Vokaltraktmodell Amplitude Formanten (Frequenz, Amplitude, Bandbreite) Filter- spektrum Querschnitts- koeffizienten Formanten Amplituden- spektrum des Sprachsignals

  12. RETISIMO Modul – HRTF-Rendering Simulation einer im Raum positionierbaren Quelle mittels gemessener oder berechneter HRTFs (HRTF = Head Related Transfer Function = individuelle Außenohr-Übertragungsfunktion) Blockdiagramm: HRTF-Rendering Filter links Input (mono) Output links HRTF Datenbasis H(α,β) Filterspektrum- generator Filter rechts Output rechts Position der Quelle (Distanz r, Azimuth α, Elevation β) z.B.: Azimuth=45°, Elevation=0° (Quelle vorne, links in Kopfebene) HRTF links HRTF rechts • Beim Rendering werden •  das HRTF-Spektrum, • die Zeitdifferenz zwischen den Ohren und • die Distanz zur Quelle berücksichtigt.

More Related