Mañana, JUEVES, 24 DE ABRIL, el sistema se apagará debido a tareas habituales de mantenimiento a partir de las 9 de la mañana. Lamentamos las molestias.
Desarrollo de herramientas de procesado y visualización para audio 3D con auriculares
Author
Magro Sastre, JulioAdvisor
González Rodríguez, JoaquínEntity
UAM. Departamento de Tecnología Electrónica y de las ComunicacionesDate
2016-06Subjects
TelecomunicacionesEsta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.
Abstract
La Auralización o “realidad virtual acústica” es un término relativamente nuevo. Integra métodos de la física y la ingeniería acústica con la teoría de la Psicoacústica y de reproducción electroacústica [1]. El término Auralización es el análogo de la técnica de “visualización” en video 3D para el audio. En este Proyecto Fin de Carrera se describe el proceso de visualizar ciertas características, efectos o señales del sonido. Los sistemas estéreo convencionales son capaces de posicionar la imagen sonora o evento auditivo solamente en el arco virtual que une los dos altavoces. Una extensión directa de estos sistemas fueron los sistemas de sonido envolvente o sonido Surround, en donde se usan más de dos altavoces para crear una imagen sonora que se puede mover por todo el círculo que contiene a los altavoces.
Por otro lado, los nuevos sistemas de audio 3D pueden posicionar la imagen sonora, usando solo altavoces (o unos auriculares), en cualquier punto de un espacio tridimensional alrededor del oyente. La Auralización describe el proceso de generación, procesado y playback de audio Surround a la altura de los oídos del oyente. Aplicaciones comunes son la resolución de un problema de Acustica, la mejora de una sala, la simulación de la respuesta en frecuencia de los altavoces para escucha con auriculares, la construcción de un edificio, un coche u otros productos. Ya que el fin último de los sistemas de audio 3D es convencer a los usuarios u oyentes de que el sonido es emitido desde una posición en la sala donde no existe físicamente una fuente o altavoz, no solo los parámetros físicos sino también los psicoacústicos juegan un papel fundamental en el diseño del sistema.
El concepto de conseguir sonido tridimensional fue investigado por primera vez en relación con la modelización de campos sonoros en salas en 1929. Spandöck procesó señales derivadas de medidas en un modelo a escala de la sala con el fin de poder escuchar la acústica de la sala en el mismo laboratorio. La idea fue bien recibida, pero en esa época no había medios para ponerla en práctica. Veinte años después, en 1949, se inventaba la cinta magnética. Spandöck presenta finalmente su sistema basado en señales ultrasónicas, modelos de salas a escala y un grabador de cinta trabajando a diferentes velocidades. Los elementos básicos de la auralización se pusieron de manifiesto con este trabajo: modelado de campos sonoros, procesado y reproducción del sonido.
Con el tremendo desarrollo de los computadores, el concepto de simulación y auralización fue reinventado por Schroeder a principios de 1960. No es hasta después, en la década de 1990 para cuando la era del procesado digital (DSP), las velocidades de procesador y espacio de memoria se hacen suficientemente potentes como para procesar simulaciones en ordenadores personales, el momento donde se introduce oficialmente el término Auralización. Otros campos de la acústica también han incluido este término en su argot para referirse a fenómenos relacionados con la espacialización del audio, particularmente en los ámbitos de ingeniería de sonido y acústica arquitectónica. Desde entonces, el software y hardware se ha perfeccionado considerablemente y hoy en día el software comercial para la simulación de salas acústicas se considera incompleto sin una opción de auralización mediante la tarjeta de sonido del PC o una interfaz de audio DA/AD. Buena parte del desarrollo de sistemas de audio 3D se ha basado en un único oyente posicionado en
entornos anecoicos, lo que simplifica el análisis considerablemente. Sin embargo, esto acarrea
normalmente que el sistema solo funcione debidamente en estos entornos aislados acusticamente. Para
evitar este condicionamiento, se piensa en que los espacios de escucha sean salas reverberantes y por ello
se caractericen con una respuesta al impulso de la sala (RIR) o su análogo en frecuencia la respuesta en
frecuencia de la sala (RTF) de larga duración, debido a la reverberación. A una frecuencia de muestreo de
44.1 kHz (estándar de facto y también usada a lo largo de todo este proyecto) se necesitan miles de
coeficientes para los filtros FIR que modelen fehacientemente una RIR. Es por ello que los sistemas de
audio 3D requieren de una gran capacidad de cómputo por parte del host. Se hace indispensable aplicar la
teoría de Fourier, en concreto algoritmos FFT, para trasladar el problema al dominio frecuencial con el fin
de reducir la complejidad computacional.
Aunque estas respuestas al impulso de larga duración puedan dificultar la implementación en tiempo
real, permiten estudiar los efectos de un entorno/sala en el rendimiento del sistema.
Los sistemas de audio 3D filtran señales de audio monofónicas mediante una matriz de filtros digitales
que depende de la posición de la fuente sonora relativa al oyente; esto es, dependiente de las coordenadas
polares (θ, φ, r). En general, las soluciones de estos filtros se componen de dos partes.
La primera es la matriz de respuestas en frecuencia relacionadas con la cabeza (HRTFs) , que contiene la
información direccional que el oyente debe percibir. Los coeficientes de esta matriz se obtienen
normalmente de funciones de transferencia generalizadas y medidas previamente, p.ej. mediante una
base de datos. La segunda es la red de cancelación de Crosstalk (cancelación de XT), que invierte la matriz
de funciones de transferencia acústicas (entre altavoces y oídos del oyente) de la manera más realista y
eficiente posible.
Ya que las HRTFs varían considerablemente de un humano a otro debido a la compleja estructura de estas
funciones, que dependen de la complexión física y psíquica así como de la estructura geométrica única de
cada oído humano, calcular los filtros mediante HRTFs generalizadas degrada la imagen sonora percibida.
En este Proyecto Fin de Carrera se desea describir en profundidad el estado del arte de estos sistemas así
como crear un sistema de audio 3D de estas características usando el software Matlab® R2014b. Para
ello, se calculan RIRs mediante una función específica para ello y las HRIRs se obtienen de bases de datos;
estas ultimas se implementaron de cuatro formas. La primera es mediante un sencillo modelo matemático
que modele una HRTF. Las dos siguientes son dos bases de datos de HRTFs, una elaborada en el MIT
Media Lab [1] en Estados Unidos de América y otra por la universidad de Peking PKU en China, la última
con la ventaja que depende también de la distancia fuente-receptor y que incluyen HRTFs para cada oído
izquierdo (L) y derecho (R). El número de muestras y la frecuencia de muestreo para cada HRTF son fijas
y valen 512 muestras y 44.1 kHz, respectivamente. Cada una de estas funciones corresponde con una
respuesta al impulso finita (filtro FIR) con 512 coeficientes o taps. La última de las cuatros formas en la
que se implementaron HRTFs en este Proyecto Fin de Carrera fue interpolando en las tres coordenadas
(θ, φ, r) las HRTFs de la base de datos de la PKU.
Si el sistema de auralización convoluciona un sonido con una BRIR que corresponda, por ejemplo, a un
entorno reverberante con un tiempo de reverberación de aprox. 2 segundos, cada BRIR tendrá
aproximadamente 23000 coeficientes a 44.1 kHz. Por tanto, se precisan métodos de convolución
eficientes, procesadores potentes así como sistemas de interpolación y extracción de características
binaurales para reducir el volumen de información en la medida de lo posible.
Un sistema de auralización en tiempo real de alta calidad se presenta como un verdadero reto para la
tecnología actual disponible. La solución es encontrar nuevas teorías y aproximaciones de simulación
acústica de entornos y auralización con un balance entre precisión y tiempo de computo requerido para
obtener el efecto 3D deseado.
En este software de audio 3D desarrollado, la Auralización del audio original se consigue troceando por
bloques la señal y dejando que el oyente defina una trayectoria en el espacio que la fuente trazará. Cada
bloque de audio (que corresponde a un punto en la trayectoria) se convoluciona con una respuesta el
impulso binaural de la sala (BRIR), obtenida de la convolución de la HRIR con la RIR.
Los bloques procesados se solapan y suman usando el algoritmo de Solapamiento y Suma (Overlap and
Add Algorithm OLA). Así se consiguen dos señales, una para cada oído. Estas señales tendrán que ser
reproducidas con auriculares para la mejor experiencia. The Auralization of sound or Acoustic Virtual Reality or 3D Audio are new methods that use
Physics and Sound Engineering together with the Psychoacoustic theory. Auralization of sound
is the analogous of Visualization in the area of 3D Video. In this M Sc Thesis, the process of
visualization of certain characteristics, effects and audio signals are investigated and
developed.
Conventional stereophonic systems are capable of positioning the sound image (or auditory
event) only between the arc spanned by the two loudspeakers. The Surround systems were an
extension of the stereophonic systems, where two or more loudspeakers were used to create
an auditory image that can move through the whole circle spanned by the various
loudspeakers. However, the newer 3D audio systems are capable of positioning the sound
image at any point in a three-dimensional space using only two loudspeakers (or headphones).
The process of auralization is, indeed, the generation, processing and playback pf surround
sound at the listeners’ ears. Common applications of auralization are the simulation of a
loudspeakers frequency response over headphones, the acoustic treatment of a room or
building and also the acoustic simulation in a car or other systems.
The goal of a 3D audio system is to trick the perception of the listener in order to make the
sound emanate from a position in the room where a loudspeaker isn’t really there. Therefore,
not only the physical but also the psychoacoustic parameters play a role in the system design.
Three-dimensional sound was first investigated in 1929 related with the modeling of sound
fields in rooms. Spandöck built small rooms such that the tests were carried out on a natural
scale model. Doing so, the sound signals could be heard in the lab relatively easy. The idea was
subtle, but in 1929 there wasn’t really a technology to put this in practice.
Twenty years later the magnetic tape was invented. Spandöck finally brought forward his
system based on ultrasonic signals and scaled room models. The fundamental elements of
auralization were defined with his work: modeling sound fields, processing and reproduction
of sound.
With the formidable development of computers, the concept of simulation and auralization
was re-written by Schroeder in the 1960s. Nevertheless, it is not until the 1990s when the
DSPs, computer run-times and memories were big enough to run simulations in personal
computers. It is then when the term Auralization is officially introduced. Other fields in
Acoustics like in Audio Engineering have also introduced the term auralization to refer to the
spatialization of sound. Since the 1990s, software and hardware have been improved
considerably and nowadays commercial software for the simulation of sound in rooms is
considered incomplete without an option of auralization via a sound interface or an AD/DA
card.
Much of the development of 3D audio systems has been based on a single user/microphone
positioned in anechoic environments. This makes the analysis much easier but makes the
system only usable in these acoustic isolated environments. To prevent this, one thinks in
environment as a reverberant room modeled via a room impulse response (RIR) or the
equivalent room transfer function (RTF).
The RIR has a considerable duration because of the reverberation. Establishing the sample rate
to 44.1 kHz (standard de facto and also the standard for this Thesis) one requires thousands of
taps for the FIR filters that correctly model the RIR. This is the reason that 3D audio systems
need great amounts of computing capacity by the host. Because of it the Fourier theory is
indispensable: FFT algorithms for looking at the problem in the frequency domain and so
reduce the complexity.
Although these RIRs may cause difficulty in the implementation in real time, they enable to
study the effects of a room in the global system.
3D audio systems filter audio signals using a matrix of filters that account for the position of
the sound source relative to the receiver. That is, dependent on the polar coordinates (r, θ, ϕ).
Generally speaking, the solutions to these filters are made up of two pieces.
The first one is the Head-Related Transfer Functions (HRTF) matrix, which holds the directional
information for the receiver. The matrix coefficients are derived from transfer functions which
were previously measured or from a data base.
The second one is the Crosstalk Cancelling Network. It reverts the acoustic transfer functions
matrix (between loudspeakers and the ears of the listener) in the most realistic and efficient
way.
Because HRTFs vary a lot between humans, using generalized HRTFs degrades the perceived
sound stage.
The goal of this Thesis is to widely describe these 3D audio systems and also to develop a
system using Matlab® R2014b. To this end, RIRs are computed using a function and HRIRs are
extracted from data bases in four ways. The first way is to use a simple mathematical model.
The second and third way are two HRTFs data bases, one developed at the MIT Media Lab in
the USA [1] and the other at the Peking PKU in China. They include HRTFs for each ear left (L)
and right (R). The third way has the advantage that it also depends on the source-receiver
distance. The number of samples as well as the sample rate are fixed and of value 512 samples
and 44.1 kHz, respectively. Each HRTF corresponds to a finite impulse response (FIR filter) with
512 samples or taps.
The fourth way that HRTFs were obtained was by interpolating the HRTFs of the PKU database
in the polar coordinates (r, θ, ϕ).
Efficient convolution methods are required, powerful processors as well as interpolation
systems to minimize the amount of data. The reason is that if an auralization system convolves
an input sound with a BRIR that corresponds to a reverberation room with a reverberation
time of let’s say, 2 seconds, each BRIR will have approx. 23000 taps at 44.1 kHz.
An auralization system that operates in real time is a real challenge with the actual technology.
Files in this item
Google Scholar:Magro Sastre, Julio
This item appears in the following Collection(s)
Except where otherwise noted, this item's license is described as https://creativecommons.org/licenses/by-nc-nd/4.0/
Related items
Showing items related by title, author, creator and subject.
-
Procesado y visualización de datos masivos en campañas de Search Engine Marketing
Bayo Martín, Arturo
2015-01 -
Herramienta de carga, integración y procesado de datos abiertos
Paarup Peláez, David
2019-05