Dispositivo inteligente para la localización de víctimas mediante señales sonoras.

Triviño Romano, Mario (2020). Dispositivo inteligente para la localización de víctimas mediante señales sonoras.. Thesis (Master thesis), E.T.S.I. Industriales (UPM).

Description

Title: Dispositivo inteligente para la localización de víctimas mediante señales sonoras.
Author/s:
  • Triviño Romano, Mario
Contributor/s:
  • Cerro Giner, Jaime del
  • González Herranz, Roberto
Item Type: Thesis (Master thesis)
Masters title: Automática y Robótica
Date: 29 June 2020
Subjects:
Faculty: E.T.S.I. Industriales (UPM)
Department: Automática, Ingeniería Eléctrica y Electrónica e Informática Industrial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (7MB) | Preview

Abstract

El objetivo de este proyecto es diseñar e implementar un prototipo de dispositivo multisensor aplicable en tareas de localización de personas sepultadas, total o parcialmente, tras una catástrofe como el colapso de un edificio o una avalancha. El equipo desarrollado se dispone sobre un robot móvil capaz de desplazarse por el escenario de la catástrofe. El diseño del sistema está orientado a dotar a los equipos de rescate profesionales con herramientas e instrumentos técnicos que faciliten sus tareas y reduzcan los tiempos de búsqueda y las situaciones de riesgo a las que se ven expuestos. Tras una minuciosa revisión de la literatura referente a los protocolos y equipos técnicos aplicados por los profesionales en este tipo de intervenciones, se determina que el sistema implementado trate de reproducir la técnica de “llamada-escucha”. Por este motivo, la solución propuesta se basa, principalmente, en el análisis de la información acústica del entorno del dispositivo, recogida mediante una matriz de micrófonos 4x4, en busca de localizar la posición de origen de las señales catalogadas, por un algoritmo inteligente, como posibles sonidos humanos. Secundariamente, la información acústica de la escena se complementa mediante información visual procedente de las imágenes capturadas por una cámara térmica y otra de espectro visible. Estos tres sensores, las dos cámaras y el array de micrófonos, se conectan a una tarjeta Raspberry pi, utilizada para controlar las entradas/salidas del sistema, y se sustentan mediante una estructura rígida modular, con un grado de libertad, expresamente diseñada para proteger los equipos y posibilitar su reorientación en el plano horizontal. Las sesiones experimentales realizadas con el prototipo final proporcionan resultados positivos. Por un lado, el dispositivo ha demostrado ser capaz de identificar correctamente la naturaleza de la fuente en un 89,6% de las muestras de audio ensayadas. Por otro lado, la estimación de la dirección de llegada del sonido se calcula con un error absoluto medio de 1,31 grados para fuentes situadas a más de 3 metros, y de 2,28 grados para las fuentes más próximas. Por último, el error relativo medio cometido en la estimación de la distancia es del 14,25% para fuentes cercanas y del 35,41% para fuentes lejanas. A nivel de diseño software, los diferentes elementos de la aplicación, scripts de Matlab y TensorFlow (Python), quedan integrados en una Matlab App que orquesta la ejecución de los dos subsistemas principales, dedicados a las tareas de identificación y localización sonora, e implementa una interfaz gráfica de usuario que permite ejecutar el ciclo del sistema y visualizar los resultados obtenidos. El primer subsistema software se encarga de determinar si un sonido es de procedencia humana o no lo es, para evitar perder tiempo localizando fuentes sonoras no correspondientes a posibles víctimas. El método seguido comienza con la extracción de características del audio pretratado mediante la técnica de conformación de haces retraso-suma (delay and sum beamforming), que permite obtener una única señal representativa de los 16 canales de audio originales. El proceso de extracción de características consta de tres etapas: primero, se obtiene el espectrograma de la señal aplicando la transformada corta de Fourier a la forma de onda de la señal beamformed; después, sobre cada ventana del espectrograma, se aplican 128 filtros mel y se obtiene el melgrama; y, por último, el melgrama se introduce a un modelo neuronal convolucional profundo de 19 capas, VGGish, que reduce la dimensionalidad de los datos y extrae 128 características por cada segundo de audio. Finalmente, estas características extraídas son utilizadas como entrada a varios clasificadores neuronales binarios, implementados por medio de modelos recurrentes profundos de aprendizaje supervisado, que otorgan la categorización final del sonido. Estos algoritmos de Machine Learning se denominan redes bidireccionales recurrentes de memoria a corto y largo plazo, BiLSTM, y han sido entrenados utilizando la base de datos de audio etiquetados ofrecida por Google Audioset. El segundo subsistema software implementado se ocupa de estimar la dirección y la distancia, relativas a la posición central de la matriz de micrófonos, a la que se encuentran las fuentes de sonido catalogadas como pertenecientes a la clase “sonido humano”. El algoritmo utilizado para llevar a cabo esta tarea es la correlación cruzada generalizada aplicada entre los 48 pares de señales de audio que se pueden formar con una matriz de micrófonos 4x4. Más concretamente, se implementa la variante de correlación cruzada con transformación de fase, GCC-PHAT, que mejora la robustez del algoritmo frente la reverberación existente en entornos cerrados. Los valores obtenidos mejoran ampliamente los datos resultantes de trabajos anteriores enmarcados dentro de este mismo proyecto. Por lo tanto, el prototipo desarrollado se considera un avance en la dirección correcta para alcanzar el diseño final de un equipo multisensor capacitado para colaborar en tareas de búsqueda y localización de personas sepultadas. El siguiente vídeo expone brevemente las principales características del diseño propuesto, y muestra dos ejemplos de aplicación en un escenario que pretende simular las condiciones de trabajo reales del dispositivo. https://youtu.be/r8FEQu7Sge0

Funding Projects

TypeCodeAcronymLeaderTitle
Government of SpainPID 2019105808RB-100UnspecifiedUnspecifiedUnspecified

More information

Item ID: 63437
DC Identifier: http://oa.upm.es/63437/
OAI Identifier: oai:oa.upm.es:63437
Deposited by: Alumno Mario / MTR Triviño Romano
Deposited on: 15 Sep 2020 15:03
Last Modified: 15 Sep 2020 15:03
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM