En la percepción del ser humano, el sonido/audio se procesa más rápido y no se altera tanto, como la visión/vídeo del ser humano, que es más subjetiva.
Eso explica por qué es tan importante en vídeos. El vídeo pasa por el Cortex y se procesa por el cerebro para la parte de percepción. El audio pasa directamente al hipotálamo, a la parte más rápida de reacción. Tiene sentido por motivos de supervivencia. Eso implicaba que podíamos reaccionar y deducir más rápido las situaciones peligrosas.
Dada esa explicación, a nosotros nos importa dar la máxima calidad. Esta calidad se define como una experiencia de contenido y, por lo tanto, depende del entorno. Si por ejemplo tenemos una persona en el metro sin cobertura, escuchando con auriculares su contenido, no es lo mismo que alguien viendo una película en su televisor del salón.
Adicionalmente, Instagram reproduce todo vídeo inicialmente silenciado. Esto significa que una asistencia visual de subtítulos quizás sea más importante en ese caso, que un efecto de sonido.
En cambio, la imagen es obvia. Destaca un vídeo en calidad según la calidad de imagen mostrada. Si tiene muy buena, da la percepción de ser mejor.
Ten lo mejor de ambos, pero debes adecuarte a la distribución nativa, al medio. A veces es vídeo, a veces es audio, pero haz los dos bien y no fallas.