Pregunta:
Why can't you hear music well over a telephone line?
Danny Rancher
2014-03-19 22:26:44 UTC
view on stackexchange narkive permalink

¿Por qué no puedes escuchar bien la música a través de una línea telefónica?

Me hicieron esta pregunta en una entrevista para un puesto de estudio universitario y, lamentablemente, no tenía idea.

Me dieron la pista de que la frecuencia de muestreo del teléfono es de 8000 muestras por segundo.

biology.SE y dsp.SE podrían ser más apropiadas que physics.SE.
@user13107: No es biología.
¿@staticx "audición" no está relacionado con la biología?
@user13107: No está relacionado con la audición per se. Tiene que ver con las limitaciones técnicas del teléfono y la propia red. Lo que se escucha no tiene nada que ver con coclear, por ejemplo.
Irónicamente, uno de los primeros usos del teléfono fue [transmitir música] (http://earlyradiohistory.us/1909musi.htm).
@David,, aunque no irónicamente, los primeros sistemas de reproducción de música no se preocuparon por la fidelidad
Danny, las piezas que agregaste en las últimas dos ediciones serían más adecuadas como comentarios, no como parte de la pregunta. (Bueno, realmente no hay necesidad de vincular una respuesta a esta pregunta en un comentario sobre la pregunta en sí). Por favor, no vuelva a incluirlos en la pregunta.
Seven respuestas:
#1
+46
The Photon
2014-03-20 01:50:48 UTC
view on stackexchange narkive permalink

La pista dada por el entrevistador es una pista falsa. La limitación que está escuchando ha sido parte de la red telefónica desde mucho antes de que el muestreo digital formara parte del sistema telefónico. Y se aplica incluso en una llamada telefónica local donde la señal nunca se digitaliza.

Está relacionado con el hecho de que la conexión desde un teléfono fijo en su casa u oficina a la "oficina central" de la compañía telefónica es esencialmente una conexión continua a través de un par de cables. Por lo general, no hay circuitos activos como amplificadores, repetidores, digitalizadores u otros componentes electrónicos involucrados.

Dada la tecnología de hace 100 años cuando se diseñó por primera vez la red telefónica, una conexión de esta longitud solo podía transportar un ancho de banda muy limitado. Los ingenieros que diseñaron la red hicieron numerosos experimentos para determinar qué frecuencias debían transmitirse para que las personas entendieran el habla regular de los demás, y diseñaron la red solo para asegurarse de que esas frecuencias se transmitieran. No agregaron componentes costosos al sistema si no eran necesarios para lograr este objetivo.

Por ejemplo, podrían haber usado filtros pasivos para "enfatizar" las altas frecuencias en circuitos que eran un poco más largos. (y así, naturalmente, tienden a cortar las frecuencias altas) que el promedio, o cortar las frecuencias altas en circuitos que eran más cortos que el promedio, para garantizar que todos los usuarios obtengan la misma calidad de conexiones en la mayor medida posible.

Más tarde, cuando comenzaron a usar multiplexación para conectar varios circuitos de voz a través de un solo cable (para conexiones entre ciudades, por ejemplo), el ancho de banda limitado les permitió realizar más conexiones en un solo cable, y en ese momento, la limitación del ancho de banda se habría aplicado deliberadamente mediante el filtrado para garantizar que las conversaciones no se intercomunicaran entre sí.

Finalmente, cuando el muestreo digital y la transmisión digital se introdujeron en la red, entraron en juego las limitaciones del teorema de muestreo discutidas en las otras respuestas. Afortunadamente, las limitaciones de ancho de banda introducidas en los primeros días de las redes telefónicas analógicas permitieron que la digitalización se hiciera a velocidades de bits realmente bajas sin degradar la calidad de la señal por debajo de lo que había estado todo el tiempo, y nuevamente esto permite que se lleven a cabo más conversaciones en un cable determinado en la red.

Editar

Quiero resumir con un punto clave que publiqué anteriormente en un comentario sobre otra respuesta:

La frecuencia de muestreo digital (y más tarde, los métodos de compresión) que se utilizan en la telefonía digital se eligió para que coincidiera con las características de la red telefónica analógica, y no al revés.

+1 por transmitir que el ancho de banda de 4kHz de la línea ya era una propiedad antes de lo digital. Esto permitió que las primeras aplicaciones de señales digitales se utilizaran en los troncales. Los restos de eso se pueden ver en las especificaciones para los servicios ISDN y T-1, donde las tasas de bits disponibles son múltiplos sospechosos de muestras de 8 bits a 8 kHz. Estos servicios se crearon originalmente para líneas troncales y, cuando se introdujeron, las llamadas de larga distancia mejoraron en calidad debido a la inmunidad al ruido de las señales digitales en comparación con todas las soluciones analógicas más antiguas.
"No agregaron componentes costosos al sistema si no eran necesarios para lograr este objetivo". Exactamente. Y durante mucho tiempo, el micrófono fue del tipo de gránulos de carbono, por lo que también puso un poco de límite a la calidad de sonido alcanzable. (Ninguna de las cuales es la respuesta que se suponía que debía dar el OP, refiera la pista que se le dio, pero aún así.)
@peterG, Ja, ja, no vi esa parte sobre la pista del entrevistador --- supongo que estaban buscando una respuesta en particular, incluso si no es realmente la respuesta "verdadera".
¿No es la misma red que ahora transmite señales de Internet? Con un ancho de banda del orden de 10 Mbps, podemos transmitir fácilmente no solo audio de buena calidad, ¡sino también un video completo! No entiendo por qué la calidad del teléfono todavía tiene que ser tan mala.
@DarioP: Porque un teléfono que funcionaba en la red antigua tiene que funcionar en la nueva y sería incapaz de mejorar la calidad. Dado que los teléfonos fijos son bastante anticuados en estos días, es poco probable que veamos avances significativos, pero consulte Voice-Over-LTE para llamadas de voz de alta calidad en redes móviles modernas.
@ThePhoton Creo que está asumiendo demasiado sobre el entrevistador. Insinuar una parte de la misma que creen que sería fácil de entender para el entrevistado, incluso si no saben mucho sobre cómo funciona POTS, no significa que rechazarían una respuesta más profunda que requiera un mayor conocimiento histórico de cómo el sistema fue diseñado originalmente.
@DarioP, en realidad, la red telefónica e Internet son muy diferentes. La red telefónica está "conmutada por circuitos" mientras que Internet está "conmutada por paquetes" y esta diferencia de arquitectura aún mantiene las dos redes separadas AFAIK. En todo caso, es posible que el tráfico telefónico esté comenzando a realizarse a través de Internet, pero no conozco ninguna situación en la que el tráfico de Internet se lleve a cabo en la red telefónica. Y, por supuesto, también hay teléfonos de Internet que funcionan por diseño a través de Internet en lugar de la red telefónica heredada, por lo que las cosas están comenzando a converger.
@DanNeely, tiene razón en que es posible que el entrevistador hubiera aceptado una respuesta como la mía. Pero el hecho es que dirigió a los candidatos hacia una respuesta históricamente inexacta.
Gracias por las respuestas, no soy un experto en el campo y estaba viendo el mismo cable retorcido entrando tanto en mi teléfono como en mi módem. Está claro que una gran parte de la infraestructura oculta es radicalmente diferente.
@DarioP, DSL es un caso especial. Utiliza el mismo cable para transmitir voz y datos, pero con diferentes bandas de frecuencia. Sería un buen tema para una pregunta, pero tal vez en electronics.stackexchage.com en lugar de en física.
Entonces, ¿cómo es su resumen? "La frecuencia de muestreo digital (y más tarde, los métodos de compresión) utilizados en la telefonía digital se eligieron para que coincida con las características de la red telefónica analógica, no al revés".relevante para mi pregunta "¿Por qué no puedes escuchar bien la música a través de una línea telefónica?"de cualquier manera...
@DannyRancher, porque la pregunta es * por qué * el sistema telefónico es como es.Y la razón por la cual es el resultado de la progresión histórica de la tecnología como lo describí en mi respuesta.Además, si llama a su vecino de al lado, es muy probable que no se esté utilizando ningún procesamiento digital en esa llamada, pero aún así no podrá transmitir bien la música a través de esa conexión.Estoy enfatizando que la pista del entrevistador es engañosa en cuanto a * por qué * el sistema telefónico es como es.
#2
+25
John Rennie
2014-03-20 00:43:31 UTC
view on stackexchange narkive permalink

Según Wikipedia, el rango de frecuencia del servicio telefónico antiguo es de 300 Hz a 3,4 kHz. Por lo tanto, a cualquier música que escuche le faltarán las frecuencias bajas y las frecuencias altas. Si recuerda la última vez que escuchó música en espera en el teléfono, probablemente recordará que sonaba un poco apagada, pero debo decir que aún es reconocible, es decir, puede identificar qué música se está reproduciendo. Me molestaría si mi Hi-Fi sonara así, pero la música no está totalmente destrozada.

En mi juventud solía ser un entusiasta de Hi-Fi, y las especificaciones técnicas de los fabricantes alardean de que sus equipos tenían un espectro de frecuencia plano de alrededor de 20Hz a 20kHz. El problema de reproducir esto en un sistema telefónico es que, como menciona DisplayName en su respuesta, para transmitir una frecuencia $ f $ a través de una red digital se requiere una frecuencia de muestreo de al menos $ 2f $ de lo contrario, obtendrá alias. Proporcionar ancho de banda cuesta dinero y reduce la capacidad de llamadas (es decir, menos llamadas por fibra óptica), por lo que las redes troncales de los teléfonos utilizan una frecuencia de muestreo de solo 8 kHz y, por lo tanto, la frecuencia más alta permitida es de 4 kHz. El límite superior es un poco más bajo que esto porque es difícil diseñar filtros de audio con cortes muy nítidos. El límite de 3.4kHz que mencioné anteriormente es presumiblemente para asegurar que no pase ninguna frecuencia cercana a los 4kHz.

Es discutible si se requiere un rango de frecuencia tan grande para la reproducción de música. En un chequeo de audición reciente me dijeron que no puedo escuchar nada por encima de 12 kHz (demasiados conciertos de Black Sabbath en mi juventud) pero la música en mi Hi-Fi todavía me suena bien.

Esta limitación se ha incorporado al sistema telefónico desde antes de que se utilizara la tecnología digital. ¿Puedes explicar porque?
Eliminé un comentario inapropiado y la siguiente discusión.
@ThePhoton: es un buen punto, es peligrosamente fácil olvidar que el mundo no siempre ha sido digital. Sin embargo, no actualizaré mi respuesta ya que ha dado una descripción completa. Desde un comienzo desfavorable, creo que ahora tenemos un excelente conjunto de respuestas a la pregunta.
En realidad, el requisito no es que un filtro de 3400Hz bloquee algo por encima de 4KHz, sino que para cualquier frecuencia * f * sobre 4KHz, la atenuación combinada en * f * y 4000- * f * sea adecuada; Por lo tanto, los diseñadores de filtros tienen alrededor de 1KHz de banda de paso para jugar, en lugar de solo 500Hz.
#3
+13
DisplayName
2014-03-19 22:42:02 UTC
view on stackexchange narkive permalink

Eche un vistazo al teorema de Nyquist. La frecuencia de muestreo debe ser al menos el doble de la frecuencia de muestreo. Es decir. por eso el oído humano puede oír hasta ca. 20 kHz y las muestras de CD a 44,1 kHz.

Wikipedia Teorema de Nyquist-Shannon

¿Qué escuchamos en su lugar si escuchamos (originalmente ) ¿Música de 5 Hz a 20 kHz a través del teléfono? ¿Todo lo que está por encima de 8 kHz simplemente se ha ido o hay otro efecto? Por ejemplo, ¿serán audibles 14 kHz de alguna manera (pero de manera diferente) a 7 kHz?

O en otras palabras: "¿Qué está sucediendo con las frecuencias que están por encima del umbral de Nyquist?"

Faltan las frecuencias. Tan sencillo como eso. No presente. En cambio, lo que hace nuestro oído es recordar lo que debería estar allí, basado en la experiencia. Entonces, cuando hablas con alguien, sabes por teléfono que tu cerebro agrega lo que debe estar allí. Aún así, me di cuenta de que la primera vez que hice esto, mi cerebro me dio la información real (sin frecuencias) y solo más tarde aprendí que puede simular el resto, basándose en el conocimiento de la voz del oponente. Consulte Wikipdedia: CELP, que utiliza un enfoque similar para la compresión de audio.

Si desea saber más sobre las razones de la frecuencia de muestreo de 8 kHz, puede volver a utilizar wikipedia: Wikipedia: PSTN, el estándar utilizado es G.711. También Frecuencia de muestreo y habla humana, que todavía no he leído, incluye lo que necesita como mínimo para el habla humana, incluidos gráficos y explicaciones. Por último, puede consultar Wikipedia: MP3 para comprender la psicoacústica. Hint, un ritmo enmascara las cosas que vienen después, por ejemplo. Entonces esas cosas se pueden soltar, ya que no las escuchas y otras cosas agradables. : D

¿Podría explicar lo que escuchamos _en lugar_ si _escuchamos (originalmente) $ 5 \ text {Hz} $ a $ 20 \ text {kHz} $ música a través del teléfono? ¿Todo lo que está por encima de $ 8 \ text {kHz} $ simplemente se ha ido o hay otro efecto? Por ejemplo, ¿$ 14 \ text {kHz} $ será audible de alguna manera (pero de manera diferente) a $ 7 \ text {kHz} $?
Faltan las frecuencias. Tan sencillo como eso. No presente. En cambio, lo que hace nuestro oído es recordar lo que debería estar allí, basado en la experiencia. Entonces, cuando hablas con alguien, sabes por teléfono que tu cerebro agrega lo que debe estar allí. Aún así, me di cuenta de que la primera vez que hice esto, mi cerebro me dio la información real (que carecía de frecuencias) y solo más tarde descubrí que puede simular el resto, basándose en el conocimiento de la voz del oponente. Consulte http://en.wikipedia.org/wiki/Code_Excited_Linear_Prediction CELP, que utiliza un enfoque similar para la compresión.
@DisplayName Debería agregar (editar) esa información a su respuesta, creo que es relevante.
Esta limitación se ha incorporado al sistema telefónico desde antes de que se utilizara la tecnología digital. ¿Puedes explicar porque?
Las tasas de muestreo son una pista falsa aquí. No influyen en el motivo por el que un sistema originalmente analógico está limitado a un ancho de banda inferior a 4 kHz. Es una cuestión de pares trenzados largos y sin amplificación que van de regreso al CO, y cuál fue un diseño razonable para hacer que una voz humana atraviese este sistema. No había ninguna razón para necesitar la fidelidad para llevar música, por lo que no estaba incorporada.
@PhilPerry bueno, ahora hay una razón para llevar música y encontramos una manera de transmitirla a través de las mismas líneas usando algunos DSP y magia que se llama DSL, VDSL, etc.
... y todavía es muy limitado en rango y ancho de banda, porque tiene que ser compatible con la red existente, en particular los cables. Sin magia, solo algunos trucos de compresión que puedes hacer con digital.
@PhilPerry IC. Entonces, la verdadera razón fue el TCO y el ROI. ¿También IIRC las primeras líneas estaban cubiertas de papel o textil y hechas de estaño? Así que algunas líneas son solo un estándar técnico inferior. Cualquier otra cosa habría sido más cara o aún no se habría inventado.
Sí, faltan las frecuencias, pero aún oirá algo, pero se distorsionará y lo que oirá estará por debajo de la frecuencia de Nyquist.
#4
+1
user130144
2014-03-20 02:56:40 UTC
view on stackexchange narkive permalink

Esto se debe al procesamiento de señales, no a la física. Los operadores de telefonía aplican una compresión agresiva optimizada para grabar bien solo el habla. El códec AMR, todavía en uso, data de 1999 y alcanza unos 13 kbit / s. Cualquier otro códec tampoco grabaría bien la música a esa tasa de bits. Incluso MIDI consume más datos.

Esta limitación existe desde antes de que la compañía telefónica considerara aplicar compresión a las señales digitales o incluso digitalizar las señales en su red. Y se relaciona con la física, específicamente el ancho de banda de las conexiones analógicas en la red. Los esquemas de compresión utilizados están diseñados para coincidir con las características de la red existente, no al revés.
AMR es un códec de teléfono ** móvil **. Los operadores de telefonía de línea fija no aplican compresión. El ancho de banda de la línea fija es más económico que los costos de cálculo. Además, los teléfonos móviles tienen soporte para múltiples códecs. Sería ** más fácil ** admitir música en teléfonos móviles; simplemente indique que utilizará un códec de alta calidad.
Desconcertante. ¿Dónde se sigue utilizando analógico y qué impondría naturalmente frecuencias de corte de 300 y 3500 Hz? Hojeé [Nyquist] (http://web.archive.org/web/20060706192816/http://www.loe.ee.upatras.gr/Comes/Notes/Nyquist.pdf) y [Shannon] (http: / /www.stanford.edu/class/ee104/shannonpaper.pdf), pero no discuten las limitaciones de ingeniería específicas de su tiempo. El estándar común para la telefonía _digital_ es PCM G.711 de ley μ, de 1972. Eso filtra toda la comunicación si algunos enlaces no pueden coincidir con un estándar más alto.
@user130144, Los teléfonos fijos todavía suelen tener una conexión analógica a la oficina central. El mío en casa se basa en líneas que se instalaron hace 50-80 años.
#5
  0
Haunce
2014-03-19 22:57:42 UTC
view on stackexchange narkive permalink

Las compañías telefónicas solo construyeron el teléfono para transmitir frecuencias de voz. Las frecuencias de graves y tweeters generalmente están fuera del rango para lo que se construyeron los teléfonos. Solía ​​escuchar un programa de radio en el que cuando alguien llamaba con una broma aburrida, jugaban a los grillos cantando a la persona que hablaba por teléfono. Les tomó mucho tiempo y varios momentos incómodos antes de que se dieran cuenta de que la persona que llamaba por teléfono no podía oír los grillos, pero los radioescuchas sí. Así que hicieron una prueba al aire y parchearon grillos al teléfono y al teléfono para transmitir. Efectivamente, el sistema telefónico bloqueó casi por completo a los grillos.

En realidad, es una anécdota bastante bonita. Pero realmente no responde a la pregunta mucho más allá de que los teléfonos no fueron diseñados para música. ¿Qué pasa con esas frecuencias? ¿De hecho están completamente silenciados (como parece sugerir su anécdota)? Si es así, ¿por qué?
@GlenTheUdderboat los filtros originales fueron diseñados para pasar frecuencias de rango de voz "normales" y nada más, maximizando así la claridad de la conversación y minimizando el ancho de banda total requerido. Incluso en aquellos tiempos analógicos de hace mucho tiempo, el ancho de banda significaba potencia.
@CarlWitthoft Nunca me di cuenta de que había un _filtro_ real (e intencional) (que explicaría completamente el "construido para"; como en la supresión real). ¿Tiene (quizás) una referencia de algún tipo?
@GlenTheUdderboat En esta página aparecen algunos comentarios relevantes: http://cnx.org/content/m15683/latest/?collection=col10503/latest.
@GlenTheUdderboat: Esto es comúnmente entendido por ingenieros electrónicos. La ausencia de tales filtros causa alias. El muestreo de una señal de 5 Khz a 4 Khz produce una señal que es indistinguible de una señal de 3 Khz. Por lo tanto, cada entrada analógica que se va a muestrear siempre se filtra primero. En los viejos tiempos, las propias líneas actuaban como tal filtro.
#6
-1
unsinn
2014-03-20 20:08:20 UTC
view on stackexchange narkive permalink

Hay varias razones. Enfrentémonos solo al canal digital.

  1. Solo se está utilizando una señal de banda limitada. G.711 utiliza una frecuencia de muestreo de 8 kHz, lo que da como resultado un ancho de banda utilizable de 4 kHz que queda para la voz. Está bien para telefonía de voz pero casi inutilizable para música. Otros códecs utilizan diferentes anchos de banda, por ejemplo, G.722 (telefonía de banda ancha) utiliza una frecuencia de muestreo de 16 kHz, ancho de banda utilizable efectivo ~ 8 kHz. Esto suena mucho mejor.

  2. Un caso especial tiene lugar en los códecs de teléfonos móviles. Estos son los llamados códecs híbridos. Estos códecs están altamente optimizados para la transmisión de voz (los llamados códecs híbridos). Utiliza diferentes tipos de modelos del tracto vocal que se excitan con una forma de señal muy reducida de su voz. Si te gustan estas cosas, busca: Baseband-RELP, GSM Fullrate Codec, CELP. Pero cuidado: esto es algo pesado.

#7
-3
Danny Rancher
2014-03-22 19:03:36 UTC
view on stackexchange narkive permalink

Usando el teorema de Nyquist, los teléfonos solo transmitirán frecuencias que sean la mitad de la frecuencia de muestreo llamada frecuencia de Nyquist correctamente; por lo tanto, con una frecuencia de muestreo de 8000 muestras por segundo, solo transmitirá correctamente los sonidos con una frecuencia inferior a 4000 Hz.

La frecuencia fundamental (el tono que escuchas) de la voz humana está en el rango de 80 a 1100 Hz. Las frecuencias armónicas (frecuencias componentes con una frecuencia de un múltiplo entero de la frecuencia fundamental) de la voz humana pueden ser mucho más altas. Por lo tanto, una frecuencia de muestreo de 8000 muestras por segundo es suficiente para transmitir voces humanas sin muchos problemas (los armónicos aún pueden exceder la frecuencia de Nyquist).

Cuando se transmiten frecuencias por encima de la frecuencia de Nyquist, como en el caso de la transmisión de música , se produce el alias. Esto causa distorsión. Esto se detalla en el diagrama a continuación.

aliasing

La línea roja es la señal original. Los puntos azules representan las veces que se toman muestras de la señal original. La línea azul es la señal reconstruida por el oído a partir de una frecuencia de muestreo insuficiente. Como puede ver, se ha distorsionado por la señal roja y ahora tiene una frecuencia más baja; una frecuencia más baja que la frecuencia de Nyquist de la frecuencia de muestreo.

Escribí un código simple de Matlab para una experiencia de aliasing.

ADVERTENCIA: Baje el volumen de los altavoces / auriculares antes de la ejecución.

 % Aliasing en Matlab.% http://physics.stackexchange.com/questions/104281/ ¿Por qué-no-puedes-escuchar-música-bien-por-una-línea-telefónica-f = 8000% de frecuencia de muestreo (Hz) nyquistfrequency = fs / 2% Nyquist frecuencia (Hz) freq = [1000; 2000; 3500; % ^ estas frecuencias funcionarán bien 4500; % v estas frecuencias experimentarán aliasing y distorsionarán a una frecuencia más baja que la frecuencia de Nyquist 6000; 7000]; % de duración de las frecuencias (Hz) = 1; % de duración de la señal número de muestras = ceil (duración * fs); % número de muestras
sample_times = (1: numberofsamples) / fs; [h w] = size (freq); for i = 1: h, currentfrequency = freq (i)% current Frequency simplesound = sin (2 * pi * currentfrequency * sample_times); % crear sonido wavplay (simpleound, fs)% reproducir sonido;  
¿Alguien puede explicar por qué se votó en contra?
Estás siendo testigo de la comunidad autoritaria physics.stackexchange en funcionamiento :)
No me di cuenta de que eras el OP.Parece ... una mala forma para marcar su propia respuesta como la aceptada si usted es el que pregunta.Dicho esto, no veo por qué alguien votaría negativamente a menos que hubiera información incorrecta, en cuyo caso también deberían dejar un comentario porque ahora la gente como yo está sentada aquí confundida.
En mi opinión, esta respuesta es 100% sobre el tema y 100% correcta (por eso lo marqué así).¡Las otras respuestas que hablan sobre la historia del intercambio telefónico son completamente irrelevantes para mi pregunta!¿Ejecutó mi código de Matlab todavía?
Los circuitos de digitalización casi invariablemente utilizarán un filtro antes de digitalizar para evitar el aliasing (ver por ejemplo [filtro anti-aliasing] (https://en.wikipedia.org/wiki/Anti-aliasing_filter)).Entonces, en lugar de que las frecuencias altas se muestren como frecuencias bajas, se atenúan (en el caso más simple, con un filtro RC).Eso hace que gran parte de esta respuesta sea simplemente incorrecta, o más bien, no es aplicable a la pregunta.¿Puedo sugerirle que considere aceptar una respuesta más correcta o que edite la suya propia?


Esta pregunta y respuesta fue traducida automáticamente del idioma inglés.El contenido original está disponible en stackexchange, a quien agradecemos la licencia cc by-sa 3.0 bajo la que se distribuye.
Loading...