ثبت بازخورد

لطفا میزان رضایت خود را از دیجیاتو انتخاب کنید.

Very satisfied Satisfied Neutral Dissatisfied Very dissatisfied
واقعا راضی‌ام
اصلا راضی نیستم
چطور میتوانیم تجربه بهتری برای شما بسازیم؟

نظر شما با موفقیت ثبت شد.

از اینکه ما را در توسعه بهتر و هدفمند‌تر دیجیاتو همراهی می‌کنید
از شما سپاسگزاریم.

جدیدترین اخبار و روندهای دنیای فناوری را با نگاهی دقیق و حرفه‌ای، در کانال تلگرام دیجیاتو دنبال کنید.

ورود به کانال تلگرام دیجیاتو
تکنولوژی

فرمت MP3 و آهنگ سوزان وگا: چگونه آهنگ Tom’s Diner تبدیل به الگویی برای فشرده‌سازی فایل‌های صوتی شد؟

داستان جذاب و تاریخی آهنگ Tom’s Diner از سوزان وگا و نقش حیاتی آن به‌عنوان الگوی کالیبراسیون برای ساخت و توسعه فرمت صوتی MP3.

مهرانا عیسی‌پور
نوشته شده توسط مهرانا عیسی‌پور تاریخ انتشار: ۳ خرداد ۱۴۰۵ | ۲۲:۰۰

در دیجیاتو ثبت‌نام کنید

جهت بهره‌مندی و دسترسی به امکانات ویژه و بخش‌های مختلف در دیجیاتو عضو ویژه دیجیاتو شوید.

عضویت در دیجیاتو

کافه‌ای در نیویورک، الگوریتمی در آلمان: داستان واقعی تولد MP3...

فهرست مطالب

گاهی اوقات، بزرگ‌ترین انقلاب‌های تکنولوژیک نه در آزمایشگاه‌های استریل و پر از کابل‌های پیچیده، بلکه در دل ساده‌ترین اتفاقات روزمره متولد می‌شوند. تصور کنید در حال نوشیدن یک فنجان قهوه در یک رستوران معمولی در نیویورک هستید؛ صدای به هم خوردن فنجان‌ها، همهمه آرام مشتریان و زنی که در گوشه‌ای نشسته‌ است و دنیای اطرافش را با کلمات توصیف می‌کند. هیچ‌کس نمی‌توانست حدس بزند که ترانه‌ای که درباره چنین صحنه ساده‌ای سروده شده، روزی پایه‌های بزرگ‌ترین انقلاب در صنعت موسیقی دیجیتال را بنا خواهد کرد. :)

این داستان، روایت شگفت‌انگیز آهنگ «Tom’s Diner» اثر خواننده و ترانه‌سرای آمریکایی، «سوزان وگا» (Suzanne Vega) و یک مهندس آلمانی به نام «کارل‌هاینز براندنبورگ» (Karlheinz Brandenburg) است. تلاقی این دو دنیای کاملاً متفاوت یعنی موسیقی آکاپلا (بدون ساز) و ریاضیات پیچیده فشرده‌سازی داده‌ها، منجر به خلق فرمتی شد که نحوه گوش دادن انسان به موسیقی را برای همیشه تغییر داد: فرمت MP3. در این مقاله، به کالبدشکافی این رویداد تاریخی می‌پردازیم و می‌بینیم که چگونه صدای نفس‌های یک خواننده، الگوریتم‌های خشک ریاضی را به چالش کشید.

دهه 1980: رؤیای فشرده‌سازی و معضل حجم داده‌ها

برای درک اهمیت این دستاورد، باید به شرایط تکنولوژیک اواخر دهه 1980 میلادی بازگردیم. دیسک‌های فشرده (CD) به تازگی وارد بازار شده بودند و کیفیت صدای بی‌نظیری را ارائه می‌دادند. یک فایل صوتی با کیفیت CD، داده‌ها را با نرخ خیره‌کننده 1.4 مگابیت بر ثانیه (Mbps) منتقل می‌کرد. این حجم از داده برای ذخیره‌سازی روی یک دیسک فیزیکی عالی بود، اما برای انتقال در شبکه‌های ارتباطی آن زمان (مانند خطوط تلفن دیال‌آپ) یا ذخیره روی حافظه‌های محدود کامپیوترهای شخصی، یک کابوس مطلق به‌شمار می‌رفت.

در مؤسسه تحقیقاتی «فراونهوفر» (Fraunhofer Institute) در آلمان، تیمی از مهندسان به رهبری کارل‌هاینز براندنبورگ در حال کار روی پروژه‌ای جاه‌طلبانه بودند. هدف آن‌ها فشرده‌سازی فایل‌های صوتی دیجیتال بود؛ به طوری که حجم فایل‌ها به 1/12 حجم اصلی کاهش یابد، اما گوش انسان متوجه افت کیفیت نشود.

روان‌شناسی شنوایی (Psychoacoustics): فریب دادن مغز انسان

براندنبورگ و تیمش برای رسیدن به این هدف، به جای تمرکز صرف بر فشرده‌سازی ریاضی، به سراغ علم «سایکوآکوستیک» (روان‌شناسی شنوایی) رفتند. این علم بررسی می‌کند که گوش و مغز انسان چگونه صداها را درک می‌کنند.

الگوریتم آن‌ها بر اساس پدیده‌ای به نام «پوشش شنوایی» (Auditory Masking) طراحی شد. به زبان ساده، اگر دو صدا به‌طور همزمان پخش شوند که یکی بلندتر و دیگری ضعیف‌تر باشد، گوش انسان صدای ضعیف‌تر را نمی‌شنود. بنابراین، الگوریتم فشرده‌سازی می‌توانست داده‌های مربوط به آن صدای ضعیف‌تر را به سادگی پاک کند، بدون اینکه شنونده متوجه تغییری شود. این ایده روی کاغذ و در آزمایش‌های اولیه با موسیقی‌های پاپ و ارکسترال به‌خوبی کار می‌کرد. سازهای شلوغ و درامزها پوشش صوتی خوبی ایجاد می‌کردند. اما یک مشکل اساسی وجود داشت: صدای انسان.

ورود سوزان وگا: بحران در آزمایشگاه فراونهوفر

در سال 1988، تیم فراونهوفر الگوریتم خود را توسعه داده بود و به‌نظر می‌رسید به موفقیت نزدیک شده‌اند. تا اینکه یک روز، براندنبورگ در حال قدم زدن در راهروی مؤسسه بود و از رادیویی صدای آهنگی را شنید که او را در جای خود میخکوب کرد. آن آهنگ، نسخه آکاپلای Tom’s Diner از سوزان وگا بود.

این قطعه موسیقی هیچ سازی نداشت. تنها صدای خالص، گرم و دقیق سوزان وگا بود که در سکوت کامل استودیو ضبط شده بود. هیچ صدای پس‌زمینه‌ای برای پنهان کردن خطاهای الگوریتم وجود نداشت. براندنبورگ فوراً یک سی‌دی از این آهنگ تهیه کرد و آن را به آزمایشگاه برد تا الگوریتم خود را روی آن آزمایش کند.

نتیجه فاجعه‌بار بود.

وقتی الگوریتم اولیه MP3 روی آهنگ Tom’s Diner اعمال شد، صدای سوزان وگا شبیه به صدای هیولایی مکانیکی شده بود. الگوریتم که عادت داشت فرکانس‌های اضافه را در پس‌زمینه سازها پنهان کند، در سکوت بین کلمات وگا گیج می‌شد. پژواک‌های ریزی که در اثر فشرده‌سازی ایجاد می‌شدند (موسوم به Pre-echo) در سکوت بین هجاهای کلمات به وضوح شنیده می‌شدند و صدای نفس کشیدن خواننده را کاملاً تخریب می‌کردند.

هزاران بار گوش دادن: نبردی برای کمال

براندنبورگ متوجه شد که اگر الگوریتم او نتواند صدای خالص انسان را فشرده کند، هرگز به یک استاندارد جهانی تبدیل نخواهد شد. Tom’s Diner به سخت‌ترین تست استرس برای تیم توسعه‌دهنده تبدیل شد.

روایت است که براندنبورگ این آهنگ را بیش از 1000 بار در آزمایشگاه گوش داد. او و تیمش خط به خط کدهای الگوریتم را تغییر می‌دادند، آهنگ را فشرده می‌کردند، دوباره گوش می‌دادند و به دنبال کوچک‌ترین اعوجاج صوتی می‌گشتند. صدای وگا به دلیل دامنه فرکانسی خاص و سکوت‌های ناگهانی بین کلمات، به یک «مدل کالیبراسیون» بی‌نقص تبدیل شده بود.

آن‌ها ماه‌ها زمان صرف کردند تا ریاضیات فیلترها را تنظیم کنند. آن‌ها باید به الگوریتم می‌آموختند که در صورت عدم وجود صدای بلند برای پوشش (Masking)، با احتیاط بیشتری داده‌ها را حذف کند و دقت پردازش در لحظات سکوت یا تغییرات ناگهانی صدا را افزایش دهد. در نهایت، پس از تلاش‌های طاقت‌فرسا، آن‌ها موفق شدند الگوریتمی بنویسند که از پسِ صدای سوزان وگا برآمد.

پیروزی تکنولوژی و تولد رسمی MP3

با حل شدن مشکل Tom’s Diner، الگوریتم تصفیه شد و توانست تقریباً هر نوع صدایی را با کیفیتی قابل قبول و در حجم بسیار پایین فشرده کند. در سال 1992، این الگوریتم به عنوان بخش سوم از استاندارد MPEG-1 (MPEG-1 Audio Layer III) پذیرفته شد و پس از آن، پسوند فایل .mp3 در سال 1995 متولد گردید.

تولد این فرمت، دومینویی را به حرکت درآورد که صنعت چند میلیارد دلاری موسیقی فیزیکی را ویران کرد و از نو ساخت. شبکه‌های اشتراک‌گذاری فایل مانند Napster متولد شدند، دستگاه‌های پخش قابل حمل مانند iPod شرکت اپل با شعار «هزار آهنگ در جیب شما» دنیا را تسخیر کردند، و همه این‌ها مدیون الگوریتمی بود که با صدای یک زن در یک کافه نیویورکی تنظیم شده بود.

نکات جالب و ابعاد پنهان داستان

1. «مادر MP3»: به دلیل نقش حیاتی این آهنگ در توسعه این فرمت، در دنیای تکنولوژی و مهندسی صدا، به سوزان وگا لقب «مادر MP3» داده‌اند.

2. واکنش سوزان وگا: وگا تا سال‌ها از این ماجرا بی‌خبر بود. در اواخر دهه 90 میلادی، زمانی که پدیده MP3 در حال اوج‌گیری بود، یکی از طرفدارانش مقاله‌ای را برای او فرستاد که این داستان در آن ذکر شده بود. وگا در مصاحبه‌ای اعلام کرد که ابتدا گیج شده بود، اما بعد احساس افتخار کرد که صدای او به‌عنوان استانداردی برای کمال صوتی در نظر گرفته شده است.

3. دیدار تاریخی: در سال 2007، مستندسازی به نام یک رویداد ویژه ترتیب داد و کارل‌هاینز براندنبورگ و سوزان وگا را برای اولین بار با هم روبرو کرد. براندنبورگ در این دیدار از وگا بابت اینکه مجبور شده بود هزاران بار آهنگ او را گوش دهد و تقریباً دیوانه شود، به شوخی عذرخواهی کرد!

4. لوکیشن واقعی آهنگ: غذاخوری تام (Tom’s Restaurant) که آهنگ در آن سروده شده، یک مکان واقعی در نبش خیابان ۱۱۲ و برادوی در نیویورک است. جالب اینجاست که نمای بیرونی همین رستوران، به‌عنوان لوکیشن غذاخوری سریال کمدی مشهور Seinfeld (ساینفلد) نیز استفاده شده است. (پاورقی مهرانا: واقعا فکت بی‌ربطی بود ولی خب گفتم بهتون بگم)

تاثیر فرهنگی و ماندگاری

اهمیت این داستان فراتر از یک دستاورد مهندسی است. Tom’s Diner نمادی از نیاز همیشگی تکنولوژی به هنر برای رسیدن به بلوغ است. فرمت MP3 می‌توانست فقط یک پروژه دانشگاهی باقی بماند که برای صداهای ماشینی یا موسیقی‌های الکترونیک کارآمد باشد، اما رویارویی با پیچیدگی‌های ظریف صدای انسان (نفس‌ها، مکث‌ها، احساسات نهفته در تُن صدا) مهندسان را مجبور کرد تکنولوژی خود را ارتقا دهند.

امروزه، اگرچه فرمت‌های جدیدتر و پیشرفته‌تری مانند AAC یا FLAC به وجود آمده‌اند، اما MP3 همچنان یکی از شناخته‌شده‌ترین و پرکاربردترین فرمت‌های دیجیتال در جهان است. هر بار که روی گوشی هوشمند خود پادکستی پخش می‌کنید یا آهنگی را استریم می‌کنید، در واقع در حال استفاده از میراث الگوریتمی هستید که سال‌ها پیش برای حفظ زیبایی صدای سوزان وگا تنظیم شد.

جمع‌بندی: صدایی که جهان دیجیتال را کالیبره کرد

داستان فرمت MP3 و آهنگ Tom’s Diner روایتی جذاب از چگونگی شکل‌گیری دنیای مدرن ماست. این داستان نشان می‌دهد که نوآوری‌های بزرگ، اغلب در تقاطع دیسیپلین‌های نامرتبط اتفاق می‌افتند؛ جایی که فیزیکدانان و ریاضیدانان مجبور می‌شوند به ظرافت‌های یک اثر هنری گوش بسپارند. سوزان وگا ترانه‌ای درباره روزمرگی و انزوای شهری نوشت، اما صدای او به پلی تبدیل شد که جهان را به عصر ارتباطات و اشتراک‌گذاری دیجیتال متصل کرد. امروزه، در میان میلیاردها فایل صوتی که در سراسر اینترنت در حال تبادل هستند، کدهای ژنتیکی نامرئی همان تنظیمی وجود دارد که براندنبورگ برای بی‌نقص شنیده شدن صدای یک زن در یک کافه نیویورکی خلق کرد.

مهرانا عیسی‌پور
مهرانا عیسی‌پور

از سال ۱۳۹۶ به‌صورت حرفه‌ای در حوزه فناوری می‌نویسم و تمرکز اصلی‌ام بر سخت‌افزار، بازار دیجیتال و تحلیل محصولات مصرفی است. طی این سال‌ها تلاش کرده‌ام فراتر از معرفی صرف محصولات حرکت کنم و با رویکردی تحلیلی، روندهای بازار، استراتژی برندها و ارزش واقعی هر محصول برای کاربر ایرانی را بررسی کنم. علاقه‌م به تکنولوژی فقط به مشخصات فنی محدود نمی‌شود؛ برای من هر محصول، داستانی از تصمیم‌های مهندسی، رقابت تجاری و تجربه کاربری است. از پوشش اخبار و تحولات صنعت گرفته تا تدوین راهنمای خرید و تحلیل قیمت‌های روز بازار، سعی می‌کنم اطلاعات دقیق، به‌روز و کاربردی ارائه دهم تا مخاطب بتواند آگاهانه‌تر تصمیم بگیرد. باور دارم خبرنگاری تکنولوژی فقط انتقال خبر نیست؛ بلکه ترجمه دنیای پیچیده فناوری به زبانی شفاف، قابل فهم و قابل اعتماد برای مخاطب است.

دیدگاه‌ها و نظرات خود را بنویسید
مجموع نظرات ثبت شده (78 مورد)
  • MAMADGOLE
    MAMADGOLE | ۳ خرداد ۱۴۰۵

    -اگر در مورد سوم بوده که تصمیم گرفتم قطع کنن که تقصیر من ک نیست نمی تونم زن بگیرم تقصیر خودتونه بعد تو گوگلم چیزی نمیاد که من بخوام کاری بکنم یا تحریک بشم ! سیف سرچ رو فعال کردید اونم نه برای نوجوان ، خورد سال
    در هر صورت چرا قانون گذار اجازه می ده برای من رعیت که حقوقم از حقوقی که تعیین کردید برای کارگر ، کمتره تصمیم بگیره که چی کار کنم !
    حتی کمونیست ها هم انقدر دیگه کمونیست نیستن ! (هیتلر هم قانون خودشو داشت )

    • ErenYeager
      ErenYeager | ۴ خرداد ۱۴۰۵

      دادا فک کنم تو صفحه اشتباه کامنت گذاشتی

      • Mhdirhrr
        Mhdirhrr | ۴ خرداد ۱۴۰۵

        الداش زیر همین کامنتش یه کامنت دیگه داشت این ادامه همونه 😂😂

  • MAMADGOLE
    MAMADGOLE | ۳ خرداد ۱۴۰۵

    نمی دون چرا ولی من هر چی می خوام تو گوگل سرچ کنم نمی شه !
    چند دلیل خودم فک می کنم داشته باشه
    1. همین امروز بسته جدید بعد 5 ماه خریم و احتمال رو بسته های جدید نمی تونی انجام بدی کاری رو
    2. سرچی کردم که نباید اونا فشاری شدن کلا سرچ گوگل رو برای من بستن مثلا سیاسی !
    3. فشار شدن (کلمه {{**رن}} )سرچ کردم فک کردن پسر اونام تصمیم گرفتن برای یه مرد 25 ساله گوگل قطع کنن
    در هر صورت خیلی عجیبه برام چرا باید سرچم کار نکنه ! روی اینترنت خونه با هر دستگاهی تست کردم کار نمی کرد با همون دستگاه وصل شدم به گوشی گوگل باز می شد

    • Nashi2
      Nashi2 | ۴ خرداد ۱۴۰۵

      از لحاظ فنی، غیرممکنه که ISP داده های انتقالی تو و سایتی که https داره رو ببینه. یعنی داده های تو به شکل رمزنگاری شده رد و بدل میشه بطوری که فقط تو و گوگل بتونید منظور همدیگه رو بفهمید.

      • MAMADGOLE
        MAMADGOLE | ۴ خرداد ۱۴۰۵

        ممنونم که توضیح دادید 😍😍
        ولی خب روی شبکه خانه اصلا گوگل باز نمی شه

  • Semo_zendani_shomare86
    Semo_zendani_shomare86 | ۳ خرداد ۱۴۰۵

    خانم عیسی‌پور موضوعات مقاله هاتون خیلی متفاوت و خوندنی هستش. خسته نباشید 👏🙌

    • مهرانا عیسی‌پور
      مهرانا عیسی‌پور | ۳ خرداد ۱۴۰۵

      ممنون از شما که وقت می‌گذارید و می‌خونید.

  • Microprocessor
    Microprocessor | ۳ خرداد ۱۴۰۵

    البته ممنون از خانوم عیسی پور بخاطر این تاریخچه زیبا از mp3

  • Microprocessor
    Microprocessor | ۳ خرداد ۱۴۰۵

    سلام به همه ... فایل mp3 بصورت زیر فشرده میشه :
    ۱. فیلتر کردن و تحلیل زمانی-فرکانسی (Filter Bank). سیگنال را به ۳۲ زیرباند فرکانسی مختلف تقسیم می‌کند. این کار به سیستم اجازه می‌دهد تا به جای پردازش کل طیف صوتی، به صورت جداگانه روی هر بازه فرکانسی تصمیم‌گیری کند.
    ۲. مدل روان‌آکوستیک (The Psychoacoustic Model)
    آستانه شنوایی مطلق (Absolute Threshold of Hearing): صداهایی که در فرکانس‌های خاصی هستند و گوش انسان به دلیل محدودیت‌های بیولوژیکی قادر به شنیدن آن‌ها نیست (مثلاً زیر ۲۰ هرتز یا بالای ۲۰ کیلوهرتز در سنین بالا) شناسایی و حذف می‌شوند.
    پدیده ماسکینگ (Masking Effect): این نقطه کور است که بسیاری نادیده می‌گیرند. اگر یک صدای بلند داشته باشیم

  • MOHSEN_IR
    MOHSEN_IR | ۳ خرداد ۱۴۰۵

    البته یه چیز دیگه هم در این موفقیت خیلی تأثیرگذار بوده، که ما الان خوب درکش میکنیم، سیستم حکمرانی.

  • spartaqum
    spartaqum | ۳ خرداد ۱۴۰۵

    ممنون بابت این روایت جذاب از MP3 در این روز های پر مشکل بی اینترنتی برای مردم 🙏

  • Ikl
    Ikl | ۳ خرداد ۱۴۰۵

    خیلی جال بود، کی فکر می‌کرد آهنگ هایی که گوش میدیم الگوریتمشون هزاران بار تغییر کرد تا بشه بهmp3.
    درضمن فکت،فکت همه‌شون معمولا بدرد بخورن

  • Aminfreeguy
    Aminfreeguy | ۳ خرداد ۱۴۰۵

    سوزان نادین وگا آهنگساز و خواننده آمریکایی است. شهرت وی در ایران بیشتر بخاطر آهنگ غذاخوری تام است که موسیقی بی‌کلام آن در تیتراژ سریال کارتونی باخانمان از شبکه یک پخش شد.
    ویکی‌پدیا

  • 2012sam
    2012sam | ۳ خرداد ۱۴۰۵

    سلام مهرانا گفت بهت که تو رو با اژدها میکشم بفرمایید
    https://uplod.ir/r0mzlunc0vi2/DocScanner_24_May_2026_17-25.jpg.htm
    ببخشید یکم بد شد ولی امیدوارم خوشت بیاد

    • مهرانا عیسی‌پور
      مهرانا عیسی‌پور | ۳ خرداد ۱۴۰۵

      چه قشنگگگه 😍😍 خیلللی ممنونم 💙

      • 2012sam
        2012sam | ۳ خرداد ۱۴۰۵

        ممنون خانم مهرانی عزیز
        این هنوز کامل نشده هنوز back grand مونده اگه خودت دوست داری جور خاصی طراحی بکنمش
        بگو لطفا
        ❤️💙

        • مهرانا عیسی‌پور
          مهرانا عیسی‌پور | ۳ خرداد ۱۴۰۵

          به سلیقه خودت دیگه 💙

          • 2012sam
            2012sam | ۳ خرداد ۱۴۰۵

            باشه

    • saNa2026
      saNa2026 | ۴ خرداد ۱۴۰۵

      خیلی خوشگله🥰🤗

    • Cableguy2077
      Cableguy2077 | 4 هفته قبل

      زیبا بود

نمایش سایر نظرات و دیدگاه‌ها
مطالب پیشنهادی