Vaqtni cho'zish va balandlikni kengaytirish - Audio time stretching and pitch scaling

Vaqtni cho'zish ning tezligi yoki davomiyligini o'zgartirish jarayoni audio signal unga ta'sir qilmasdan balandlik. Pitch miqyosi buning teskarisi: tezlikni ta'sir qilmasdan balandlikni o'zgartirish jarayoni. Pitch shift pitch miqyosi an effektlar birligi va jonli ijro uchun mo'ljallangan. Qatlamni boshqarish yozuvni sekinlashtirishi yoki tezlashtirishi bilan bir vaqtning o'zida balandlik va tezlikka ta'sir qiladigan oddiy jarayon.

Ushbu jarayonlar ko'pincha oldindan yozib olingan ikkita klipning balandligi va templariga mos kelish uchun ishlatiladi. Vaqtni cho'zish ko'pincha sozlash uchun ishlatiladi radio reklamalar[1] va audio televizion reklama[2] mavjud 30 yoki 60 soniyaga to'liq mos kelish uchun. U uzoqroq materialni belgilangan vaqt oralig'iga moslashtirish uchun ishlatilishi mumkin, masalan, 1 soatlik translyatsiya.

Qayta namuna olish

A davomiyligini yoki balandligini o'zgartirishning eng oddiy usuli raqamli audio klip orqali namunaviy stavkani konvertatsiya qilish. Bu matematik operatsiya bo'lib, uning namunalaridan uzluksiz to'lqin shaklini va so'ngra yana to'lqin shaklini boshqa tezlik bilan samarali ravishda qayta tiklaydi. Yangi namunalar dastlabki namuna olish chastotasida ijro etilganda, audioklip tezroq yoki sekinroq eshitiladi. Afsuski, namunadagi chastotalar har doim tezlik bilan bir xil tezlik bilan o'lchanadi va bu jarayonda uning sezilgan balandligini yuqoriga yoki pastga o'zgartiradi. Boshqacha qilib aytganda, yozuvni sekinlashtirish tovushni pasaytiradi, uni tezlashtirish balandlikni ko'taradi. Bu tezlikni kamaytirish yoki sekinlashtirishga o'xshaydi analog kabi yozib olish fonograf yozuv yoki lenta, yaratish Chipmunk effekti. Ushbu usul yordamida ikkita effektni ajratib bo'lmaydi. Tarkibida hech qanday plyonka bo'lmagan baraban pog'onasi o'rtacha ta'sir tezligi uchun nojo'ya ta'sirlarga aylantirilishi mumkin, ammo baland pog'ona buni qila olmaydi.

Chastotani domeni

Faza vokoderi

Ovoz balandligiga ta'sir qilmasdan signal uzunligini cho'zishning usullaridan biri bu fazli vokoder Flanagan, Oltin va Portnoffdan keyin.

Asosiy qadamlar:

  1. yordamida signalning lahzali chastota / amplituda munosabatini hisoblash STFT, bu diskret Furye konvertatsiyasi qisqa, bir-birining ustiga yopishgan va ravon oynali namunalar blokining;
  2. Fourier konvertatsiya kattaligi va fazalariga (FFT bloklarini qayta namunalash kabi) ba'zi bir ishlov berishni qo'llang; va
  3. teskari STFTni har bir bo'lakka teskari Furye konvertatsiyasini olib, hosil bo'lgan to'lqin shakli bo'laklarini qo'shish orqali amalga oshiring, ularni bir-birining ustiga yopish va qo'shish (OLA).[3]

Vokoderning fazasi sinusoid komponentlar yaxshi, ammo erta amalga oshirish sezilarli darajada qoralangan vaqtinchalik ("urish") butun sonli bo'lmagan siqish / kengaytirish tezligida to'lqin shakllari, bu natijalarni fazali va tarqoq holda beradi. So'nggi yaxshilanishlar siqilish / kengayish nisbatlarida sifatli natijalarga imkon beradi, ammo qoldiq smear effekti saqlanib qolmoqda.

Fazli vokoder texnikasi, shuningdek, balandlikni almashtirish, xorlash, tembr bilan manipulyatsiya, uyg'unlashtirish va boshqa g'ayrioddiy modifikatsiyalarni amalga oshirishda ham ishlatilishi mumkin, bularning hammasi vaqt funktsiyasi sifatida o'zgartirilishi mumkin.

Sinusoidal tahlil / sintez tizimi (asosida McAulay & Quatieri 1988 yil, p. 161)[4]

Sinusoidal spektral modellashtirish

Vaqtni cho'zishning yana bir usuli a ga bog'liq spektral model signalning. Ushbu usulda tepaliklar ramkalar yordamida STFT va sinusoidal "treklar" qo'shni freymlarda tepaliklarni ulash orqali hosil bo'ladi. Keyin treklar yangi vaqt shkalasida qayta sintez qilinadi. Ushbu usul polifonik va zarbli materiallarda yaxshi natijalarga olib kelishi mumkin, ayniqsa signal pastki bandlarga ajratilganda. Biroq, bu usul boshqa usullarga qaraganda ko'proq hisoblash talab qiladi.[iqtibos kerak ]

Monofonik tovushni silindr domeniga ega bo'lgan funktsiya spirali bo'ylab kuzatuv sifatida modellashtirish

Vaqt domeni

SOLA

Rabiner va Shafer 1978 yilda muqobil echimni taklif qildi vaqt domeni: topishga urinish davr (yoki unga teng ravishda asosiy chastota ) ba'zi biridan foydalanib to'lqinning ma'lum bir qismini balandlikni aniqlash algoritmi (odatda signalning eng yuqori nuqtasi avtokorrelyatsiya yoki ba'zan bosh suyagi qayta ishlash) va o'zaro faoliyat bir davr boshqasiga.

Bu deyiladi vaqt-domen garmonik miqyosi[5] yoki sinxronlashtirilgan bir-biriga qo'shilish usuli (SOLA) va sekinroq ishlaydigan mashinalardagi faza vokoderidan bir oz tezroq ishlaydi, ammo avtokorrelyatsiya murakkab harmonikalar bilan signal davrini noto'g'ri baholaganida ishlamay qoladi (masalan orkestr dona).

Adobe Audition (ilgari Cool Edit Pro) buni foydalanuvchi ko'rsatadigan markaziy davrga eng yaqin davrni qidirib topadi, bu tempning ko'p sonli va 30 oralig'ida bo'lishi kerak Hz va eng past bosh chastotasi.

Bu faza vokoderi asosida ishlashga qaraganda ancha cheklangan, ammo real vaqt dasturlari uchun juda kam protsessor talab qilishi mumkin. Bu eng izchil natijalarni beradi[iqtibos kerak ] ovozli yoki musiqiy monofonik yozuvlar kabi bir martalik tovushlar uchun.

Yuqori darajadagi tijorat audio ishlov berish paketlari ikkita texnikani birlashtiradi (masalan, signalni sinusoid va vaqtinchalik to'lqin shakllariga ajratish orqali) yoki dalgalanma neyron tarmoqni konvertatsiya qilish yoki qayta ishlash[iqtibos kerak ], vaqtni cho'zish eng yuqori sifatli ishlab chiqarish.

Kadrlarga asoslangan yondashuv

Ko'p TSM protseduralarining ramkaga asoslangan yondashuvi

Uzaytirganda yoki siqib chiqarishda ovozli signal balandligini saqlab qolish uchun ko'p vaqtni o'zgartirish protseduralari kadrga asoslangan yondashuvga amal qiladi.[6]Asl diskret vaqtli audio signalni hisobga olgan holda, ushbu strategiyaning birinchi bosqichi signalni qisqa qismga bo'lishdir tahlil doiralari Belgilangan uzunlik.Tahlil ramkalari nomlangan sobit miqdordagi namunalar bilan ajralib turadi tahlil hopsize .Haqiqiy vaqt miqyosidagi modifikatsiyaga erishish uchun tahlil doiralari vaqtincha boshqa joyga ko'chiriladi sintez hopsiz .Bu kadrni almashtirish signalning davomiyligini a ga o'zgartirishga olib keladi cho'zish omili ning.Ammo, shunchaki o'zgartirilmagan tahlil doiralarini ustma-ust qo'yish fazali uzilishlar yoki amplituda dalgalanmalar kabi istalmagan artefaktlarga olib keladi .Bunday artefaktlarning oldini olish uchun tahlil ramkalari shakllanishga moslashtirilgan sintez ramkalari, vaqt oralig'ida o'zgartirilgan chiqish signalini rekonstruksiya qilishdan oldin.

Sintez kadrlarini tahlil doirasidan qanday chiqarish strategiyasi TSM protseduralarining asosiy farqidir.

Tez eshitish va tez gaplashish

Nutqning o'ziga xos holati uchun vaqtni cho'zish yordamida amalga oshirish mumkin PSOLA.

Tushunishni qisqartirish uchun tezlashishni kutish mumkin bo'lsa-da, Herb Fridmanning aytishicha, "tajribalar shuni ko'rsatdiki, agar quloq orqali nutq orqali ma'lumot tezligi o'qishning o'rtacha" tezligi "bo'lsa, u miya eng samarali ishlaydi (200-300 wpm) (daqiqada so'zlar), shu bilan birga o'rtacha nutq tezligi 100-150 vpm atrofida joylashgan. "[7]

Ovozni tezlashtirish uning ekvivalenti sifatida qaraladi tez o'qish.[8][9]

Pitch miqyosi

Pitch o'zgarishi (Chastotani o'lchash) kuni taqdim etiladi Oxir-oqibat Uyg'unlashtiruvchi
Chastotani almashtirish tomonidan taqdim etilgan Bode Chastotani o'zgartiruvchi saqlamaydi chastota nisbati va uyg'unligi.

Ushbu usullardan ham foydalanish mumkin ko'chirish tezlik yoki davomiylikni doimiy ushlab turganda audio namunasi. Bunga vaqtni cho'zish va keyin asl uzunlikka qaytarish orqali erishish mumkin. Shu bilan bir qatorda, a da sinusoidlarning chastotasi sinusoidal model to'g'ridan-to'g'ri o'zgartirilishi mumkin va signal tegishli vaqt shkalasida qayta tiklanishi mumkin.

Transpozitsiyani chaqirish mumkin chastota masshtablash yoki balandlik o'zgarishi, istiqbolga qarab.

Masalan, tempni bir xil ushlab, har bir notaning balandligini beshdan bir qismigacha ko'tarish mumkin. Biri bu transpozitsiyani "balandlikni siljitish", har bir notani fortepiano klaviaturasida 7 ta tugmachani "siljitish" yoki " bo'yicha belgilangan miqdor Mel shkalasi, yoki chiziqli ravishda belgilangan miqdorni qo'shish balandlik maydoni.Bir biri "chastotalarni masshtablash", har bir nota chastotasini "masshtablash" (ko'paytirish) bilan bir xil transpozitsiyani 3/2 ga ko'rishi mumkin.

Musiqiy transpozitsiya ning nisbatlarini saqlaydi harmonik tovushni aniqlaydigan chastotalar tembr, farqli o'laroq chastotani almashtirish tomonidan ijro etilgan amplituda modulyatsiya, bu har bir notaning chastotasiga sobit chastotali ofset qo'shadi. (Nazariy jihatdan tom ma'noda so'zlash mumkin balandlik miqyosi bunda musiqa balandligi oralig'i joylashuvi kattalashtirilgan [yuqori nota pastki chiziqqa nisbatan chiziqli oraliq oralig'ida katta oraliqda siljiydi], ammo bu juda g'ayrioddiy va musiqiy emas.[iqtibos kerak ])

Vaqt domenini qayta ishlash bu erda ancha yaxshi ishlaydi, chunki smear kamroq seziladi, ammo vokal namunalarini masshtablash buzadi formants turiga Alvin va Chipmunks - istalgan yoki istalmagan bo'lishi mumkin bo'lgan effektga o'xshaydi, ovozning mohirligi va xarakterini saqlaydigan jarayon signalni signal bilan tahlil qilishni o'z ichiga oladi. kanal ovozi yoki LPC vocoder plus ulardan birortasi balandlikni aniqlash algoritmlari va keyin uni boshqa asosiy chastotada qayta sintez qilish.

Qatlamni siljitish uchun eski analog yozish texnikasining batafsil tavsifini ushbu sahifada topish mumkin Alvin va Chipmunks kirish.

Shuningdek qarang

boshqalar

Adabiyotlar

  1. ^ https://web.archive.org/web/20080527184101/http://www.tvtechnology.com/features/audio_notes/f_audionotes.shtml
  2. ^ http://www.atarimagazines.com/creative/v9n7/122_Variable_speech.php
  3. ^ Jont B. Allen (1977 yil iyun). "Qisqa vaqt ichida spektral tahlil, sintez va diskret Furye transformatsiyasi bo'yicha modifikatsiya". Akustika, nutq va signallarni qayta ishlash bo'yicha IEEE operatsiyalari. ASSP-25 (3): 235-238.
  4. ^ Makolay, R. J .; Kvatieri, T. F. (1988), "Sinusoidal model asosida nutqni qayta ishlash" (PDF), Linkoln laboratoriyasi jurnali, 1 (2): 153–167, arxivlangan asl nusxasi (PDF) 2012-05-21, olingan 2014-09-07
  5. ^ Devid Malah (1979 yil aprel). "Garmonik tarmoqli kengligini kamaytirish va nutq signallari vaqtini masshtablash uchun vaqt-domen algoritmlari". Akustika, nutq va signallarni qayta ishlash bo'yicha IEEE operatsiyalari. ASSP-27 (2): 121-133.
  6. ^ Jonathan Driedger va Meinard Myuller (2016). "Musiqiy signallarning vaqt o'lchovi bilan modifikatsiyasini ko'rib chiqish". Amaliy fanlar. 6 (2): 57. doi:10.3390 / app6020057.
  7. ^ O'zgaruvchan nutq, Creative Computing Vol. 9, № 7/1983 yil iyul / p. 122
  8. ^ http://www.nevsblog.com/2006/06/23/listen-to-podcasts-in-half-the-time/
  9. ^ https://web.archive.org/web/20060902102443/http://cid.lib.byu.edu/?p=128

Tashqi havolalar