VR blåser nytt liv i 3D audio

Tystnad

Din hjärna är häpnadsväckande. Med två hål och lite brosk på sidorna av huvudet, kan du exakt lokalisera positionen för ett objekt i 3D enbart baserat på auditiva ledtrådar, en process som kallas lokalisering. De flesta av oss använder det varje dag utan att tänka närmare på det. Men om du stannar upp ett ögonblick och lyssnar på ljuden omkring dig, även på det du inte kan se, kan du nästan alltid placera sakerna med förbluffande precision.  Det är det som vi kallar lokalisering. Detta otroligt användbara fenomen, som vi ofta tar för givet, hjälper oss att behärska en rad aktiviteter, från att säkert att korsa gatan, fly från överbeskyddande hundar och till att skapa engagerande spel.

Att förstå sin omgivning

I verkliga livet har vi fem sinnen (kanske sex om du råkar befinna dig i en M. Night Shyamalan film). Dessa är känsel, smak, lukt, syn och hörsel, men när det kommer till tv-spel och VR, står endast två av dessa till vårt förfogande: bild och ljud.

På vissa sätt är det kanske bäst ändå (vem vill ha ett zombiespel med lukt…) Men med bara två sinnen att spela på, och verkligen  skapa uppslukande upplevelser, måste vi verkligen använda dessa två i dess fulla potential. Högkvalitativ 3D-grafik och verklighetstroget 3D-ljud.

Medan pc-grafik ständigt har kontinuerliga framsteg, är historien och utvecklingen av PC-ljud mer tumultartad, från snabb innovation till helt avstannade och på tillbakagång. Men nu, under gryningstimmarna av den nya VR revolutionen, har 3D-ljud återigen fått rejält med dragkraft och en mycket framträdande roll. Genom att ta lärdom av forna dagars lösningar och misstag, kan virtual reality driva på utvecklingen för att ge oss mer engagerande hörselupplevelse än någonsin tidigare.

I behov av nytändning

3D-ljud tekniken är sjuk. Och då menar jag inte sjukt bra. Tekniken bakom helt korrekt positionerat 3D-ljud är visserligen bara halvkrasslig, men det senaste decenniet har det allmänna hälsotillståndet för 3D-ljud varit allt annat än bra. Inte för att överdriva nu, men för att förstå hur VR verklighet kan återuppliva 3D-ljudet, är det viktigt att förstå varför det behövs uppståndelse i första hand.

Tredimensionellt ljud innebär att varje ljud helt enkelt behöver en fast punkt med x, y och z-koordinater där sedan lyssnare kan röra sig. De flesta moderna spel begränsar ljud till den horisontella axeln med minimalt användande av höjden och avståndet. Det betyder att ljudet ”sitter fast” i en stationär rockring runt lyssnaren, vilket möjliggör att man endast får en låtsas- eller pseudo-3D-effekt.

Är det ljudet av framsteg vi hör?

På sätt och vis har ljud förbättrats enormt under de senaste decennierna, främst när det gäller upplösning och signal-till-brus förhållandet. Vi har kommit en lång väg sedan Thomas Edison först hoppade av glädje vid uppspelning av ljud på sin fonograf i slutet av 1800-talet. Men medan den totala detaljrikedomen för förinspelade ljud för det mesta konsekvent har förbättrats, har realtidsmodellering av ljud i en 3D miljö tyvärr vinglat iväg åt en rad mer eller mindre bra håll.

Så, vad är det då som är så svårt med att göra bra 3D-ljud i spel? Tja, återgivning hifi-ljud i sig är inte så svårt. Och vi hör ju alla att våra spel låter. Men att återger dynamiskt beteende av ljud i en tredimensionell miljö i realtid är en mycket tuffare nöt att knäcka.

-o1qKHeF5Kzv.878x0.Z-Z96KYq

Rymd och volymer

Först börjar vi med en förinspelad ljudeffekt: Låt säga att vi tar en zombie som skriker till, eller kanske ett pistolskott. Kanske är det dina skor som knarrar i snön. Oavsett ljudeffekt, så kommer ljudet från en källa och hörs av en lyssnare.

Både ljudkällan och lyssnaren måste placeras i ett 3D-rymd, eller vi kan säga koordinatsystem med tre axlar. Denna process kallas spatialization och kan väl enklast översättas till svenska som ”hur ljudet låter i rummet du befinner dig i” I huvudsak innebär detta att både ljudkällan och lyssnaren dels har både fulla och dynamiska x, y, z-koordinater, men även vänster/höger-, framför/bakom- och upp/ner-värden. När sedan positionerna mellan källa och lyssnare förändras, så ändras alltså dessa värden. Och denna term spatialization påverkars alltså av dessa värden. Men, det är bara toppen av isberget. Vägen mellan en ljudkälla och en åhörare måste ofta ta en invecklad resa genom rummet för att komma dit, vilket gör det hela mycket svårare att räkna ut.

Ungefär som ljus, så reser sällan ett ljud oförändrat från punkt A till punkt B. I stället kan det genomgå en myriad av förändringar baserade på den omgivande miljön. Precis som som ljus, kan ljud reflekteras (tidiga eller sena reflexer), absorberas (absorption / dämpning) eller blockeras helt (ljud ocklusion). Det kan också upprepas (invecklade efterklanger) beroende på miljön genom vilket ljudet färdas. Tillsammans utgör dessa miljöeffekter vad som brukar kallas ljudatmosfär.

Resultatet för alla dessa miljöeffekter, och det som till slut når vårt öra, blir snabbt väldigt beräkningsintensivt.

Detailjerna bakom Aureal 

Om du inte tycker att allt detta är helt enkelt att fatta, så är du inte ensam. Ta i såda fall ett par minuter och lyssna på detta klippet. Och jag menar lyssna. Det är helt ok att blunda eftersom grafiken är 25 år gammal 🙂 Detta är en realtids-3D ljudteknik som kortfattat fanns i slutet av 1990. Precis…redan för 25 år sen fanns tekniken för att skapa engagerande, levande, positionerat 3D-ljud. Tekniken hette A3D 2.0, och klarar av att hantera många av de ovan nämnda effekterna i realtid. Det företag som ansvarade för denna teknik var Aureal.

DbBT3ixEWR3y.878x0.Z-Z96KYq

En stor del av denna teknik förlitar sig på så kallade HRTFs, alltså matematiska algoritmer som tar hänsyn till hur ljudet från en källa tar sig in i huvudet. Detta bidrar väsentligt till ett konstgjort sätt att replikera hur vå egen hörsel fungerar där vi kan lokalisera vart ljudet kommer ifrån Återigen, fanns redan i slutet av 1990.

Men om denna teknik funnits så länge redan, varför i hela friden görs inte spel idag med samma teknik idag? Svaret är: konkurrens.

Baksidan med konkurrerande teknikPaintCorner

Konkurrens kan vara en fantastisk sak när den fungerar väl. Det kan vara teknikdrivande och gör att nya saker utvecklas snabbare. Men tyvärr har konkurrens också potential att göra det motsatta och skjuta allt det fantastiska som är på gång till en plats där det blir omöjligt att ta det vidare. Alla blockar varandra och sedan  samtliga står med pensel i sitt eget hörn utan väg ut.

Aureal var ett av de första företagen att bana väg för 3D-ljud. Tekniken bakom ljuded var minst sagt imponerande, särskilt med tanke på hur många år sedan det var. Sedan kom Creative, Aureal största konkurrent och stämde dem för patentintrång. Även om det nu är allmänt accepterat att Aureal hade den överlägset bästa ljudtekniken, skenade givetvis kostnaderna för de rättsliga åtgärderna iväg och lämnade Aureal alltför handikappat för att gå vidare.Kort sagt, dessa två företag lirade inte speciellt bra, mycket av de framsteg som gjorts på ljudteknik tappades bort i låsta patentkonflikter. Den osunda konkurrens som blev effekten mellan dessa två bolag störde inte bara utvecklingen av 3D-ljudet, utan fick även direkt effekt på konsumenterna, som såklart fick en mycket sämre produkt i slutändan.

Ett tag fortsatte Creative att förnya sig i vad som kan betraktas som en guldålder för 3D-ljud. Det mesta av denna innovation byggdes på ryggraden av Directsound och DirectSound3D, två banbrytande tekniker som erbjuds av Microsoft.

Gamla synder

Men låt oss först klargöra ett rätt vanligt uttryck som man hör lite då och då. Du kanske har hört termen DirectX bollas hit och dit två miljarder gånger vid det här laget, ofta i samband med att man pratar om nya grafikfunktioner. Även om DirectX oftast är förknippat med 3D-grafik, finns det faktiskt en hel massa multimediafunktioner som hjälper hårdvaran att utnyttja program på det mest optimerade/standardiserade sättet.

Grafikdelen av DirectX heter Direct3D. Detta är vad de flesta människor vanligen om när de säger DirectX. Directsound, å andra sidan, är motsvarande ljud API. Det fanns också ett lite längre ord för detta vid namn DirectSound3D.

Directsound gjorde två viktiga saker. Först skapade det en standardiserad, enhetlig miljö där tekniken bakom 3D-ljud kunde växa som en teknik och därmed lätt utnyttjas av programutvecklare. För det andra, tillät det hårdvaruaccelerering av 3D-ljud, vilket som jag tidigare nämnt kan vara en mycket beräkningsintensiv uppgift. Fram till 2006 var Directsound och DirectSound3D ryggraden i många ljudprogram. Sedan hände Vista. Ouch!

Galenskaper

Med lanseringen av Windows Vista, tog Microsoft chansen att helt dra undan mattan under fötterna på Creative och därmed år av ljudutveckling som helhet. Både standard ljud API och hårdvaruacceleration rann ut i slasken. För att förstå den verkliga värld som rådde vid denna tid kan man fundera på om MS skulle få för sig att lägga ner Direct3D. Visst skulle den grafiska industrin återhämta sig, men nog skulle det vara ett hårt slag.

Att ta bort Directsound och DirectSound3D var i och för sig bra i vissa hänseenden, men det förändrade maktbalansen i grunden. Först knockade Creative ner Aureal i golvet, sen sög Microsoft vinden helt ut Creatives segel.

I samband med nedläggningen av DirectSound3D handlade även mycket av diskussionen om att hårdvaruacceleration egentligen inte behövdes längre. Och visst finns det sanning i det. Det var årtionden sedan som den generella konsumenten behövde köpa ljudkort till exempel.

Efterdyningarna

Även om de flesta operativsystem efter Vista har haft mjukvarubaserad programvara för ljud, så har du såklart förekommit en del hårdvaruaccelererade lösningar, såsom AMD:s TrueAudio teknik där grafikkortet hjälper till att räkna ut exakt 3D-ljud.

Om lösningen nu är hårdvaru- eller mjukvarubaserat är egentligen oväsentligt vid det här laget, så länge som ljudatmosfären beräknas på rätt sätt. I nästan ett decennium, har en stor del av denna kalkylering gjorts på ett slarvigt sätt. Men nu med VRs intåg blir det för första gången en nödvändighet att göra detta korrekt för få ut maximal effekt av 3D-ljudet.

Dj8hTdO22MoG.878x0.Z-Z96KYq

Dina sinnen i centrum

Virtual reality handlar helt om att manipulera dina sinnen så långt det är möjligt. Oculus har länge betonat ordet ”presence” som närmast kan översättas till ”närvaro”, eller snarare ”känslan av att fysiskt befinna sig på en annan plats”. Både synen och ljudet hjälper till att förstärka denna känsla.

I VR är en av de viktigaste faktorerna att denna närvaro nås genom att fördröjningen mellan det att du vrider på huvudet tills dess att du ser detta, ska vara så låg som det bara är möjligt. Om denna är tillräckligt låg (under 20ms) ”köper” din hjärna upplevelsen mycket enklare. Intressant nog så är samma fördröjning minst lika viktig när det gäller ljud.

I verkliga livet lokalisera vi ofta ljud genom att flytta huvudet en aning. Vi roterar gärna eller nickar lite för att på sätt låta hjärnan samla in ljudet från olika positioner och vinkar,  för att kunna räkna ut avvikelser och därmed positionen.

3D-ljud blir ett måste i VR

Ljud kan lika lätt förstärka upplevelsen i VR, som den kan förstöra den. Korrekt genomfört, kan 3D-ljudet förstärka och förmedla information om var föremål är och vilken typ av miljö vi befinner oss i. Att kunna titta på ett rörligt objekt med huvudet är en sak, men att kunna höra ljudet och se att positionen matchar exakt är minst lika viktigt. De visuella och auditiva ledtrådarna förstärker varandra här. Om det blir konflikt dem emellan förlorar du snabbt närvaron i VR.

Tänk dig själv om du ser ett objekt som rör sig ovanför, men att låter som om det var bredvid dig? Eller tänk om du lyssnar på någon som pratar, men hur du än tittar så låter det alltid som att människan står framför dig. Upplevelsen dör omedelbart.

3D-ljud är också viktigt eftersom det kan betyda mer än bara ljud. Exempelvis känslan av beröring, när du hör vindsus i träden eller på kinden,  eller om regn faller runt omkring dig. Kolla in denna utmärkta video från Oculus Connect om du vill lära dig mer om vikten av 3D-ljud i en virtuell verklighet.

Refrängen

Sedan en tid tillbaka har 3D-ljud området verkligen varit stendöd. Och du som trots allt brytt sig har bett på dina bara knän om en uppståndelse av något slag. Tack vare VR kommer nu äntligen denna fascinerande och viktiga teknik få sin återuppståndelse. #d-ljud kommer inte längre bara betraktas som en extra krydda, utan istället ses som an ovärderlig ingrediens, en som förstärker och multiplicerar hela VR upplevelsen. Hurra!

Källa: maximumpc.com

Picture of Johan Hägerström

Johan Hägerström

Johan grundade 2013 sajten vrsverige.se - som nu har blivit företaget Immersivt där han är medgrundare. Han jobbade som gymnasielärare, men som teknikentusiast ville han inspirera och utbilda om möjligheterna med VR i skolan och andra områden. Han jobbar nu på Starbreeze, med deras olika VR-projekt.

Lämna en kommentar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *

Om skribenten

Picture of Johan Hägerström

Johan Hägerström

Johan grundade 2013 sajten vrsverige.se - som nu har blivit företaget Immersivt där han är medgrundare. Han jobbade som gymnasielärare, men som teknikentusiast ville han inspirera och utbilda om möjligheterna med VR i skolan och andra områden. Han jobbar nu på Starbreeze, med deras olika VR-projekt.

Följ oss på Facebook!

VR Cover

Fler liknande artiklar

Följ oss i sociala kanaler

Läs fler artiklar som denna från Immersivt!