Kaj pa, če bi obstajal način, kako na posnetku zvok naknadno popraviti? Recimo tako, da se zvok enega inštrumenta okrepi, drugega utiša, izreže kakšno piskanje ali napaka in podobno. Ideja je sicer odlična, izvedba pa vse prej kot preprosta. Izdelati je namreč potrebno sistem, ki bo iz enotnega zvoka znal izluščiti posamezni inštrument, katerega zvok potem lahko obdelamo.
In prav to je uspelo znanstvenikom univerze MIT, točneje laboratorija CSAIL (Computer Science and Artificial Intelligence Laboratory). Izdelali so sistem umetne inteligence, imenovan PixelPlayer, ki zna ta trenutek ločiti zvok dveh inštrumentov, ki jih je nato mogoče obdelati in vrniti nazaj v posnetek. Pri tem je zanimivo to, da sistem zazna inštrumente samodejno preko kombinecije video in zvočnega zapisa - če na primer v videu nekdo sedi na levi in igra violino, nekdo na desni pa kitaro, sistem to zazna in iz slike izlušči zvok vsakega inštrumenta posebej. Ta povezava video-zvok omogoča tudi, da v videu kliknemo glasebnika in predvajal se bo le zvok, ki ga oddaja njegovo glasbilo.
Zadeva je ta trenutek še precej groba, saj zvok ni ravno zelo kakovosten, sistem pa deluje le z dvema zvokoma/inštrumentoma, a vedeti je treba, da gre šele za prve korake. V nadaljevanju bodo ločevanje zvokov izboljšali, omogočili pa tudi podporo več kot dvema inštrumentoma.
Vir: MIT CSAIL