NLP algoritmi mogu se koristiti i za tumačenje genetskih promjena u virusima – ubrzavajući laboratorijske pretrage za otkrivanje novih varijanta virusa.
“Mnoga svojstva bioloških sustava mogu se iskazati i tumačiti riječima i rečenicama”, ističe Bonnie Berger, računalna biologinja s Massachusetts Institute of Technology.
U posljednjih nekoliko godina nekolicina istraživača pokazala je da se sljedovi proteina i genetski kodovi mogu modelirati pomoću NLP tehnika.
U studiji objavljenoj u znanstvenom časopisu Science, Berger i njezini kolege koriste NLP za predviđanje mutacija koje omogućavaju virusima da izbjegnu otkrivanje protutijela u ljudskom imunološkom sustavu, proces poznat kao virusni imunološki bijeg. Osnovna ideja je da je tumačenje virusa od strane imunološkog sustava analogno tumačenju rečenice od strane čovjeka.
Bergerin tim koristi dva različita jezična koncepta: gramatiku i semantiku (ili značenje). Genetska ili evolucijska sposobnost virusa – karakteristike poput one koliko je dobra da zarazi pojedinca – može se protumačiti u smislu gramatičke ispravnosti. Uspješan, virus koji uspije zaraziti pojedinca gramatički je ispravan; virus koji ne uspije zaraziti pojedinca nije gramatički ispravan.
Slično tome, mutacije virusa mogu se tumačiti u smislu semantike. Mutacije zbog kojih se virus čini drugačijim od ostaloga u njegovom okruženju – poput promjena na površinskim proteinima zbog kojih je određenim antitijelima nevidljiv – promijenile su njegovo značenje. Virusi s različitim mutacijama mogu imati različita značenja, a virus s različitim značenjem možda će trebati različita antitijela da bi ga pročitao.
Tim je obučavao NLP model tisućama genetskih sekvenci preuzetih iz tri različita virusa: 45.000 jedinstvenih sekvenci za soj gripe, 60.000 za soj HIV-a i između 3.000 i 4.000 za soj Sars-Cov -2, virus koji uzrokuje Covid-19.
NLP modeli kodiraju riječi u matematičkom prostoru na način da su riječi sa sličnim značenjima bliže od riječi s različitim značenjima. Taj proces poznat je kao ugrađivanje. Za viruse, ugrađivanje genetskih sekvenci viruse grupira prema tome koliko su slične njihove mutacije.
Cilj takvog pristupa je identificirati mutacije pomoću kojih bi virus mogao pobjeći iz imunološkog sustava, a da ga ne učini manje zaraznim – to jest, mutacije koje mijenjaju značenje virusa, a da ga ne čine gramatički netočnim.
Uzmimo jezik za primjer. Promjena samo jedne riječi u rečenici “vinogradari uživaju u dobroj sezoni” može dovesti do stvaranje nove rečenice – “vinogradari uživaju u lošoj sezoni”. Obje imaju istu gramatičku strukturu, ali jedna rečenica je promijenila značenje više od druge. NLP model traži slične promjene u virusu, označavajući one koji najviše mijenjaju njegovo značenje.
Premda istraživači promatraju napredak u NLP-u i smišljaju nove analogije između jezika i biologije kako bi ih iskoristili, potrebno je još mnoštvo istraživanja i testiranja učiniti, prije nego se otkriveno može imati stvaran utjecaj u zdravstvu.