AlphaMissense, nový model od umělé inteligence Google, analyzuje účinky mutací DNA a urychlí výzkum vzácných chorob.
Přibližně před 10 lety byl Žiga Avsec doktorandem fyziky, který se dostal na rychlokurz genetiky prostřednictvím univerzitního modulu o strojovém učení. Brzy pracoval v laboratoři, která se zabývala vzácnými chorobami, na projektu, který měl za cíl identifikovat přesnou genetickou mutaci, která způsobila neobvyklou mitochondriální chorobu.
Avsec říká, že to byl problém jako hledání jehly v kupce sena. V genetickém kódu bylo miliony potenciálních viníků – mutace DNA, které mohly způsobit chaos v biologii člověka. Zvláštním zájmem byly takzvané missense varianty: změny jediného písmene v genetickém kódu, které vedou k tvorbě jiné aminokyseliny v rámci bílkoviny. Aminokyseliny jsou stavebními kameny bílkovin a bílkoviny jsou stavebními kameny všeho ostatního v těle, takže i malé změny mohou mít rozsáhlé a dalekosáhlé účinky.
V lidském genomu existuje 71 milionů možných missense variant a průměrná osoba jich nese více než 9 000. Většina z nich je neškodná, ale některé byly spojeny s genetickými chorobami, jako je srpkovitá anémie a cystická fibróza, stejně jako s komplexnějšími stavy, jako je diabetes 2. typu, který může být způsoben kombinací malých genetických změn. Avsec se začal ptát svých kolegů: „Jak můžeme vědět, které z nich jsou skutečně nebezpečné?“ Odpověď zněla: „No, většinou nevíme.“
Z 4 milionů missense variant, které byly u lidí pozorovány, byla pouze 2 procenta kategorizováno buď jako patogenní, nebo jako neškodná, a to po letech pečlivého a nákladného výzkumu. Studium účinku jedné missense varianty může trvat měsíce.
Dnes Google DeepMind, kde Avsec nyní působí jako výzkumný pracovník, uvolnil nástroj, který může tento proces rapidně urychlit. AlphaMissense je model strojového učení, který dokáže analyzovat missense varianty a předpovědět pravděpodobnost, že způsobí chorobu s přesností 90 procent – což je lepší než stávající nástroje.
Je postaven na modelu AlphaFold od DeepMind, který předpověděl struktury stovkám milionů bílkovin na základě jejich složení z aminokyselin, ale nepoužívá stejný způsob práce. Místo toho, aby předpovídal strukturu bílkoviny, AlphaMissense funguje spíše jako velký model jazyka, jako je například OpenAI’s ChatGPT.
Byl vyškolen na jazyk lidské (a primární) biologie, takže ví, jak by měly vypadat normální sekvence aminokyselin v bílkovinách. Když je mu předložena sekvence, která je nesprávná, může to zaznamenat, stejně jako by šlo o nepatřičné slovo ve větě. „Je to jazykový model, ale je vyškolen na sekvencích bílkovin,“ říká Jun Cheng, který je spolu s Avsecem spoluautorem článku zveřejněného dnes v časopisu Science, který představuje AlphaMissense světu. „Pokud nahradíme slovo v anglické větě, osoba, která je obeznámena s angličtinou, ihned uvidí, zda tyto substituce změní význam věty nebo ne.“
Model přiřazuje „patogeničnostní skóre“ od 0 do 1 každé z 71 milionů možných missense variant na základě toho, co ví o účincích jiných příbuzných mutací – čím vyšší je skóre, tím je pravděpodobnější, že daná mutace způsobí chorobu nebo bude s ní spojena. Výzkumníci z DeepMind spolupracovali s Genomics England, vládní organizací, která studuje rostoucí zásobu genetických dat shromážděných britskou Národní zdravotní službou, aby ověřili předpovědi modelu na základě skutečných studií známých missense variant. Článek tvrdí, že AlphaMissense má přesnost 90 procent, přičemž 89 procent variant je klasifikováno.