Itthon Hang Miért tökéletes a hadoop a genom szekvenáláshoz?

Miért tökéletes a hadoop a genom szekvenáláshoz?

Tartalomjegyzék:

Anonim

A klinikai genomika izgalmas téma, ahol az emberek csúcstechnológiákon dolgoznak a gyors és pontos eredmények feldolgozása érdekében. A piacon rengeteg genomszekvencia áll rendelkezésre, amelyek szekvenciaadatok petatabátjait állítják elő, és a szekvenálás növekedése a közeljövőben az adatok exabitáinak előállításához vezet. A Hadoop itt tökéletes platform a komplex genomika munkafolyamatának feldolgozására. A Hadoop nagy mennyiségű információt tárolhat és rendezhet, és értelmes elemzést is nyújthat. (Ha képet szeretne kapni arról, hogy mekkora adatot jelent ez valóban, olvassa el a Bittek, bájtok és azok szorzóinak megértése című cikket.)

A genomika jelenje és jövője

Ma a genomtérképezés elérte a fejlődés csúcsát. Sok, a genomikai iparral foglalkozó ember elárasztja a kíváncsiságot, és mivel új lehetőségek mutatják be magukat, a jobb technológia az óra igénye. A genom szekvenálás nagyon ismétlődő és erőforrás-igényes feladat. Csak 2013-ban körülbelül 15 petaitta adatot állítottak elő, és csak 2000 szekvencia készítette. Ez az állkapocs-csökkenő mennyiség 300 KB szekvenált humán genom adatait tartalmazta. Az ilyen adattermelési sebességnél becslések szerint 2018-ra kb. Egy adat exabitát fog előállni. Ennek oka a szekvenciák növekedése, amely futásonként egyre több adatot fog előállítani. Egy másik ok a rendkívül nagy teljesítményű és olcsó genomszekvenáló gépek megjelenése. 2008 óta ezen gépek ára folyamatosan csökken. Ennek oka a nagy teljesítményű, új generációs gépek, amelyek bekerültek a piacra.

A genomtérképező ipar igényei

Az emberi genomból összegyűjtött adatok feldolgozásához komplex algoritmusokat használnak. Ezután ezeket az információkat tárolni kell. A jövőben felülvizsgálhatja az eredeti adatokkal való összehasonlítás érdekében. A 100 GB-os adatok feldolgozása és tárolása nem túl nehéz, főleg, ha a szekvenciaközpontokban alkalmazott erőteljes gépeken végzi. A tanulmányok azt mutatják, hogy ez az adatmennyiség csak körülbelül 1000 CPU óra alatt feldolgozható, tehát nagyon egyszerű. A technikai haladás üteménél nyilvánvaló, hogy a genomipar hamarosan néhány másodperc alatt több ezer gigabájtot dolgoz fel.

Miért tökéletes a hadoop a genom szekvenáláshoz?