Espera, não entendi ! A genética está usando NoSQL ?

Estamos vivendo uma era que tudo é “Big data” (já ouvi gente falando que ia usar o Hadoop  para processar um arquivo de texto de 50mb). Mas de fato a 5 anos quando comecei a lidar com  dados biológicos o que mais me impressionou foi a quantidade de dados gerados. Por exemplo, atualmente um seqüenciamento do genoma humano chega a ter 38GB de dados brutos. Você consegue imaginar um arquivo de texto de 38GB ?

Isso mesmo, 38GB de txt. Se é difícil imaginar isso, analisar 100 genomas comparando e aplicando modelos matemáticos para predição genes ou comparação entre genomas seria uma tarefa muito complicada. A este momento você já deve estar pensando, como nós fazemos para armazenar todo esse volume de dados ? No início ouvi muito: – Ah… põe em um banco de dados em Postgres ou MS SQL Server e tá resolvido. Você consegue imaginar quanto tempo demoraria uma busca em uma tabela de 1TB de texto ? Até hoje a forma mais comum de se armazenar esse tipo de dados é usando um txt em um formato específico (FASTA, GB, FASTQ ou outros). Depois de montado, o arquivo final do genoma é muito menor que isso. Podemos comparar o tamanho do genoma final de organismos mais complexos e menos complexos na figura abaixo:

ENTÃO EM 2009 NASCEU UM MILAGRE DO ARMAZENAMENTO, o nosql…

O termo NoSQL é bem antigo e significa o não uso da linguagem SQL (Struct Query Language). No início de 2009, esse termo foi reutilizado para referenciar um projeto de bancos de dados distribuídos. Mas afinal, o que é o NoSQL ? Basicamente, é um novo paradigma de banco de dados que não utiliza relações entre os dados e a linguagem SQL para armazenar e manipular as informações. Existem quatro modelos básicos pra esse tipo de armazenamento, são eles orientados a: Coluna (Apache HTable, Google Big table), Hash table (Cassandra, Amazon DynamoDB), Documento (CouchDB, MongoDB) e Grafos (Neo4J, Titan). As principais vantagens desse tipo de banco é a sua estrutura simples e movida a bons resultados na performance. Existem diversas áreas que já utilizam esse tipo de banco de dados, como por exemplo: Games, Redes Sociais, Internet das coisas, Astronomia e etc.

como ESTE TIPO DE BANCO ESTÁ sendo utilizado para genética ?

Recentemente começaram a surgir diversas iniciativas de trabalhos utilizando bancos de dados NoSQL para realizar o armazenamento de genomas e demais informações. Realizaram uma comparação para avaliar a performance desse tipo de banco de dados e foi superior ao modelo relacional do MySQL (FREIRE et al, 2016; SHICAI et al, 2014)(https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4784924/pdf/pone.0150069.pdf)(https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4248814/). O MongoDB e outros orientados a documentos tem sido utilizado em trabalhos recentes para armazenar dados de NGS (Next-generation sequencing), devido a sua boa performance e fácil modelagem.

Freire, S. M., Teodoro, D., Wei-Kleiner, F., Sundvall, E., Karlsson, D., & Lambrix, P. (2016). Comparing the Performance of NoSQL Approaches for Managing Archetype-Based Electronic Health Record Data. PLoS ONE, 11(3), e0150069. http://doi.org/10.1371/journal.pone.0150069

Wang, S., Pandis, I., Wu, C., He, S., Johnson, D., Emam, I., … Guo, Y. (2014). High dimensional biological data retrieval optimization with NoSQL technology. BMC Genomics, 15(Suppl 8), S3. http://doi.org/10.1186/1471-2164-15-S8-S3

O QUE ESPERAR PARA O FUTURO DOS BANCOS DE DADOS GENÉTICOS?

Tenho acompanhado a evolução dos bancos de dados que seguem o paradigma NoSQL. Para mim, foi uma idéia fantástica que atende e atenderá uma gama de problemas que não eram solucionados pelos velhos e consolidados modelos relacionais. Não é necessário ir muito longe, o exemplo citado no início desse post agora tem uma perspectiva de melhoria no armazenamento graças ao uso do NoSQL. Assim como a genética, outras áreas como a astronomia tem uma esperança de modelagem do armazenamento de dados usando os inovadores NoSQL. Caso você queira saber mais sobre bancos de dados NoSQL disponíveis atualmente, abaixo segue uma série de links de bons textos sobre o assunto….

LINKS

http://www.infoworld.com/article/2848722/nosql/mongodb-cassandra-hbase-three-nosql-databases-to-watch.html

http://www.dataversity.net/sql-versus-nosql-databases-review-key-themes/

http://tech.leroymerlin.com.br/devemos-usar-nosql-e-mongodb

http://blog.ivanqueiroz.com/2017/01/o-que-devo-saber-sobre-nosql.html