O projeto Brasileiro Genoma Café foi elaborado e executado com o objetivo de fornecer informações sobre o genoma do cafeeiro aos pesquisadores que desenvolvem variedades melhoradas, em busca da produtividade e qualidade de grãos. Nesse projeto foram seqüenciados 218.150 clones distintos de ESTs (Expressed Sequenced Tags) escolhidos aleatoriamente em 49 bibliotecas de cDNA de C. arabica, C. canephora e C. racemosa, as quais representam diferentes tecidos em estágios específicos de desenvolvimento e tecidos submetidos a estresses biótico e abiótico. Após a remoção de contaminações e seqüências de baixa qualidade, as 154.770 ESTs restantes foram agrupadas em 45.366 clusters (UniGenes), dos quais cerca de 27% não apresentam similaridade significativa com seqüências protéicas já descritas. A fim de selecionar genes preferencialmente expressos na raiz, no fruto, na folha e no botão floral, realizamos uma análise in silico, visando a prospecção dos seus respectivos promotores em um próximo passo. Para tal, foram feitas comparações por meio do Teste Exato de Fisher, entre grupos formados por bibliotecas de ESTs obtidas a partir de um único tipo de tecido e grupos formados pelas bibliotecas restantes, tendo-se como resultado a seleção de UniGenes que possuem grande chance de serem tecido-específicos. Dessa forma, foram selecionados 103 UniGenes que apresentam níveis significativamente distintos de transcritos oriundos de cada um dos tecidos, sendo 18 de folhas, 40 de frutos, 14 de raiz e 31 de botões florais. Dentre os Unigenes selecionados, foram escolhidos três de cada um dos tecidos e um constitutivo para as validações experimentais. O critério de escolha desses Unigenes se baseou no grau de ineditismo, na especificidade dos unigenes e no nível de expressão. Para confirmar o caráter de tecido especificidade dos genes escolhidos, serão realizadas análises de Real Time RT-PCR e Northern blot.
The Brazilian Coffee Genome Project generated a total of 218,150 EST (Expressed Sequenced Tags) sequences of randomly chosen clones coming from 49 cDNA libraries made from C. arabica, C. canephora or C. racemosa. Those libraries where made of mRNA extracted from several distinct tissues, developmental stages and forms of biotic and abiotic stresses. Contamination and low quality sequences were removed and the 154.770 valid ESTs were grouped in 45.366 clusters (UniGenes), of which about 27% have unknown function. In order to locate candidate tissue-specific promoters, an in silico analysis was performed to identify genes preferentially expressed on roots, fruits, leaves and flowers. We’ve constructed groups of EST libraries, each coming from one tissue type, and have used the Fischer’s Exact Test to compare each one to a group formed by the remaining libraries (i.e., the libraries not included on that particular group) and identified 103 UniGenes with a high chance of being tissue-specific: 18 leaf-, 40 fuit-, 14 root- and 31 flower-specific. The expression level, specificity and uniqueness of the previously identified UniGenes were used to select 3 from each tissue to experimental validation. Real Time RT-PCR and Northern blot analysis will be employed to verify those 12 genes tissue-specificity.