Download PDF
ads:
Laborat´orio Nacional de Computa¸ao Cient´ıfica
Programa de os Gradua¸ao em Modelagem Computacional
Identifica¸c˜ao de RNAs ao-codificantes em vibrios
Por
Ana Cristina Gomes Silveira
PETR
´
OPOLIS, RJ - BRASIL
MAIO DE 2010
ads:
Livros Grátis
http://www.livrosgratis.com.br
Milhares de livros grátis para download.
IDENTIFICA¸C
˜
AO DE RNAS N
˜
AO-CODIFICANTES EM VIBRIOS
Ana Cristina Gomes Silveira
DISSERTA¸C
˜
AO SUBMETIDA AO CORPO DOCENTE DO LABORAT
´
ORIO
NACIONAL DE COMPUTA¸C
˜
AO CIENT
´
IFICA COMO PARTE DOS REQUI-
SITOS NECESS
´
ARIOS PARA A OBTEN ¸C
˜
AO DO GRAU DE MESTRE EM
CI
ˆ
ENCIAS EM MODELAGEM COMPUTACIONAL
Aprovada por:
Prof. Fabiano L Thompson, D.Sc
(Presidente)
Prof. Ana Tereza R Vasconselos, D.Sc.
Prof. Marcio Alves-Ferreira, D.Sc.
Prof. Ana Carolina Vicente, D.Sc.
Prof. Marisa Fabiana Nicol´as, D.Sc.
Prof. Maur´ıcio Canao, D.Sc.
PETR
´
OPOLIS, RJ - BRASIL
MAIO DE 2010
ads:
Silveira, Ana Cristina Gomes
XXXX identifica¸ao de rnas ao-codificantes em vibrios / Ana Cristina Gomes
Silveira. Petrop´olis, RJ. : Laborat´orio Nacional de Computa¸ao Cient´ıfica,
2010.
xx, yy p. : il.; 29 cm
Orientadore(s): Fabiano L Thompson e Ana Tereza R Vasconselos
Disserta¸ao (M.Sc.) Laborat´orio Nacional de Computa¸ao Cient´ıfica,
2010.
1. bioinform´atica. 2. ncRNA. 3. vibrio. 4. regula¸ao enica. I.
Thompson, Fabiano L. II. LNCC/MCT. III. T´ıtulo.
CDD XXX.XXX
e.p´ı.gra.fe
s. f. 1. Senten¸ca ou divisa posta no
frontisp´ıcio de um livro ou cap´ıtulo, no
come¸co de um discurso ou de uma
composi¸ao po´etica. 2.Inscri¸ao posta em
lugar vis´ıvel de um edif´ıcio.
(Fonte: Dic. Aur´elio.)
iv
Dedicat´oria
Men¸ao que o autor faz (homenagem) em
folha distinta.
v
Agradecimentos
O autor manifesta reconhecimentos `as pessoas e institui¸oes que colaboraram
para a execu¸ao de seu trabalho.
vi
Resumo da Disserta¸ao apresentada ao LNCC/MCT como parte dos requisitos
necess´arios para a obten¸ao do grau de Mestre em Ciˆencias (M.Sc.)
IDENTIFICA¸C
˜
AO DE RNAS N
˜
AO-CODIFICANTES EM VIBRIOS
Ana Cristina Gomes Silveira
Maio , 2010
Orientador: Fabiano L Thompson, D.Sc
Co-orientador: Ana Tereza R Vasconselos, D.Sc.
A descoberta de RNA ao-codificante (ncRNA) tem focado principalmente
nos genomas de eucariontes e de bact´erias patogˆenicas. Em vibrios, o que se co-
nhece at´e o momento sobre ncRNAs envolve V. cholerae N16961 e V. campbellii
ATCC BAA-1116. Neste estudo, ao identificados genes candidatos de ncRNAs
no genoma de V. campbellii ATCC BAA-1116, V. alginolyticus 40B, V. communis
1DA3 e V. mimicus VM573. V. alginolyticus 40B e V. campbellii ATCC BAA-
1116 ao abundantes em corais brasileiros, enquanto que V. mimicus VM573 ´e uma
linhagem toxigˆenica (CT e TCP positiva) at´ıpica desta esp´ecie. Para identificar
os ncRNAs atrav´es de an´alise in silico foram utilizadas ferramentas a dispon´ıveis
(Infernal e a base de dados Rfam) e programas em Perl desenvolvidos no presente
trabalho. A ferramenta Infernal e a base de dados Rfam ao baseados em mo-
delo de covariˆancia (CM), um caso especial de gram´aticas estoc´asticas livres de
contexto (SCFG). Foram identificados at´e 38 ncRNAs por esp´ecie, os quais foram
classificados em sete classes de acordo com sua fun¸ao regulat´oria e /ou estrutu-
ral (riboswitches, moduladores da atividade de prote´ınas, RNAs antisenso de ao
trans, RNAs antisenso de ao cis, ribonucleoproteinas, regula¸ao por t´ermino de
transcri¸ao e classifica¸ao desconhecida). O grupo mais abundante foi o riboswitch,
enquanto que o grupo menos abundante foi o ribonucleoproteina. Este trabalho
demonstrou que os ncRNAs apresentam uma ampla diversidade de classes funci-
vii
onais, estando possivelmente associados com a regula¸ao de diferentes processos
celulares.
viii
Abstract of Dissertation presented to LNCC/MCT as a partial fulfillment of the
requirements for the degree of Master of Sciences (M.Sc.)
IDENTIFICATION OF NON-CODING RNAS IN VIBRIOS
Ana Cristina Gomes Silveira
May, 2010
Advisor: Fabiano L Thompson, D.Sc
Co-advisor: Ana Tereza R Vasconselos, D.Sc.
The discovery of the non-coding RNA (ncRNA) has been primarily focu-
sed on the genomes of eukaryotes and pathogenic bacteria. In vibrios, all that is
known up to now regarding ncRNAs involves V. cholerae N16961 e V. campbellii
ATCC BAA-1116. In this study, ncRNA candidate genes were identified in the
genomes of V. campbellii ATCC BAA-1116, V. alginolyticus 40B, V. communis
1DA3 e V. mimicus VM573. V. alginolyticus 40B and V. campbellii ATCC BAA-
1116 are abundant in brazilian corals, whereas V. mimicus VM573 is a toxic strain
(carrying the cholera toxin and the TCP genes) atypical to this species. In order
to identify the ncRNAs in silico, the tools Infernal and Rfam database were used.
Perl programs were developed in the present work. The Infernal tool and the Rfam
database are based on the Covariance Model (CM), a special case of Stochastic
Context Free Grammars (SCFG). Up to 38 ncRNAs were identified per species.
They were classified into seven classes according to their regulatory function and/or
structural (1. riboswitches, 2. modulators of protein activity, 3. RNA’s antisen-
sus of trans action, 4. RNA’s antisensus of cis action, 5. ribonucleoproteins, 6.
regulation by transcription termination and 7. unknown classification). The most
abundant group was the riboswitch, whereas the less abundant group was the ri-
bonucleoprotein. This work demonstrated that the ncRNAs show a great diversity
in functional classes, possibly associated with the regulation of different cellular
ix
processes.
x
Sum´ario
1 Introdu¸ao 1
1.1 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.1 Objetivo Geral . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.2 Objetivos Espec´ıficos . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Organiza¸ao da Disserta¸ao . . . . . . . . . . . . . . . . . . . . . . 2
2 Fundamentos e Conceitos de Biologia 3
2.1 Vibrios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.1.1 Classifica¸ao, Caracter´ısticas e Ocorrˆencia . . . . . . . . . . 4
2.1.2 Biofilmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.1.3 Ciclagem de Nutrientes . . . . . . . . . . . . . . . . . . . . . 5
2.1.4 Pat´ogenos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2 Regula¸ao enica em Bact´erias . . . . . . . . . . . . . . . . . . . . 8
2.2.1 Controle Transcricional . . . . . . . . . . . . . . . . . . . . . 9
2.3 RNAs ao-codificantes e a Regula¸ao Gˆenica . . . . . . . . . . . . . 16
2.3.1 ncRNAs participam de cascatas de regula¸ao global . . . . . 21
2.3.2 ncRNAs participam de Quorum Sensing . . . . . . . . . . . 23
3 Ferramentas computacionais para detec¸ao de ncRNAs 25
3.1 QRNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2 RNAz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.3 Rsearch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
xi
3.4 Infernal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.5 Rfam . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.6 Escolha das Ferramentas . . . . . . . . . . . . . . . . . . . . . . . . 33
3.7 Gram´atica Estoastica Livre de Contexto e Modelo de Covariˆancia . 33
4 Materiais e M´etodos 43
4.1 Dados de entrada originados do genoma V. campbellii ATCC BAA-
1116 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.2 Dados de entrada originados dos genomas de V. mimicus VM573,
V. alginolyticus 40B, V. communis 1DA3 . . . . . . . . . . . . . . . 43
4.2.1 Sequenciamento . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.2.2 Anota¸ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.3 An´alise Computacional . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.3.1 Identifica¸ao de Regi˜oes Intergˆenica em V. mimicus VM573,
V. alginolyticus 40B, V. communis 1DA3 . . . . . . . . . . . 47
4.3.2 Identifica¸ao de Regi˜oes Intergˆenica em V. campbellii ATCC
BAA-1116 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.3.3 Preprocessamento da base de dados do Rfam . . . . . . . . . 49
4.3.4 Busca utilizando o infernal e a base de dados do Rfam . . . 49
4.3.5 Formata¸ao dos resultados . . . . . . . . . . . . . . . . . . . 51
4.4 An´alise de desempenho . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.5 Valida¸ao experimental . . . . . . . . . . . . . . . . . . . . . . . . . 53
5 Resultados e Discuss˜ao 54
5.1 Identifica¸ao das Regi˜oes intergˆenicas em V. mimicus VM573, V.
alginolyticus 40B, V. communis 1DA3 e V. campbellii ATCC BAA-
1116 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.2 Desempenho do programa de busca utilizando a base de dados pre-
processada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.3 Busca utilizando Infernal / Rfam . . . . . . . . . . . . . . . . . . . 56
xii
5.4 Formata¸ao dos resultados . . . . . . . . . . . . . . . . . . . . . . . 57
5.5 Diversidade de ncRNAs nos genomas de vibrio . . . . . . . . . . . . 59
5.6 Express˜ao dos candidatos de ncRNAs em V. campbellii BAA-1116 . 68
6 Conclus˜oes e Trabalhos Futuros 72
Referˆencias Bibliogr´aficas 74
Apˆendice
A Tabela resumida dos ncRNAs 92
B Tabela completa dos ncRNAs 96
C Artigo cient´ıfico 105
xiii
Lista de Figuras
Figura
2.1 Estrutura de um operon (adaptado de Snustad e Simmons, 2008). . 10
2.2 Regula¸ao negativa de um operon. No primeiro momento mostra
o repressor ativo ligando-se ao operador e impedindo a transcri-
¸ao. No segundo momento mostra o repressor inativo (pelo indutor)
deixando o operador livre e permitindo a transcri¸ao dos genes es-
truturais (adaptado de Snustad e Simmons, 2008). . . . . . . . . . . 11
2.3 Regula¸ao positiva de um operon (adaptado de Snustad e Simmons,
2008). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.4 Organiza¸ao do operon lac em E. coli (adaptado de Stryer, 1992). . 13
2.5 Regula¸ao da express˜ao do operon lac. (A) Ausˆencia de lactose: re-
pressor lac (gene i) se liga ao operador reprimindo a transcri¸ao.(B)
Presen¸ca de lactose: a lactose inativa o repressor lac, viabilizando a
transcri¸ao (adaptado de Stryer, 1992). . . . . . . . . . . . . . . . . 14
2.6 Regula¸ao positiva da express˜ao do operon lac devido a forma¸ao
do complexo AMPc-CAP (De Oliveira, 2005). . . . . . . . . . . . . 15
2.7 Diagrama do operon trp, mostrando o promotor (p), operador (o),
atenuador (a), gene para a sequˆencia leader (L) e os genes das enzi-
mas da via do trp (E, D, C, B e A) (adaptado de Stryer, 1992). . . 15
xiv
2.8 Modelo de atenua¸ao do openor trp. (A) Alto n´ıvel de trp, o seg-
mento 3 e 4 se pareiam e formam a al¸ca de t´ermino de transcri¸ao.
(B) Baixo n´ıvel de trp, o ribossomo ara no odon do trp no seg-
mento 1, formando uma nova al¸ca com os segmentos 2 e 3, que por
ao ser t´emino de transcri¸ao, ocorre a express˜ao dos genes subse-
quentes a este sitio de atenua¸ao (Adaptado de Stryer, 1992). . . . 17
2.9 Exemplos de mecanismos de controle da express˜ao enica mediada
por riboswitch (adaptado de Waters e Storz, 2009). . . . . . . . . . 20
2.10 Mecanismos de controle negativo da express˜ao enica mediada por
RNAs antisenso de ao trans (adaptado de Waters e Storz, 2009). . 22
2.11 Mecanismos de controle positivo da express˜ao enica mediada por
RNAs antisenso de ao trans (adaptado de Waters e Storz, 2009). . 22
2.12 Alguns exemplos da participa¸ao de ncRNAs em cascatas de regu-
la¸ao gobal (adaptado de Gottesman, 2005). . . . . . . . . . . . . . 23
3.1 Base dos modelos usados na ferramenta QRNA (Adaptado de Rivas
e Eddy, 2001). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.2 Hierarquia de Chomsky (adaptado da Wikipedia) . . . . . . . . . . 37
3.3 Exemplo de uma dada fam´ılia de RNA: A esquerda ´e representado o
alinhamento m´ultiplo de 3 sequˆencias, sendo que a linha [estrutura]
representa a estrutura secund´aria consenso. A direita ´e mostrada
a estrutura secund´aria da sequˆencia do RNA de humano, gerada a
partir da estrutura consenso (adaptado de Eddy, 2007). . . . . . . . 42
3.4 Alinhamento estrutural ´e convertido em ´arvore bin´aria. A esquerda
´e representado a estrutura secund´aria consenso derivada do alinha-
mento da figura anterior. A direita ´e representada a ´arvore CM
correspondente a estrutura consenso (adaptado de Eddy, 2007). . . 42
4.1 Fluxograma do preprocessamento da base Rfam. . . . . . . . . . . . 50
4.2 Fluxograma das etapas da an´alise computacional. . . . . . . . . . . 52
xv
5.1 Express˜ao de ncRNAs ao longo do tempo, utilizando PCR de trans-
cri¸ao reversa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
xvi
Lista de Tabelas
Tabela
2.1 Exemplos de fatores σ. . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.1 Estados do CM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.2 Os tipos de os usados na constru¸ao da ´arvore bin´aria. . . . . . . . 41
4.1 Quantidade de ORFs por genoma gerada pelo programa de anota¸ao
SABIA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.2 Quantidade de contigs por cromossomo. Em alguns contigs ao foi
poss´ıvel determinar o cromossomo de origem, sendo assim denomi-
nados de contigs sem identifica¸ao. . . . . . . . . . . . . . . . . . . 46
4.3 Quantidades de contigs sem ORFs e com ORFs (contigs ´uteis para
an´alise) em cada genoma. . . . . . . . . . . . . . . . . . . . . . . . 47
5.1 Quantidade de IGRs (total, menores do que 50 nt e maiores do que
50 nt) encontradas nos genomas de V. mimicus VM573, V. alginoly-
ticus 40B, V. communis 1DA3 e V. campbellii ATCC BAA-1116,
separadas por cromossomo: cromossomo I (Crom I), cromossomo II
(Crom II). As IGRs provenientes de contigs que n˜ao foram poss´ıveis
detectar o cromossomo que as originou, fazem parte da estat´ıstica
de cromossomo indefinido (Crom -). . . . . . . . . . . . . . . . . . . 54
5.2 Tamanhos das IGRs dos genomas de vibrio. . . . . . . . . . . . . . 55
5.3 Compara¸ao dos tempos de execu¸ao. . . . . . . . . . . . . . . . . . 56
xvii
5.4 Quantidades de ncRNAs encontradas nos genomas de V. mimicus
VM573, V. alginolyticus 40B, V. communis 1DA3 e V. campbellii
ATCC BAA-1116, separadas por cromossomo: cromossomo I (Crom
I), cromossomo II (Crom II) ou cromossomo indefinido (Crom -). . . 57
5.5 Tabela de express˜ao dos ncRNAs em V. campbellii BAA-1116 (cro-
mossomo I) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.6 Tabela de express˜ao dos ncRNAs em V. campbellii BAA-1116 (cro-
mossomo II) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
xviii
Lista de Siglas e Abreviaturas
A: Adenina
AC: Adenilato Ciclase
AMP: Adenosina Monofosfato
ATP: Adenosina Trifosfato
BLAST: Basic Local Alignment Search Tool
BLOSUM: Blocks of Amino Acid Substitution Matrix
C: Citosina
cAMP (ou AMPc): AMP c´ıclico
CAP: Catabolite Activator Protein
c-di-GMP: diguanilato c´ıclico
CFG: Context Free Grammars
CM: Covariance Model
CPU (ou UCP): Unidade Central de Processamento
Crom (ou Cr): cromossomo
CRP: cAMPreceptor protein
CT: Toxina da olera
DNA (ou ADN):
´
Acido Desoxirribonucl´eico
E-value: Expect value
Fe: Ferro
FMN: Flavina Mononucleot´ıdeo
FTP: File Transfer Protocol
G: Guanina
xix
Gal: Galactose
GB: Giga Byte
Gly: Glicina
HAP: Hidrocarboneto Arom´atico Polic´ıclico
His: Histidina
H-NS: Histone-like nucleoid protein
IGR: Intergenic Region
Infernal: Inference of RNA Alignment
Lac: Lactose
Log: logar´ıtmo
MFE: Minimun Free Energy
Mg
2+
:
´
Ion Magn´esio
miRNA: micro RNA
mRNA (ou RNAm): RNA mensageiro
NCBI: National Center for Biotechnology Information
ncRNA: RNA ao-codificante
nt: nucleotideo
ORF: Open Reading Frame
p: significˆancia estat´ıstica
pb: pares de base
PCR: Polimerase Chain Reaction
pH: potencial hidrogeniˆonico
RBS: Ribosome Binding Site
RIBOSUM: Ribosomal RNA Substitution Matrix
RNA (ou ARN):
´
Acido Ribonucleico
RNase: Ribonuclease
rRNA (ou RNAr): RNA ribossomal
RT-PCR: reverse transcriptase PCR
xx
SABIA: System for Automated Bacterial Integrated Annotation
SCFG: Stochastic Context Free Grammars
SGE: Sun Grid Engine
snoRNA: small nucleolar RNA
snRNA: small nuclear RNA
sRNA: small RNA
SVM: Support Vector Machine
T: Timina
TCBS: Tiosulfato-Citrato-Bile-Sacarose
TCP: pilus co-regulado com a toxina
Thi: Tiamina
Thr: Treonina
TIR: Translation Initiation Region
TPP: Tiamina Pirofosfato
tRNA (ou RNAt): RNA transportador
Trp: Triptofano
U: Uracila
URL: Uniform Resource Locator
UTR: Untranslated Region
V. alginolyticus: Vibrio alginolyticus
V. campbellii: Vibrio campbellii
V. cholerae: Vibrio cholerae
V. communis: Vibrio communis
V. mimicus: Vibrio mimicus
: Uni˜ao
: Interse¸ao
: Contido ou igual
: Contido
xxi
: Pertence
|: Tal que
: Produ¸ao
: Derivao
xxii
Cap´ıtulo 1
Introdu¸ao
A bioinform´atica utiliza o conhecimento da ciˆencia da computa¸ao com o
intuito de estudar temas biol´ogicos complexos. Neste estudo, o desafio foi a identi-
fica¸ao de genes de ncRNAs do genoma de quatro esp´ecies de vibrios. Este estudo
foi realizado a artir dos genomas de V. mimicus VM573, V. alginolyticus 40B, V.
communis 1DA3 e V. campbellii ATCC BAA-1116. Os ncRNAs j´a descritos e com-
provados em outras esp´ecies de bact´erias foram identificados nestes trˆes genomas.
Para alcan¸car tais resultados seria muito demorado e pouco eficaz utilizar uma
abordagem unicamente experimental, uma vez que um genoma bacteriano tem em
m´edia 4.000.000 pares de base. Portanto, a abordagem computacional torna-se
imprescind´ıvel neste contexto e ideal quando aliada a experimentos laboratoriais
subsequentes, para a valida¸ao dos resultados gerados in silico. O presente tra-
balho resultou em um artigo cuja submiss˜ao foi aceita na revista internacional
Microbiology-UK. Este artigo encontra-se no apˆendice C.
1.1 Objetivos
1.1.1 Objetivo Geral
Realizar um estudo abrangente sobre as regi˜oes intergˆenicas por meio da bi-
oinform´atica para identificar genes de ncRNAs nos genomas de V. mimicus VM573,
V. alginolyticus 40B, V. communis 1DA3 e V. campbellii ATCC BAA-1116.
1
1.1.2 Objetivos Espec´ıficos
Identificar genes de ncRNAs nos genomas dos vibrios atraes de compara-
¸oes com os dados conhecidos e confirmados em outros genomas bacteria-
nos.
Identificar as ORFs que ladeiam os genes dos ncRNAs candidatos e a fita
que as transcreve.
Verificar a eficiˆencia do m´etodo estabelecido neste trabalho para a identi-
fica¸ao dos ncRNAs candidatos.
1.2 Organiza¸ao da Disserta¸ao
Esta disserta¸ao est´a organizada em 6 cap´ıtulos:
No cap´ıtulo 2 est˜ao fundamentados os conhecimentos de biologia necess´arios
para o entendimento do trabalho. Para tal finalidade, ao apresentadas as princi-
pais caracter´ısticas dos organismos que pertencem ao grupo vibrio, s˜ao descritas as
formas mais conhecidas de regula¸ao gˆenica em bact´erias e finalmente s˜ao descritos
os RNAs ao-codificantes (ncRNAs) e algumas de suas fun¸oes regulat´orias. No
cap´ıtulo 3 est˜ao descritos os desafios encontrados na detec¸ao de ncRNAs, s˜ao dis-
cutidos alguns trabalhos que descrevem t´ecnicas computacionais para identifica¸ao
de ncRNAs e detalhadas algumas t´ecnicas e modelos pertinentes ao entendimento
deste trabalho. No cap´ıtulo 4 ao apresentados os m´etodos utilizados neste traba-
lho, incluindo os procedimentos de cada etapa do processo de busca e identifica¸ao
dos ncRNAs. No cap´ıtulo 5 s˜ao apresentados os resultados e discuss˜oes do modelo
de busca, bem como uma avalia¸ao do desempenho computacional. Finalmente,
no cap´ıtulo 6 ao apresentadas as conclus˜oes deste trabalho, destacando suas con-
tribui¸oes, al´em de propostas de trabalhos futuros.
2
Cap´ıtulo 2
Fundamentos e Conceitos de Biologia
2.1 Vibrios
Em 1854, o m´edico italiano Filippo Pacini, ao estudar os surtos da olera
em Floren¸ca, descobriu a primeira esp´ecie de vibrio, V. cholerae. Esta descoberta
ocorreu ao examinar, com seu microsc´opio, a mucosa intestinal de v´ıtimas fatais
da doen¸ca e V. cholerae foi encontrada em todas as amostras (conforme o site de
referˆencia da UCLA
1
). No mesmo ano, John Snow, m´edico inglˆes e um dos mais
influentes sanitaristas de sua ´epoca, demonstrou que a contamina¸ao da c´olera n˜ao
se dava pelo ar, como acreditava-se at´e enao, e sim atrav´es de ´agua contaminada
por fezes de doentes. Esta doen¸ca, que havia matado dezenas de milhares de pes-
soas na Inglaterra entre 1830 e 1850, foi eliminada das comunidades inglesas com a
aprovao das recomenda¸oes sanit´arias preventivas propostas por Snow (segundo
o site de referˆencia da UCLA). Ap´os 30 anos, o m´edico alem˜ao Robert Koch, assim
como a maioria da comunidade cient´ıfica, ao tinha conhecimento do trabalho de
Pacini na Universidade de Floren¸ca e no entanto, ambos de forma independente
chegaram a conclus˜ao que o V. cholerae era o agente etiol´ogico da olera. A desco-
berta de Koch tornou-se aceita pela comunidade cient´ıfica, tendo sido amplamente
divulgada na imprensa popular, tornando-se reconhecido como o descobridor do
organismo da olera, al´em de ter sido o primeiro a isolar V. cholerae em meio de
cultura (UCLA). Ap´os a descoberta do V. cholerae outras esp´ecies do grupo vibrio
1
UCLA, Department of Epidemiology. Who first discovered vibrio cholerae
[http://www.ph.ucla.edu/epi/snow/firstdiscoveredcholera.html]
3
tem sido descoberta, com aproximadamente 115 esp´ecies conhecidas hoje.
2.1.1 Classifica¸ao, Caracter´ısticas e Ocorrˆencia
Os vibrios ao integrantes da fam´ılia Vibrionaceae e pertencentes `a classe
Gammaproteobacteria. Este grupo est´a distribu´ıdo entre 6 eneros distintos, ou
seja, Aliivibrio, Enterovibrio, Grimontia, Photobacterium, Salinivibrio e Vibrio. O
grupo dos vibrios (todas as esp´ecies da fam´ılia Vibrionaceae) compreendem 115
esp´ecies, sendo que somente o gˆenero Vibrio conem atualmente 73 esp´ecies. O
site de referˆencia de Euz´eby (LBSN
2
) apresenta a lista completa de esp´ecies.
Os vibrios s˜ao bact´erias Gram-negativas, em forma de bastonetes curvos, ge-
ralmente oveis, apresentam flagelo polar, ao mesof´ılicos e quimioorganotr´oficos,
tˆem metabolismo fermentativo facultativo, s˜ao oxidase positivo, capazes de crescer
em
´
Agar Tiosulfato-Citrato-Bile-Sacarose (TCBS) e s˜ao encontrados em ambientes
aqu´aticos e em associa¸ao com eucariontes. Os vibrios s˜ao ub´ıquos e abundantes no
ambiente aqu´atico. A elevada abundˆancia destes organismos tamem ´e detectada
em tecidos e/ou ´org˜aos de algas marinhas e de diversos animais como por exemplo,
corais, peixes, camar˜oes, esponjas, moluscos e zooplˆancton. Nos ´org˜aos luminosos
da lula Sepiolla spp. a popula¸ao de v´ıbrios pode chegar a 10
11
c´elulas (Fido-
piastis et al., 1998; Nishiguchi, 2000). a na superf´ıcie externa de zooplˆancton,
os vibrios podem chegar a 4,3x10
6
c´elulas/mm
2
(Heidelberg et al., 2002) e em co-
p´epodos o V. cholerae pode chegar a 1,55x10
4
c´elulas/mm
2
(Rawlings et al., 2007).
2.1.2 Biofilmes
Os vibrios podem formar biofilmes. Biofilmes ao comunidades biol´ogicas
com um elevado grau de organiza¸ao, onde as bact´erias formam comunidades es-
2
LBSN Formerly List of Bacterial names with Standing in Nomenclature
[http://www.bacterio.cict.fr/]
4
truturadas, coordenadas e funcionais imersas em matrizes polim´ericas produzidas
por elas pr´oprias (Davey e O’toole, 2000). Os biofilmes ao formados em qualquer
superf´ıcie e em qualquer ambiente e apresentam v´arias fun¸oes que ser˜ao descritas
a seguir. O biofilme favorece rela¸oes simbi´oticas, sendo o exemplo t´ıpico em vibrio
a simbiose das V. logei, A. fischeri com lula. Estas duas bact´erias colonizam os
´org˜aos luminosos do hospedeiro e atrav´es da emiss˜ao de luz desempenham pap´eis
na comunica¸ao, atra¸ao de presas e repuls˜ao de predadores, favorecendo assim seu
hospedeiro (Ruby, 1996).
Os biofilmes proporcionam benef´ıcios aos organismos a eles associados. No
caso de vibrio, sua associa¸ao aos biofilmes constitui uma forma de prote¸ao ao
seu desenvolvimento, como por exemplo em V. cholerae, V. parahaemolyticus, V.
harveyi, A. fischeri e V.vulnificus. O biofilme confere a estas esp´ecies a habilidade
de alternar seu crescimento no ambiente aqu´atico e no interior de seus hospedeiros
(Yildiz e Visick, 2009). Outro benef´ıcio do biofilme ´e o de permitir a sobrevivˆencia
dos vibrios em ambientes hostis, por exemplo em V. cholerae que pode formar o
biofilme para protegˆe-lo contra o pH ´acido do estˆomago humano (Zhu e Mekala-
nos, 2003). Outras fun¸oes do biofilme que podem ser destacadas ao: permitir a
utiliza¸ao de nutrientes contidos no pr´oprio biofilme, prote¸ao contra predadores e
compostos antimicrobianos e possibilitar o estabelecimento de rela¸oes favor´aveis
com outras bact´erias ou hospedeiros.
A forma¸ao de biofilme em vibrios ´e regulada pelo mecanismo de quorum
sensing, o qual ser´a explicado na sess˜ao 2.3.
2.1.3 Ciclagem de Nutrientes
Os vibrios tˆem um papel importante na ciclagem de nutrientes no meio aqu´a-
tico, atrav´es do consumo de mat´eria orgˆanica (Sherr e Sherr, 2002). Os vibrios
5
podem prover ´acidos graxos polinsaturados para a cadeia alimentar aqu´atica, su-
prindo organismos marinhos que ao podem produz´ı-los de novo (Cottrell e Kir-
chman, 2003; Nichols, 2003). Vibrios ao capazes de degradar quitina, um dos
polissacar´ıdeos mais abundantes nos oceanos, que serve de fonte de carbono e
nitrogˆenio para o crescimento (Riemann e Azam, 2002). V. harveyi secreta no m´ı-
nimo dez enzimas diferentes que degradam quitina (Suginta et al., 2004). Algumas
esp´ecies de vibrios s˜ao capazes de degradar hidrocarbonetos arom´aticos polic´ıclicos
(HAPs) presentes em sedimentos marinhos polu´ıdos (Hedlund e Staley, 2001).
2.1.4 Pat´ogenos
Os principais pat´ogenos humanos ao V. cholerae, V. mimicus, V. parahae-
molyticus e V. vulnificus. Apenas V. cholerae causa epidemias e pandemias. O V.
cholerae ´e o agente etiol´ogico da c´olera, que ´e uma infec¸ao intestinal aguda, sendo
na maioria das vezes assintom´atica (em 90% das pessoas) ou produzindo diarr´eia
de pequena intensidade. Em menos de 10% dos infectados pode ocorrer diarr´eia
aquosa profunda, com apida evolu¸ao para desidrata¸ao grave e alta diminui¸ao
da press˜ao sangu´ınea, podendo levar `a morte (os dados acima descritos foram ob-
tidos da CIVES
3
). Esta infec¸ao ´e resultante da ingest˜ao de ´agua ou alimentos
contaminados com V. cholerae toxigˆenico. Existem mais de 200 sorogrupos e des-
tes apenas dois ao toxigˆenicos, isto ´e, produzem a enterotoxina col´erica (CT) e o
pilis co-regulados com a toxina (TCP). Estas linhagens patogˆenicas em causado
a morte de milhares de pessoas em todo o mundo, principalmente em pa´ıses sub-
desenvolvidos, onde o saneamento asico ainda ´e prec´ario (dado obtido da WHO
4
). Origin´aria da
´
Asia, mais precisamente da
´
India e de Bangladesh, a olera se
espalhou para outros continentes a partir de 1817. Chegou ao Brasil em 1885, in-
vadindo os estados do Amazonas, Bahia, Par´a e Rio de Janeiro, chegando em ao
3
Cives Centro de Informa¸ao em Sa´ude para Viajantes
[http://www.cives.ufrj.br/informacao/colera/col-iv.html]
4
WHO World Health Organization [www.who.int]
6
Paulo em 1893. No final do s´eculo XIX, o governo brasileiro declarou que a doen¸ca
tinha sido erradicada do pa´ıs. Cerca de um s´eculo depois, em 1991, a c´olera chegou
novamente ao Brasil vinda do Peru. Dados recentes mostram que no Zimabue o
n´umero de casos suspeitos de olera foi de 98.424 com 4.276 ´obitos, de agosto de
2008 a maio de 2009 (dados obtidos da WHO). Na Guin´e-Bissau, foi reportado no
per´ıodo de maio at´e setembro de 2008 um total de 7166 casos de olera com 133
´obitos (dados obtidos da WHO).
O V. mimicus ´e outra esp´ecie importante dentro do genˆero Vibrio, pois tam-
b´em est´a associada a surtos de diarr´eia em humanos (Takahashi et al., 2007; Mizuno
et al., 2009). O V. mimicus ´e a esp´ecie filogeneticamente mais pr´oxima de V. cho-
lerae, tendo sido primeiramente identificada como uma linhagem de V. cholerae
bioquimicamente at´ıpica, incapaz de utilizar sacarose (DAVIS et al., 1981) e pos-
teriormente descrita como uma nova esp´ecie que mimetizava V. cholerae.
O V. parahaemolyticus causa gastroenterite em humanos, principalmente,
atrav´es de consumo de frutos do mar contaminados (DePaola et al., 2003; Drake
et al., 2007; Cho et al., 2008). Linhagens de V. parahaemolyticus de sorogrupos
O3:K6, O4:68 e O1:K tˆem sido respons´aveis por epidemias (Okuda et al., 1997;
Gonzalez-Escalona et al., 2005; Ansaruzzaman et al., 2008). Outras esp´ecies de
vibrios, por exemplo, Grimontia hollisae, Photobacterium damselae, V. alginoly-
ticus, V. cincinnatiensis, V. fluvialis, V. furnisii, V. harveyi e V. metschnikovii
tˆem sido encontradas em infec¸oes espor´adicas em humanos (Farmer J.J. III, 2005;
BRENNER et al., 1983; CARNAHAN et al., 1994; Yamane et al., 2004).
Al´em dos vibrios que afetam humanos, tamem s˜ao encontradas muitas esp´e-
cies de vibrios patogˆenicas para animais aqu´aticos (Austin e Zhang, 2006; Austin,
2010), entre elas est˜ao os V. anguillarum, A. salmonicida, V. vulnificus, V. algi-
nolyticus, V. harveyi e V. campbellii, que ao os principais pat´ogenos para arias
7
esp´ecies de peixes e camar˜oes. Por exemplo, V. alginolyticus pode causar septice-
mia, exoftalmia e ´ulceras em diferentes esp´ecies de peixes; V. harveyi pode causar
gastroenterite e ´ulceras em peixes al´em de vibriose luminosa em camar˜oes. V.
shilonii e V. coralliilyticus ao os agentes causadores do branqueamento em corais
e a patogenicidade destes vibrios est´a relacionada ao aumento da temperatura da
´agua do mar (Ben-Haim et al., 2003; Rosenberg e Falkovitz, 2004). Estudos re-
centes mostram que a uma rela¸ao direta entre o aumento de vibrios no muco de
corais e o aparecimento de doen¸cas nestes organismos (Bourne et al., 2008; Allers
et al., 2008; Dinsdale et al., 2008).
2.2 Regula¸ao Gˆenica em Bact´erias
As bact´erias est˜ao expostas a altera¸oes nas condi¸oes ambientais tais como,
temperatura, pH, concentra¸ao de oxigˆenio, disponibilidade de nutrientes e com-
postos oxicos. Essas altera¸oes exigem pronta adapta¸ao para garantir a sobre-
vivˆencia da popula¸ao. A adaptabilidade das bact´erias depende em parte de sua
regula¸ao enica, ou seja, de sua capacidade de ligar e desligar a express˜ao de
conjuntos espec´ıficos de genes em resposta a mudan¸cas ambientais. A express˜ao
de determinados genes ´e ligada quando os produtos destes genes ao necess´arios
em um dado momento, quando eles ao s˜ao mais necess´arios sua express˜ao ´e ent˜ao
desligada.
Alguns genes ao ditos constitutivos, ou seja, ao expressos de forma cons-
tante independente das varia¸oes ambientais uma vez que seus produtos ao essen-
ciais para a sobrevivˆencia do organismo, ao exemplos de tais produtos as mol´eculas
de tRNA, rRNA, prote´ınas ribossomais, subunidades de RNA polimerase e as de-
mais enzimas que catalisam processos metab´olicos cuja fun¸ao ´e a manuten¸ao
celular. Estes genes, por conseguinte, ao est˜ao sujeitos a regula¸ao. Entretanto
existe uma gama de produtos gˆenicos que ao necess´arios para o crescimento celu-
8
lar em apenas determinadas condi¸oes ambientais, sendo neste caso um desperd´ıcio
de energia se sua s´ıntese fosse constitutiva. Estes genes est˜ao sujeitos a regula¸ao
da express˜ao, permitindo que seus produtos aumentem ou diminuam em respos-
tas a sinais moleculares. Quando uma bact´eria encontra-se em um meio contendo
mol´eculas orgˆanicas essenciais para seu crescimento, esta bact´eria ao sintetizar´a
tais mol´eculas a partir de precursores tamb´em presentes no meio, atendendo as-
sim ao princ´ıpio da economia de energia da elula. Do ponto de vista energ´etico,
a s´ıntese de compostos orgˆanicos requer processos altamente dispendiosos para a
c´elula, portanto regular os tipos e quantidades de compostos que ser˜ao sintetiza-
dos ´e muito efetivo para a otimiza¸ao do crescimento de uma popula¸ao bacteriana.
A express˜ao gˆenica pode ser regulada em diferentes n´ıveis do processo de
s´ıntese de prote´ına, tais como: transcri¸ao, processamento de mRNA, renovao
de mRNA, tradu¸ao e os-tradu¸ao (Snustad D.P, 2008). Uma das mais estuda-
das ´e a regula¸ao a n´ıvel transcricional, a qual requer intera¸ao DNA-prote´ına. O
controle da express˜ao enica ´e realizado por mecanismos reguladores positivos e
negativos. O mecanismo de controle positivo necessita de um ativador para ligar a
express˜ao de um ou mais genes estruturais. a no mecanismo de controle negativo
´e necess´ario um repressor para desligar a express˜ao de genes estruturais. Tanto
ativadores quanto repressores ao produtos de genes reguladores que tem como
fun¸ao, no caso da regulao a n´ıvel transcricional, controlar a express˜ao enica
ligando-se a s´ıtios adjacentes aos promotores de genes estruturais.
2.2.1 Controle Transcricional
Em bact´erias, o principal mecanismo de controle da express˜ao enica ´e a
regula¸ao da quantidade de mRNA produzido a partir de um certo gene. As
principais prote´ınas que regulam o in´ıcio da transcri¸ao atraes da RNA polimerase
ao:
9
Repressores: impedem o acesso da RNA polimerase ao promotor.
Ativadores: potencializam a intera¸ao entre a RNA polimerase e o promo-
tor.
Fatores de especificidade: altera a especificidade da RNA polimerase pelo
promotor (fatores σ).
2.2.1.1 Repressores e Ativadores
Em bact´erias, genes que est˜ao envolvidos num mesmo processo metab´olico
freq
¨
uentemente comp˜oem uma unidade gen´etica de express˜ao coordenada chamada
operon. Cada operon cont´em um conjunto de genes estruturais cont´ıguos, um
promotor (o s´ıtio de liga¸ao para a RNA polimerase) e um operador (o s´ıtio de
liga¸ao para uma prote´ına reguladora, ou repressor) (figura 2.1). Um operon pode
sofrer, principalmente, regula¸ao negativa e/ou regula¸ao positiva.
Figura 2.1: Estrutura de um operon (adaptado de Snustad e Simmons, 2008).
10
A regula¸ao negativa ocorre quando um repressor est´a ligado ao operador,
assim a RNA polimerase ao pode transcrever os genes estruturais do operon. No
entanto, quando o operador encontra-se livre de repressor, a RNA polimerase pode
transcrever o operon (figura 2.2). Entretanto, a regula¸ao positiva ocorre quando
uma prote´ına ativadora liga-se a uma regi˜ao espec´ıfica do promotor potencializando
a intera¸ao entre RNA polimerase e promotor, e portanto a transcri¸ao do operon ´e
intensificada (figura 2.3). Existem casos em que uma cole¸ao de genes (que podem
estar organizados v´arios operons) ´e regulada por uma mesma mol´ecula. Nesse caso
´e dito que tais genes pertencem a um mesmo regulon. Os sistemas que regulam
simultaneamente arios operons, ou seja regulon, ao chamados de mecanismo re-
gulat´orio global. Em vibrios, existem regulons associados com absor¸ao de ferro,
Lux e patogenicidade (Antunes et al., 2007; Childers e Klose, 2007; Ahmad et al.,
2009)
Figura 2.2: Regula¸ao negativa de um operon. No primeiro momento mostra o
repressor ativo ligando-se ao operador e impedindo a transcri¸ao. No segundo
momento mostra o repressor inativo (pelo indutor) deixando o operador livre e
permitindo a transcri¸ao dos genes estruturais (adaptado de Snustad e Simmons,
2008).
11
Figura 2.3: Regula¸ao positiva de um operon (adaptado de Snustad e Simmons,
2008).
2.2.1.2 Fatores σ
A express˜ao gˆenica come¸ca com a liga¸ao da RNA polimerase ao promotor
para iniciar a transcri¸ao dos mais de 1000 operons e genes isolados de bact´erias.
Fator σ ´e uma subunidade da RNA polimerase de procariontes. Esta su-
bunidade est´a envolvida apenas no in´ıcio da transcri¸ao e sua fun¸ao ´e permitir
que a RNA polimerase reconhe¸ca especificamente as duas seq
¨
uˆencias consenso na
regi˜ao promotora, -35 e -10, e assim dar in´ıcio `a transcri¸ao. Pode-se dizer en-
ao que os fatores σ determinam a especificidade da RNA polimerase, uma vez
que diferentes fatores σ conduzem esta enzima para promotores distintos (Snus-
tad D.P, 2008). A maioria das esp´ecies bacterianas tem diferentes fatores σ, sendo
o mais importante e principal deles o σ
70
, os demais ao conhecidos como fatores
σ alternativos. O fator σ
70
permite o reconhecimento de promotores respons´a-
veis pela transcri¸ao da maioria dos genes necess´arios ao crescimento exponencial
das c´elulas. A substitui¸ao do fator σ principal por um outro alternativo, muda
radicalmente o reconhecimento de seq
¨
uˆencias do promotor pela RNA polimerase.
Estes fatores σ alternativos permitem que a bact´eria promova mudan¸cas globais na
express˜ao gˆenica em resposta a determinados estresses ambientais. Por exemplo,
um aumento abrupto de temperatura provoca a express˜ao de prote´ınas de choque
t´ermico para contrapor os efeitos negativos do aquecimento elevado, os promotores
dos genes que expressam tais prote´ınas ao reconhecidos apenas pela RNA poli-
12
merase quando esta encontra-se associada ao fator σ
32
ou fator σ
24
(Snustad D.P,
2008). Na tabela 2.1, est˜ao descritos alguns fatores σ, seus genes e suas especifici-
dades (Snustad e Simmons, 2008).
Tabela 2.1: Exemplos de fatores σ.
Fator Gene Fun¸ao e caracter´ısticas relevantes
σ
70
rpoD Reconhecimento de promotores canˆonicos de express˜ao regular.
σ
32
rpoH Reconhecimento de promotores de genes ligados ao choque ermico.
σ
28
rpoF Reconhecimento de promotores de genes flagelares e de quimiotaxia.
σ
54
rpoN Reconhecimento de promotores de genes ligados ao metabolismo de nitrogˆenio.
σ
24
rpoE Reconhecimento de promotores de genes ligados ao choque ermico extremo.
σ
38
rpoS Reconhecimento de promotores de genes ligados a fase estacion´aria.
2.2.1.3 Operon de Lactose
O atual modelo de operon foi proposto por Jacob e Monod com base nos
estudos do operon de lactose em E. coli, tamb´em chamado de operon lac (JA-
COB e MONOD, 1961). Este operon ´e requerido para o transporte e metabo-
lismo da lactose. O operon lac cont´em um promotor (P), um operador (O) e 3
genes estruturais, lacZ, lacY e lacA, que codificam as enzimas β-galactosidase,β-
galactos´ıdeo-permease, β-galactos´ıdeo-transacetilase, respectivamente (figura 2.4).
A β-galactos´ıdeo-permease transporta lactose para o interior da c´elula, onde a β-
galactosidase a quebra em glicose e galactose (Stryer, 1992).
Figura 2.4: Organiza¸ao do operon lac em E. coli (adaptado de Stryer, 1992).
O operon lac apresenta dois mecanismos de regula¸ao. No primeiro, a re-
gula¸ao ´e negativa e a prote´ına repressora, codificada pelo gene i , ´e expressa na
ausˆencia ou presen¸ca de lactose, ou seja, ´e uma prote´ına constitutiva. Na auencia
13
de lactose, a prote´ına repressora se liga ao s´ıtio operador bloqueando a liga¸ao da
RNA polimerase no promotor do operon, impedindo assim a transcri¸ao de seus
genes estruturais. a na presen¸ca de lactose, esta se liga ao repressor liberando-o
da regi˜ao operadora subsequentemente os genes estruturais do operon ao expres-
sos. Portanto, a presen¸ca da lactose induz a produ¸ao das trˆes prote´ınas requeridas
para o metabolismo deste c´ucar (figura 2.5).
Figura 2.5: Regula¸ao da express˜ao do operon lac. (A) Ausˆencia de lactose: re-
pressor lac (gene i) se liga ao operador reprimindo a transcri¸ao.(B) Presen¸ca de
lactose: a lactose inativa o repressor lac, viabilizando a transcri¸ao (adaptado de
Stryer, 1992).
O segundo sistema de regula¸ao ocorre quando a bact´eria E. coli ´e cultivada
em presen¸ca de glicose e lactose, a express˜ao do operon lac permanece inibida
at´e que a glicose seja exaurida. A repress˜ao do operon lac pela glicose ´e denomi-
nada repress˜ao catab´olica, e ´e o resultado dos baixos n´ıveis de monofosfato c´ıclico
de adenosina (AMPc) intracelular, caracter´ıstico de elulas crescendo com supri-
mento adequado de glicose. Quando o n´ıvel de glicose cai, a o aumento do n´ıvel
de AMPc na c´elula, que por sua vez interage com a prote´ına CRP (cAMPrecep-
tor protein), tamb´em denominada CAP (catabolite activator protein), formando o
complexo AMPc-CAP. Este complexo tem afinidade por uma sequˆencia pr´oxima
ao promotor. O AMPc-CAP ao ligar-se pr´oximo ao promotor potencializa a inte-
ra¸ao entre RNA polimerase e promotor, por consequˆencia a transcri¸ao dos genes
14
do operon lac ´e intensificada (Snustad D.P, 2008) (Figura 2.6).
Figura 2.6: Regula¸ao positiva da express˜ao do operon lac devido a forma¸ao do
complexo AMPc-CAP (De Oliveira, 2005).
2.2.1.4 Operon de Triptofano
Operon triptofano (trp) codifica enzimas utilizadas na s´ıntese de triptofano
(figura 2.7). Este operon apresenta regula¸ao negativa e regula¸ao por atenua¸ao.
Figura 2.7: Diagrama do operon trp, mostrando o promotor (p), operador (o),
atenuador (a), gene para a sequˆencia leader (L) e os genes das enzimas da via do
trp (E, D, C, B e A) (adaptado de Stryer, 1992).
Quando o n´ıvel de triptofano (trp) est´a baixo na c´elula, os genes do operon
de trp ao transcritos normalmente. Quando a quantidade de triptofano ´e elevada,
o triptofano exerce um controle negativo no operon trp, impedindo a transcri¸ao
de seus genes estruturais (Stryer, 1992). a no segundo mecanismo regulat´orio,
15
o mecanismo de atenua¸ao ´e uma forma de regula¸ao de t´ermino de transcri¸ao.
Baseia-se no controle da RNA polimerase em continuar ou ao a transcri¸ao al´em
de determinado s´ıtio, conhecido como atenuador, devido a forma¸ao de estruturas
terci´arias, que podem caracterizar ou ao o t´ermino de transcri¸ao. Este meca-
nismo depende do fato de que a transcri¸ao est´a acoplada `a tradu¸ao, em proca-
riontes. Os ribossomos iniciam a tradu¸ao no terminal 5´mRNA enquanto que o
mRNA ainda est´a sendo sintetizado. Quando o trp ´e suficiente, a tradu¸ao ocorre
normalmente, de forma que o grampo formado no s´ıtio de atenua¸ao caracterize o
t´ermino de transcri¸ao, sendo assim, ao haver´a a transcri¸ao dos genes do operon
trp a partir deste ponto (figura 2.8-A). Entretanto, quando o trp ao est´a dispo-
n´ıvel, o ribossomo para nos odons UGG devido a escassez de triptofanil tRNA.
O ribossomo parado altera de algum modo a estrutura do mRNA, formando no
s´ıtio de atenuao um novo grampo, que desta vez, ao caracteriza o ermino de
transcri¸ao. Desta forma, os genes do operon trp ser˜ao expressos (Stryer, 1992)
(figura 2.8-B).
2.3 RNAs ao-codificantes e a Regula¸ao Gˆenica
Os RNAs n˜ao-codificantes (sRNAs ou ncRNAs) s˜ao pequenas mol´eculas fun-
cionais de RNA que n˜ao ao traduzidas em prote´ınas. Estas mol´eculas apresentam
um tamanho t´ıpico de 50 a 250 nt, podendo ter em poucos casos mais do que 300
nt (Vogel e Papenfort, 2006).
O dogma central da biologia molecular, afirma que o DNA ´e transcrito em
RNA, que por sua vez ´e traduzido em prote´ınas. O RNA ´e um produto interme-
di´ario e ao exerce fun¸oes independentes. As exce¸oes a esta regra apareceram
primeiramente para duas classes de ncRNAs que realizam fun¸ao na s´ıntese de
prote´ınas, os RNAs transportadores (tRNAs) e os RNAs ribossomais (rRNAs).
Posteriormente tornou-se claro que ncRNAs em diferentes fun¸oes e ao encon-
16
Figura 2.8: Modelo de atenua¸ao do openor trp. (A) Alto n´ıvel de trp, o segmento
3 e 4 se pareiam e formam a al¸ca de t´ermino de transcri¸ao. (B) Baixo n´ıvel de
trp, o ribossomo ara no odon do trp no segmento 1, formando uma nova al¸ca
com os segmentos 2 e 3, que por ao ser emino de transcri¸ao, ocorre a express˜ao
dos genes subsequentes a este sitio de atenua¸ao (Adaptado de Stryer, 1992).
trados em todos os reinos da vida, apresentando fun¸oes estruturais e regulat´orias.
Em bact´erias, os ncRNAs ao conhecidos a mais de uma d´ecada como regula-
dores de replica¸ao e manuten¸ao de elementos extracromossomais (WAGNER e
SIMONS, 1994). Recentemente os ncRNAs foram identificados como reguladores
de express˜ao gˆenica em bact´erias (Gottesman, 2005). Muitos deles ao considera-
dos reguladores cruciais na resposta ao estresse e na express˜ao de genes envolvidos
na patogenicidade, como alguns encontrados em Vibrio. Um ´unico ncRNA pode
regular ultiplos genes e exercer profundo efeito na fisiologia celular (Gottesman,
2005).
Os primeiros estudos sobre estes RNAs estavam restritos a E. coli (Wassar-
man et al., 1999; Vogel et al., 2003; Kawano et al., 2005; Zhang et al., 2003), em
seguida, as diferentes esp´ecies de bact´erias come¸caram a ser estudadas. Em vibrio,
17
o que se conhece at´e o momento sobre ncRNAs regulat´orios envolve basicamente V.
cholerae N16961, A. fischeri ES114 e V. campbellii ATCC BAA-1116 (Lenz et al.,
2004; Davis et al., 2005; Kulkarni et al., 2006; Livny et al., 2005; Song et al., 2008).
Em 2001, eram conhecidos somente 10 genes de ncRNA em E. coli (Wassarman
et al., 1999), 6 destes 10 com fun¸oes regulat´orias: DsrA que ativa a express˜ao do
fator σ
38
(ou RpoS) e reduz a express˜ao de H-NS (Majdalani et al., 1998); MicF
que inibe a express˜ao do canal OmpF (MIZUNO et al., 1984); DicF que inibe a
express˜ao do gene da divis˜ao celular ftsZ (TETART e BOUCHE, 1992); CsrB que
inibe a atividade da prote´ına regulat´oria CsrA (Romeo, 1998), Spot 42 que regula
a express˜ao do operon galactose em E. coli (Moller et al., 2002) e a OxyS que regula
a resposta ao estresse de per´oxido de hidrogˆenio (Argaman e Altuvia, 2000). Hoje
existem mais de 80 ncRNAs conhecidos em E. coli e cerca de 140 em bact´erias
(Altuvia, 2007).
Os ncRNAs regulat´orios ao classificados em diversos tipos, entre eles est˜ao:
(i) riboswitches, (ii) ncRNAs que se ligam a prote´ınas , e (iii) duas classes de RNAs
antisenso que modulam a tradu¸ao e a estabilidade de mRNAs. A primeira engloba
os RNAs antisenso de ao cis e a segunda classe engloba os RNAs antisenso de
ao trans (Waters e Storz, 2009).
Riboswitch - Talvez seja o mais simples elemento regulat´orio em bact´erias.
O riboswitch ´e transcrito juntamente com seu gene alvo, estando localizado na
por¸ao 5’-UTR do mRNA. O riboswitch pode mudar sua conforma¸ao espacial
ao ligar-se a pequenas mol´eculas, podendo adotar assim diferentes conforma¸oes
em resposta a sinais ambientais tais como, elevada temperatura, pequenos ligantes
e ribossomos estagnados (Waters e Storz, 2009). Este elemento ´e composto por
dois dom´ınios funcionais, um dom´ınio aptˆamero e a plataforma de express˜ao. O
dom´ınio aptˆamero funciona como um sensor que reconhece o metab´olito espec´ıfico
para aquele tipo de riboswitch e ao ligar-se com o metab´olito provoca altera¸ao
18
estrutural na plataforma de express˜ao, permitindo, desta forma, o controle da tra-
du¸ao do mRNA. A plataforma de express˜ao varia substancialmente at´e mesmo
em organismo bastante pr´oximos evolutivamente, o que reflete sua diversidade de
fun¸oes. Os riboswitches podem modular a express˜ao gˆenica no in´ıcio da tradu¸ao,
no alongamento da transcri¸ao do mRNA e at´e mesmo na estabilidade dos mR-
NAs. Riboswitches regulam arios caminhos metab´olicos, incluindo a bioss´ıntese
de vitaminas (como por exemplo: riboflavina, tiamina e cobalamina) e o metabo-
lismo de metionina, lisina e purinas.
Na figura 2.9 est´a exemplificado os mecanismos de controle da express˜ao
gˆenica mediada por riboswitch: (A) Regula¸ao da transcri¸ao: Na ausˆencia de
metab´olito (ligante), ocorre a transcri¸ao do gene downstream devido a forma¸ao
do grampo anti-terminador. Entretanto, na presen¸ca do metab´olito, este se liga
ao aptˆamero impedindo a forma¸ao do anti-terminador e favorecendo a forma¸ao
do grampo terminador de transcri¸ao. (B) Regula¸ao da tradu¸ao: Na ausˆencia
do ligante, o ribossoma se liga ao RBS (sitio de liga¸ao de ribossomo) no mRNA
e inicia a tradu¸ao. Na presen¸ca de ligante, o RBS torna-se indispon´ıvel para os
ribossomos, ao ocorrendo a tradu¸ao.
ncRNAs que modulam atividade de prote´ınas - Tem sido detectados
diferentes RNAs bacterianos envolvidos na regula¸ao transcricional, cuja fun¸ao
´e modular a atividade de prote´ınas que em impacto sobre a transcri¸ao. Cu-
riosamente, arios destes RNAs reguladores ao muito abundantes e, portanto,
foram um dos primeiros ncRNAs descobertos. Entretanto, suas fun¸oes o foram
elucidadas recentemente. Embora, em muitos casos, os mecanismos precisos de
ao destes RNAs sejam ainda nebulosos, tem sido postulado que pelo menos um
subconjunto desses RNAs atua mimetizando intera¸oes de ´acidos nucl´eicos nor-
malmente feitas pela prote´ına alvo. Podemos tomar como exemplo o RNA 6S que
associa-se especialmente a holoenzima RNA polimerase contendo o σ
70
como fator
19
Figura 2.9: Exemplos de mecanismos de controle da express˜ao enica mediada por
riboswitch (adaptado de Waters e Storz, 2009).
espec´ıfico. Esta intera¸ao impede que a holoenzima ligue-se aos promotores (que
possuem s´ıtio para o fator σ
70
) durante a fase estacion´aria, inibindo desta forma
a participa¸ao da holoenzima (RNA polimerase + σ
70
) na transcri¸ao de certos
genes (Barrick et al., 2005). O fator σ
70
´e usado para a grande maioria das fun¸oes
de crescimento exponencial.
Outros ncRNAs podem estar envolvidos em regula¸ao os-transcricional (ou
seja, traducional), como ´e o caso dos RNAs antisenso. As atividades destes ncR-
NAs dependem das intera¸oes dos pares de bases complementares com seus mRNAs
alvos, podendo apresentar atividades cis ou trans, descritas a seguir.
RNAs antisenso de ao cis - Neste caso a localiza¸ao de seus genes ´e
na mesma localiza¸ao de seu alvo, mas na fita oposta, possuindo uma regi˜ao de
perfeita complementaridade com seu alvo (frequentemente de 75nt ou mais), que
normalmente ´e o um (Waters e Storz, 2009). Em bact´eria, este RNA antisenso
foi primeiramente encontrado em plasm´ıdeos.
´
E muito dif´ıcil de ser encontrado em
cromossomos de bact´erias e suas fun¸oes ao muito pouco conhecidas.
20
RNA antisenso de ao trans - Nesta classe de RNAs antisenso, a regi˜ao
cromossˆomica que codifica os n˜ao sobrep˜oe os genes de seus mRNAs alvos, podendo
at´e estar distantes entre si no cromossomo, as regi˜oes de complementaridade com
seus alvos ao curtas e dispersas no RNA. Devido a sua curta intera¸ao, um RNA
antisenso de a¸ao trans pode ter mais de um mRNA alvo. Tamem estes ncRNAs
necessitam da prote´ına Hfq (chaperona de RNAs) para auxiliar no pareamento
com seus alvos. ao exemplos de RNA antisenso de ao trans os DsrA, MicF e
Ryh, os quais regulam rpoS, ompF e os genes de prote´ınas dependentes de ferro,
respectivamente.
De uma forma geral, os RNAs antisenso podem regular a express˜ao enica
de diversas formas ao ligarem-se a seus RNAs alvos. Por exemplo, podem inibir a
tradu¸ao ao se ligarem perto do RBS de um mRNA, bloqueando o acesso dos ribos-
somos ao RBS (´e o caso do Spot 42), ou ligando-se ao mRNA proporcionando sua
degrada¸ao por RNase (como ´e o caso do RyhB) (figura 2.10). Alternativamente,
ncRNAs podem estimular a tradu¸ao promovendo a estabilidade dos mRNAs alvos
(como o GadY) ou ligando-se perto do RBS de seu mRNA alvo, de forma a des-
fazer sua estrutura secund´aria, expondo o RBS para intera¸ao com os ribossomos
(como o caso dos DsrA e RprA) (figura 2.11). O RNA antisenso pode inibir ou
estimular a tradu¸ao dependendo de como ele se liga e afeta as diferentes regi˜oes
de seus mRNAs alvos (Waters e Storz, 2009).
2.3.1 ncRNAs participam de cascatas de regula¸ao global
arias condi¸oes de estresse induzem uma resposta global, geralmente, por
afetar a atividade e ou s´ıntese de um regulador transcricional. Alguns exemplos
de ncRNA que participam de cascatas de regula¸ao global ao descritos a seguir.
O ncRNA RyhB ´e transcrito em resposta `a limita¸ao de ferro, como resultado de
21
Figura 2.10: Mecanismos de controle negativo da express˜ao enica mediada por
RNAs antisenso de ao trans (adaptado de Waters e Storz, 2009).
Figura 2.11: Mecanismos de controle positivo da express˜ao enica mediada por
RNAs antisenso de ao trans (adaptado de Waters e Storz, 2009).
uma elevao da repress˜ao pela prote´ına Fur. RyhB causa a apida degrada¸ao
de arios alvos mRNAs, os quais codificam para prote´ınas ao-essenciais que se
ligam a ferro (Fe-binding), reduzindo a requisi¸ao intracelular de ferro, reservando,
assim, ferro somente para prote´ınas essenciais (figura 2.12-a). O estresse oxidativo
leva a ativao do regulador transcricional OxyR, resultando na s´ıntese do ncRNA
OxyS, que regula negativamente a s´ıntese de dois reguladores transcricionais, RpoS
e FhIA, al´em de reduzir mutagˆenese, com isso contribuindo para a prote¸ao celu-
lar dependente de OxyR (figura 2.12-b). Como exemplo de regula¸ao positiva, sob
22
baixa temperatura, o promotor do ncRNA DsrA ´e ativado aparentemente sem a
ajuda dos fatores de transcri¸ao auxiliares, e sendo um regulador positivo da RpoS,
torna-se respons´avel pelo aumento do n´ıvel de tradu¸ao do RpoS e, assim, aumen-
tando a express˜ao de genes RpoS-dependentes, importantes para a sobrevivˆencia
da c´elula a baixa temperatura (RpoS ´e um fator σ alternativo) (figura 2.12-c).
Figura 2.12: Alguns exemplos da participa¸ao de ncRNAs em cascatas de regula¸ao
gobal (adaptado de Gottesman, 2005).
2.3.2 ncRNAs participam de Quorum Sensing
O quorum sensing (sensor de quorum) ´e um mecanismo de regula¸ao enica
em bact´erias que coordena a express˜ao de determinados genes em resposta `a pre-
sen¸ca ou ausˆencia de mol´eculas pequenas. Este mescanismo foi descoberto pela
primeira vez na bact´eria marinha A. fischeri (NEALSON et al., 1970). O quorum
sensing ´e um processo de comunica¸ao intercelular, que se manifesta quando as
bact´erias da mesma esp´ecie encontram-se em alta densidade populacional, promo-
vendo altera¸oes fenot´ıpicas nesta popula¸ao (Miller e Bassler, 2001). Atualmente
est´a bem definido que este sensoriamento populacional ´e realizado por meio de pe-
quenas mol´eculas denominadas autoindutores (como por exemplo as homoserinas
lactonas). Estas mol´eculas se difundem livremente para fora das c´elulas e ligam-se,
23
quando alcan¸cam uma certa concentra¸ao, a prote´ınas receptoras em uma c´elula
vizinha gerando um sinal intracelular que promove a regula¸ao da express˜ao de
certos genes envolvidos na luminescˆencia, forma¸ao de biofilme e patogenicidade
(Taga e Bassler, 2003).
Alguns estudos tˆem sugerido que ncRNAs est˜ao envolvidos no processo de
quorum sensing (Lenz et al., 2004; Defoirdt et al., 2008). Pode-se tomar como
exemplo o mecanismo de quorum sensing em Vibrio harveyi, uma bact´eria marinha
bioluminescente. Quando Vibrio harveyi encontra-se na ausˆencia de autoindutores
devido ao baixo agrupamento destas bact´erias, os receptores celulares fosforilam
indiretamente a prote´ına LuxO. A prote´ına LuxO ativada induz a express˜ao de
cinco ncRNAs regulat´orios (Qrr 1-5). Estes ncRNAs juntamente com a chape-
rona Hfq desestabilizam o mRNA de LuxR (prote´ına reguladora de transcri¸ao)
impedindo sua tradu¸ao. a na presen¸ca de altas concentra¸oes de autoindutores
devido a alta densidade populacional, os receptores indiretamente defosforilam o
LuxO, inativando-o. Com a prote´ına LuxO inativa ao a express˜ao dos ncRNAs
reguladores e a prote´ına LuxR ´e produzida, sendo assim ligado o mecanismo de
bioluminescˆencia (Defoirdt et al., 2008).
Na maioria das esp´ecies de vibrios, o quorum sensing induz a forma¸ao de
biofilme e de fatores de virulˆencia, como por exemplo, V. anguillarum (Milton
et al., 1997), V.cholerae (Camara et al., 2002; Hammer e Bassler, 2003; Zhu e
Mekalanos, 2003), V. harveyi (Lilley e Bassler, 2000; Manefield et al., 2000), V.
parahaemolyticus (Henke e Bassler, 2004) e V. vulnificus (McDougald et al., 2000).
A ocorrˆencia de quorum sensing nestes casos deflagra a libera¸ao de toxinas, sendo
que cada esp´ecie de bact´eria tem seu pr´oprio autoindutor usado na comunica¸ao
entre seus pares.
24
Cap´ıtulo 3
Ferramentas computacionais para
detec¸ao de ncRNAs
A detec¸ao de genes de ncRNAs ´e um desafio para a bioinform´atica. Isto
deve-se principalmente ao fato de que as ferramentas que vˆem sendo desenvolvidas
ao espec´ıficas para identificar genes que codificam prote´ınas e como os genes de
ncRNAs possuem caracter´ısticas pr´oprias, estes ao ao detectados por estas fer-
ramentas. arias ecnicas em sendo desenvolvidas e aprimoradas com o intuito
de encontrar genes de ncRNAs. Diversas abordagens baseiam-se em uma ou mais
caracter´ısticas encontradas em alguns genes de ncRNAs: (i) a localiza¸ao dentro
de regi˜oes intergˆenicas (IGRs), (ii) sequˆencias prim´arias conservadas entre esp´ecies
intimamente relacionadas, (iii) localiza¸ao abaixo de sequˆencias consenso espec´ı-
ficas encontradas em promotores, (iv) estar acima da estrutura terminadora de
transcri¸ao independente de rho, (v) apresentar certa porcentagem de G-C e (vi)
apresentar estrutura secund´aria conservada.
Muitas destas abordagens limitam a ecnica de detec¸ao de ncRNAs, uma
vez que estes possuem caracter´ısticas e fun¸oes heterogˆenicas. Por exemplo, muitos
dos genes de ncRNAs que constituem um operon ao ao ladeados por terminador
de transcri¸ao e/ou promotor, ao sendo assim detectados pelas t´ecnicas basea-
das na presen¸ca de sequˆencias de promotores e terminadores. a as ecnicas que
baseiam-se em sequˆencias consenso de promotores, como o s´ıtio de liga¸ao do σ
70
,
25
est˜ao restritas a procura de genes de ncRNAs transcritos pela holoenzima σ
70
-RNA
polimerase. Dentre as diversas abordagens, a que confere maior confiabilidade ´e a
que utiliza a conservao de estrutura secund´aria, uma vez que a grande maioria
dos ncRNAs conhecidos apresentam esta caracter´ıstica. A maioria dos estudos
mais recentes tem sido baseada em sinais de conservao de estrutura secund´aria e
modelos estat´ısticos. Muitas destas ferramentas utilizam como entrada os alinha-
mentos m´ultiplos.
Finalmente existe uma abordagem que utiliza base de dados de ncRNAs a
caracterizados e confirmados. Esta abordagem se restringe na busca e compara¸ao
de ncRNAs j´a conhecidos e n˜ao na busca por novos ncRNAs, como nas abordagens
descritas anteriormente. A maioria dessas bases de dados ´e espec´ıfica para um
grupo de organismos. Por exemplo, RNAdb
1
´e uma base de dados de ncRNAs
de mam´ıferos, ASRP
2
´e uma base de dados de ncRNAs de Arabidopsis thaliana.
A NONCODE (Liu et al., 2005) ´e uma base de dados que cont´em todos ncRNAs
(exceto tRNAs e rRNAs) da literatura e do GenBank
3
e que ao manualmente
tratados, sendo que aproximadamente 80% de seu reposit´orio ´e baseado em dados
experimentais. Outra base de dados de ncRNAs de procariontes e eucariontes ´e
o Rfam
4
, que ´e um conjunto de alinhamentos m´ultiplos e modelos de covariˆancia
que representam as fam´ılias de ncRNAs conhecidas (Griffiths-Jones et al., 2003).
Abaixo ser˜ao descritos algumas ferramentas e base de dados mais usadas na detec-
¸ao de ncRNAs em bact´erias.
3.1 QRNA
Sua abordagem ´e detectar genes de ncRNAs usando como base a estrutura
secund´aria conservada. Para este fim s˜ao testados os padr˜oes de substitui¸ao obser-
1
RNAdb [http://research.imb.uq.edu.au/rnadb]
2
ASRP [http://asrp.cgrb.oregonstate.edu]
3
GenBank [http://www.ncbi.nlm.nih.gov/Genbank]
4
Rfam database [http://www.sanger.ac.uk/Software/Rfam]
26
vados em um alinhamento de duas sequˆencias hom´ologas. A id´eia chave ´e produzir
trˆes modelos probabil´ısticos (RNA, COD e OTH) que descrevem trˆes padr˜oes de
muta¸ao observados nos pares de sequˆencias alinhadas. O modelo OTH assume
muta¸oes pontuais em posi¸oes independentes e representa a hip´otese nula. O mo-
delo COD assume que as sequˆencias alinhadas codificam prote´ınas hom´ologas, isto
porque, nas regi˜oes codificantes espera-se encontrar muta¸oes que substituam ami-
no´acidos por outros que tenham as mesmas propriedades. O modelo RNA assume
que o padr˜ao de muta¸ao conserva uma estrutura secund´aria em RNAs hom´ologos
(Rivas e Eddy, 2001). Os modelos OTH e COD foram constru´ıdos com base em
modelos ocultos de Markov e a o modelo RNA foi constru´ıdo usando gram´atica
livre de contexto (Rivas e Eddy, 2001). Enao, dado um alinhamento de sequˆencias
como entrada, a ferramenta QRNA classifica estas sequˆencias em OTH, COD ou
RNA de acordo com a probabilidade de cada classe (Rivas e Eddy, 2001). Na fi-
gura 3.1 s˜ao mostrados alinhamentos contendo trˆes diferentes padr˜oes de muta¸ao
que representam a hip´otese nula (no topo), uma regi˜ao codificante (no meio) e um
RNA estrutural (em baixo).
3.2 RNAz
Esta ferramenta tem como abordagem a predi¸ao de estrutura baseada na
energia m´ınima livre (MFE, Minimun Free Energy) (ZUKER e STIEGLER, 1981;
HOFACKER et al., 1994).
´
E levado em considera¸ao o fato de que as estrutu-
ras dos ncRNAs apresentam duas caracter´ısticas, a estabilidade termodinˆamica
e conservao da estrutura secund´aria (WASHIETL, 2006). Para o primeiro cri-
t´erio, o RNAz calcula uma medida normalizada da estabilidade termodinˆamica
e, a seguir, uma pontua¸ao (z-score) ´e gerada. Uma pontua¸ao negativa indica
que a sequˆencia ´e mais est´avel do que a esperada ao acaso (WASHIETL, 2006).
Para o segundo crit´erio, o RNAz prediz uma estrutura secund´aria consenso de um
alinhamento usando a abordagem RNAalifold (Hofacker et al., 2002). Muta¸oes
27
Figura 3.1: Base dos modelos usados na ferramenta QRNA (Adaptado de Rivas e
Eddy, 2001).
compensat´orias, ou seja, muta¸oes que preservam um par de bases certas (exem-
plo, substitui¸ao do par CG pelo par UA) ao pontuadas, enquanto que muta¸oes
inconsistentes (exemplo, a substitui¸ao do par CG por CA) adicionam penalidades.
No final ´e calculado o ´ındice de conservao da estrutura (SCI, structure conser-
vation index) (WASHIETL, 2006).
Finalmente, o RNAz utiliza um algoritmo de aprendizado com aquina de
vetor de suporte (SVM, support vector machine), que foi treinado utilizando um
vasto conjunto de ncRNAs conhecidos. Esta etapa utiliza os resultados dos dois
crit´erios (z-score e SCI) para classificar o alinhamento de entrada como “RNA es-
trutural” ou “outros” (WASHIETL, 2006).
28
3.3 Rsearch
O Rsearch ´e um programa baseado na ferramenta Infernal, que compara
sequˆencias de RNAs com um banco de sequˆencias conhecidadas de RNAs. Desta
forma, dado uma sequˆencia de RNA ao feitas buscas em uma base de dados de
nucleot´ıdios por RNAs hom´ologos. Esta busca ´e baseada tanto na estrutura pri-
aria quanto na estrutura secund´aria (Klein e Eddy, 2003). Os algoritmos de
alinhamento desta ferramenta ao baseados em gram´aticas estoasticas livres de
contexto (SCFG, Stochastic Context Free Grammars) (EDDY e DURBIN, 1994;
SAKAKIBARA et al., 1994). Incorporada aos algoritmos de alinhamento existe
uma matriz de substitui¸ao apropriada para RNAs denominada RIBOSUM (Klein
e Eddy, 2003), similar `as matrizes usadas para prote´ınas, como por exemplo a
BLOSUM (HENIKOFF e HENIKOFF, 1992).
3.4 Infernal
O Infernal (INFERence of RNA Alignment) ´e uma aplica¸ao que utiliza uma
abordagem baseada em Gram´atica Estoastica Livres de Contextos (SCFG, Sto-
chastic Context-Free Grammars) (EDDY e DURBIN, 1994; SAKAKIBARA et al.,
1994). Esta ferramenta constr´oi perfis de RNA consenso chamados de modelos
de covariˆancia (CM, Covariance Models), que ´e um caso especial de SCFG desig-
nado para modelar sequˆencias e estruturas de RNAs. O Infernal usa esses modelos
para procurar RNAs hom´ologos em base de dados de sequˆencias de DNA, sendo
que nestas buscas ao levadas em considera¸ao tanto as semelhan¸cas de sequˆencias
quanto a estrutura secund´aria dos RNAs.
Cada CM ´e constru´ıdo a partir do alinhamento de m´ultiplas sequˆencias (ou
uma sequˆencia ´unica de RNA) e de dados relacionados a estrutura secund´aria
consenso, como posi¸oes em que o alinhamento ´e ´unico e posi¸oes onde ocorrem
pareamentos de bases. Pontua¸oes ao atribu´ıdas para cada posi¸ao espec´ıfica as-
29
sim como para quantidades de res´ıduos, pareamento de bases, inser¸oes e dele¸oes.
A ferramenta Infernal compreende os programas cmbuild , cmsearch e cma-
lign. A constru¸ao do Modelo de Covariˆancia a partir de uma entrada utilizando
cmbuild requer como entrada um alinhamento estrutural de m´ultiplos RNAs no
formato estocolmo (Stockholm) (Figura 5.1) (Eddy, 2003), gerando um arquivo de
sa´ıda contendo o modelo de covariˆancia , o qual ser´a usado por outras fun¸oes do
Infernal. A busca em bases de dados por poss´ıveis hom´ologos utilizando cmsearch
requer duas entradas, ou seja, um arquivo CM (contendo o modelo de covariˆancia
obtido com o cmbuild) e um arquivo contendo sequˆencias desejadas para an´alise. O
cmsearch busca as sequˆencias que geraram hits com alta pontua¸ao para o modelo
de covariˆancia usado.
´
E gerada uma sa´ıda contendo os alinhamentos para cada
hit em um formato similar `a estrutura BLAST (Altschul et al., 1990). a o ali-
nhamento de poss´ıveis hom´ologos utilizando cmalign requer um arquivo de modelo
de covariˆancia e outro arquivo que contenha poss´ıveis hom´ologos. Este programa
alinha seq
¨
uˆencias de acordo com o modelo, criando um alinhamento de m´ultiplas
estruturas no formato Estocolmo. Esse alinhamento poder´a ser utilizado como
entrada na constru¸ao de um modelo de covariˆancia pelo cmbuild, como descrito
acima.
3.5 Rfam
Rfam ´e uma base de dados curada, ou seja revisada e supervisionada, con-
tendo informa¸oes sobre as fam´ılias de ncRNAs. Esta base de dados consta de
duas classes distintas de dados: os perfis de modelos de covariˆancia (CMs) e ali-
nhamentos semente. Os CMs ao modelos estat´ısticos resultantes da combina¸ao de
informa¸oes tais como: estrutura secunaria e sequˆencias prim´arias, representadas
pelo alinhamento m´ultiplo de sequˆencias. Cada perfil de CM corresponde a uma
fam´ılia de ncRNA. a os alinhamentos semente (seed alignments) est˜ao contidos
30
dentro de um arquivo no formato estocolmo (Stockholm) e cont´em os membros re-
presentativos de cada fam´ılia de ncRNA gerados atraes de diversos alinhamentos
estruturais (Griffiths-Jones et al., 2003). Os arquivos Rfam.seed.gz e Rfam.tar.gz
podem ser obtidos do site de FTP do Sanger
5
. Ao serem devidamente descompac-
tados, o primeiro gera um arquivo de alinhamentos semente anotados em formato
estocolmo (como descrito acima) e o segundo, gera uma grande quantidade de ar-
quivos de modelos de covariˆancia de ncRNAs.
Abaixo ´e exibido uma pequena parte do arquivo Rfam.seed (alinhamentos
semente) no formato estocolmo:
# STOCKHOLM 1.0
#=GF AC RF00378
#=GF ID Qrr
#=GF DE Qrr RNA
#=GF AU Moxon SJ
#=GF SE PMID:15242645
#=GF SS Published; PMID:15242645; Moxon SJ
#=GF GA 25.00
#=GF TC 25.79
#=GF NC 8.85
#=GF TP Gene; sRNA;
#=GF BM cmbuild CM SEED
#=GF BM cmsearch --toponly CM SEQDB
#=GF RN [1]
#=GF RM 15242645
#=GF RT The Small RNA Chaperone Hfq and Multiple Small RNAs Control Quorum
#=GF RT Sensing in Vibrio harveyi and Vibrio cholerae.
#=GF RA Lenz DH, Mok KC, Lilley BN, Kulkarni RV, Wingreen NS, Bassler BL;
#=GF RL Cell 2004;118:69-82.
#=GF CC This family represents a set of small RNAs (the Qrr RNAs) that are thought
#=GF CC to be involved in the regulation of quorum sensing in Vibrio species. It is
#=GF CC believed that these RNAs, guided by a protein, Hfq, can mediate the
#=GF CC destabilisation of the quorum-sensing master regulators LuxR/HapR mRNAs
#=GF CC [1].
#=GF SQ 31
AY525157.1/427-333 UGACCC.UU..A.G.......GGGUCA.CCUAGCCAACUGACGUUGUUAG
AAOU01000009.1/38611-38505 AUGACU.CU..U.AAGUUAAGAGUCAA.CCUAGCCAACUGACGUUGUUUG
CR378666.1/200201-200099 UGACUC.UU..A.AUGUA...GAGUCAACCUAGCCAACUGACGUUGUUUG
AAKI02000122.1/2058-2167 UGACCC.UUAAU.UAAGCCGAGGGUCA.CCUAGCCAACUGACGUUGUUAG
AAWQ01000003.1/94089-93982 UGACCC.UU..UCUAAGCCGAGGGUCA.CCUAGCCAACUGACGUUGUUAG
AAWD01000001.1/11583-11476 UGACCC.UUG.U.UAAGCCGAGGGUCA.CCUAGCCAACUGACGUUGUUAG
AAUU01000009.1/33657-33752 UGACCC...........GCAAGGGUCA.CCUAGCCAACUGACGUUGUUAG
AAWQ01000017.1/35050-35158 UGACCC.UUA.U.UAAGCCGAGGGUCA.CCUAGCCAACUGACGUUGUUAG
AAND01000001.1/259885-259777 UGACCC.UUC.U.UAAGCCGAGGGUCA.CCUAGCCAACUGACGUUGUUAG
AAPS01000011.1/74129-74021 UGACCC.UU..UCUAAGCCGAGGGUCA.CCUAGCCAACUGACGUUGUUAG
.
.
.
#=GC SS_cons <<<<<<...............>>>>>>................<<<<..<
#=GC RF uGaCCC.UU..U.AAGccAAAGGGuCa.ccUAGccAAcUGAcGuuguUAG
5
Rfam database [ftp://ftp.sanger.ac.uk/pub/databases/Rfam]
31
O formato estocolmo apresenta algumas linhas de marca¸ao: #=GF, #=GC,
#=GS e #=GR. Estas marca¸oes ao encontradas no arquivo Rfam.seed. A linha
que come¸ca com #=GC SS cons indica a estrutura secund´aria consenso, onde
os gaps ao indicados pelos caracteres ., , -, ou e os pares de base ao indicados
por qualquer um dos seguintes pares: < >, ( ), ou [ ]. A linha #=GC RF ´e a
anota¸ao de referˆencia, onde os res´ıduos em mai´usculo denotam forte conservao
e os em min´usculo denotam fraca conservao, o caracter usado para gap ´e o ponto
(.). A marca¸ao #=GF ´e acompanhada por flags. Veja abaixo o significado dos
campos que cont´em as principais flags.
Campos e suas flags:
------------------
AC umero de acesso: Este numero de acesso apresenta o formato Rfxxxxx (Rfam).
ID Identifica¸c~ao: Uma palavra para identificar a fam´ılia.
DE Descri¸c~ao: Pequena descri¸c~ao da fam´ılia.
AU Autor: Respons´avel pela entrada do dado.
SE Origem da semente: A origem sugere os membros da semente pertencente a uma fam´ılia.
SS Origem da estrutura: A origem da estrutura secund´aria do RNA consenso usado pelo Rfam.
BM etodo de montagem: Linha de comando usado para gerar o modelo.
SM etodo de busca: Linha de comando usada para gerar a busca.
TP Tipo: Tipo de fam´ılia do Rfam
SQ Seq¨u^encia: umero de seq¨u^encias em alinhamento.
Abaixo ´e exibido uma parte do arquivo RF00378.cm, um dos diversos arqui-
vos de modelo de covariˆancia do Rfam sendo que este em espec´ıfico ´e referente a
fam´ılia de Qrr RNA. Este CM foi gerado a partir da estrutura secund´aria consenso,
resultante do alinhamento m´ultiplo de sequˆencias desta fam´ılia.
INFERNAL-1 [0.72]
NAME SEED
STATES 338
NODES 93
W 129
el_selfsc -0.089267
NULL 0.000 0.000 0.000 0.000
MODEL:
[ ROOT 0 ]
S 0 -1 0 1 4 -6.565 -7.810 -0.100 -4.264
IL 1 1 2 1 4 -2.817 -4.319 -0.613 -2.698 0.660 -0.612 -0.293 -0.076
IR 2 2 3 2 3 -1.925 -0.554 -4.164 0.660 -0.612 -0.293 -0.076
[ MATR 1 ]
MR 3 2 3 5 3 -8.074 -0.023 -6.391 0.158 -0.792 -0.763 0.780
D 4 2 3 5 3 -6.390 -1.568 -0.620
IR 5 5 3 5 3 -1.925 -0.554 -4.164 0.660 -0.612 -0.293 -0.076
[ MATR 2 ]
MR 6 5 3 8 3 -8.074 -0.023 -6.391 -0.306 -0.878 -1.081 1.121
D 7 5 3 8 3 -6.390 -1.568 -0.620
IR 8 8 3 8 3 -1.925 -0.554 -4.164 0.660 -0.612 -0.293 -0.076
[ MATR 3 ]
32
MR 9 8 3 11 3 -8.074 -0.023 -6.391 -0.389 -0.804 -1.209 1.158
D 10 8 3 11 3 -6.390 -1.568 -0.620
IR 11 11 3 11 3 -1.925 -0.554 -4.164 0.660 -0.612 -0.293 -0.076
3.6 Escolha das Ferramentas
No presente trabalho, foi utilizado o programa cmsearch pertencente ao pa-
cote do infernal e a base de dados do Rfam. A escolha ´e justificada, primeiramente
porque neste estudo decidimos por identificar os ncRNAs a descritos e comprova-
dos em outras esp´ecies de bact´erias, sendo assim necess´ario utilizar uma ferramenta
de busca e uma base de dados curada e ao uma ferramenta de predi¸ao de novos
ncRNAs, como ´e o caso das ferramentas QRNA e RNAz. A escolha pelo Rfam e
ao por outra base deve-se ao fato do Rfam ser uma base curada e bem confi´avel
e por conter ncRNAs de bact´erias. Como a base de dados do Rfam foi gerada
a partir das ferramentas do Infernal (cmalign e cmbuild) nada mais coerente do
que utilizar o programa cmsearch ao inv´es de outro programa que faz buscas em
base de dados, uma vez que o formatos das bases ao conhecidos pela ferramenta
escolhida e sobretudo por ser uma das ferramentas mais eficientes e sens´ıveis para
a detec¸ao de ncRNA em base de dados (Freyhult et al., 2007).
3.7 Gram´atica Estoastica Livre de Contexto e Modelo de Covari-
ˆancia
Para o melhor entendimento do modelo de covariˆancia e gram´aticas estoc´as-
ticas livres de contexto faz-se necess´ario a apresenta¸ao de alguns conceitos dentro
da teoria das linguagens formais.
A teoria das linguagens formais ´e o estudo de modelos matem´aticos que pos-
sibilitam a especifica¸ao e o reconhecimento das linguagens, suas classifica¸oes,
estruturas, propriedades e caracter´ısticas.
A linguagem ´e um conjunto de s´ımbolos e um conjunto de regras que combi-
33
nam estes s´ımbolos, sendo usada e entendida por uma determinada comunidade.
Temos como exemplo de liguagem, os idiomas (linguagens naturais), linguagens de
programa¸ao, protocolos de comunica¸ao.
Formalizando as defini¸oes, segundo Salomaa (1987):
Alfabeto: ´e um conjunto finito e ao vazio de s´ımbolos. Normalmente
denotado por Σ.
Senten¸ca ou palavra: ´e uma sequˆencia finita de s´ımbolos de um alfabeto.
Se Σ = {a, b}, enao ”a, aa, b, ababbba ao exemplos de senten¸cas
de Σ. Denotamos por W (Σ) o conjunto infinito de todas as palavras sobre
Σ.
Tamanho de uma senten¸ca: ´e a quantidade de s´ımbolos de uma senten¸ca.
Senten¸ca vazia:
´
E uma senten¸ca de tamanho zero, denotada por .
Conjunto potˆencia de um alfabeto Σ: ´e o conjunto de todas as senten¸cas de
tamanho n formadas pelos elementos de Σ, denotado por Σ
n
. Por exemplo,
se Σ = {a, b} enao Σ
1
= {a, b}. Da mesma forma, Σ
2
= {aa, ab, ba, bb},
Σ
3
= {aaa, aab, aba, abb, baa, bab, bba, bbb} e assim sucessivamente. O con-
junto de todas as senten¸cas, incluindo a nula , de um alfabeto Σ ´e repre-
sentado por Σ
. Logo,
Σ
= {} Σ
1
Σ
2
. . .
Tamb´em escrevemos Σ
+
= Σ
{}.
Linguagem formal: ´e um conjunto de senten¸cas formadas por um alfabeto,
isto ´e, L Σ
.
Gram´atica: ´e um conjunto finito de regras que especificam uma linguagem.
´
E representada por, G = {U, Σ, S, P } onde:
34
Σ ´e um alfabeto formado por s´ımbolos terminais;
U ´e um alfabeto formado por s´ımbolos ao-terminais tal que
Σ U = ;
S representa o s´ımbolo inicial, onde S U;
P representa o conjunto finito de regras de produ¸ao.
Terminais: ao s´ımbolos que ao podem ser substitu´ıdos.
ao-terminais: ao s´ımbolos que podem ser substitu´ıdos.
Regras de produ¸ao: definem como podem ser geradas as senten¸cas. Uma
regra de produ¸ao ´e representada por α β, onde α W U )
+
e
β W U)
Derivao: A derivao de uma gram´atica G = {U, Σ, S, P } ´e denotada
por α β, onde α W U)
+
e β W U )
, e significa que ´e
poss´ıvel derivar β a partir de α. Por exemplo, se z w ´e uma regra de
produ¸ao de G e xzy W (U Σ)
, enao xwz ´e dito diretamente deriv´avel
de xzy e se representa por xzy xwz. Quando houver mais passos de
derivao, estes ao explicitados da seguinte forma:
que significa zero ou mais passos de derivao;
+
que significa um ou mais passos de derivao.
Linguagem gerada: A linguagem gerada pela gram´atica G, denotada por
L(G), ´e composta por todas as senten¸cas deriv´aveis a partir do s´ımbolo
inicial S, isto ´e, L(G) = {w | w W
), S
+
w}.
As gram´aticas formais podem ser classificadas, segundo a hierarquia de Chomsky,
em quatro tipos diferentes (Salomaa, 1987):
(0) Gram´aticas com Estrutura de Fase;
35
(1) Gram´aticas Sens´ıveis ao Contexto;
(2) Gram´aticas Livres de Contexto;
(3) Gram´aticas Regulares.
Segundo a defini¸ao, para i = 0, 1, 2, 3, a gram´atica G = {U, Σ, S, P } ´e do
tipo i se e somente se as restri¸oes (i) sobre P ao satisfeitas como mostrado abaixo.
(0) Sem restri¸oes;
(1) Cada produ¸ao em P ´e da forma Q
1
XQ
2
Q
1
Y Q
2
onde Q
1
e Q
2
ao
palavras formadas pelo alfabeto V = ΣU, X U e Y ´e uma palavra n˜ao-
vazia formada pelo alfabeto V , com a poss´ıvel exce¸ao de uma produ¸ao
S λ, cuja ocorrˆencia em P implica que S ao ocorre no lado direito de
qualquer produ¸ao em P .
(2) Cada produ¸ao em P ´e da forma X Y onde X U e Y W (V ).
(3) Cada produ¸ao ´e de uma das duas formas X ZY ou X Y , onde
X, Z U e Y W (Σ).
A hierarquia de Chomsky consiste em, segundo Salomaa (1987):
tipo 3 tipo 2 tipo 1 tipo 0,
indicando que as gram´aticas do tipo 0 cont´em todas as demais e as do tipo 3 ao
as mais restritivas, como ilustrado na 3.2.
Nas gram´aticas do tipo 1, gram´aticas sens´ıveis ao contexto, o s´ımbolo ao-
terminal X pode ser substitu´ıdo por Y , somente quando Q
1
estiver a esquerda de
X e Q
2
a sua direita (Salomaa, 1987).
Exemplo de uma gram´atica sens´ıvel ao contexto:
36
Figura 3.2: Hierarquia de Chomsky (adaptado da Wikipedia)
Sejam : Σ = {a, b, f, i, l, n, o}, U = {B, C, D, L} e as produ¸oes:
(1) S BLCDo (lˆe-se: S pode ser substitu´ıdo por BLCDo)
(2) Bi labi
(3) CDo nfo
(4) L i
A derivao da palavra labinfo ´e realizada por: S
1
BLCDo
3
BLnf o
4
Binf o
2
labinfo
Por conven¸ao: os ao-terminais est˜ao em letras mai´usculas e os terminais
em letras min´usculas.
Observao:
: produ¸ao (lˆe-se: pode ser substitu´ıdo por)
: derivao (lˆe-se: pode ser transformado em).
a nas gram´aticas do tipo 2, gram´aticas livres de contexto, o s´ımbolo ao-
terminal X pode ser substitu´ıdo por Y , ao importando quais as letras que est˜ao
adjacentes a X, isto ´e, independe de contexto.
37
Exemplo de uma gram´atica livre de contexto:
Sejam : Σ = {a, b, c}, U = {S, A} e as produ¸oes:
(1) S aA
(2) A bA
(3) A c
A derivao da palavra abbc ´e realizada por: S
1
aA
2
abA
2
abbA
3
abbc
OBS: as produ¸oes acima podem ser escritas como:
S aA
A bA|c
Gram´atica Estoastica Livre de Contexto (SCFG):
Uma gram´atica estoastica livre de contexto (SCFG, Stochastic Context Free
Grammar) apresenta a mesma forma¸ao da gram´atica livre de contexto (CFG,
Context Free Grammar) com um adicional, cada conjunto, ou regra, de produ¸ao
est´a associado com uma probabilidade. Segundo Eddy (2007), uma SCFG consiste
em:
Diferentes s´ımbolos n˜ao-terminais M (aqui chamados de“estados”). Letras
mai´usculas V e Y ao usadas para referenciar genericamente os s´ımbolos
ao-terminais.
Diferentes s´ımbolos terminais K (exemplo de alfabeto observado para RNA,
a, c, g, u). Letras min´usculas a, b ao usadas para referenciar genericamente
os s´ımbolos terminais.
38
Um umero de regras de produ¸ao da forma: V γ, onde γ pode ser
qualquer cadeia de caracteres formada por s´ımbolos terminais e/ou ao
terminais, incluindo (em um caso espec´ıfico) o caracter vazio .
Cada regra de produ¸ao ´e associada com um probabilidade de tal forma que
a soma das probabilidades de produ¸ao para qualquer dado ao-terminal
V ´e igual a 1.
Modelo de Covariˆancia:
A ferramenta utilizada no presente trabalho baseia-se em especial no modelo
de covariˆancia (CM, Covariance Model), que ´e um caso particular de SCFG. Os
CMs ao modelos probabil´ısticos resultantes da combina¸ao de informa¸oes de es-
trutura secund´aria e sequˆencias prim´arias, a partir de um alinhamento m´ultiplo de
sequˆencias. Sendo assim, cada classe de ncRNA corresponder´a a um perfil de CM
(Eddy, 2007).
Para gerar um CM ´e utilizado como entrada o alinhamento m´ultiplo de
sequˆencias de RNA. Este alinhamento apresenta uma estrutura secund´aria con-
senso do RNA (figura 3.3). Um CM consiste de arios tipos de estados, que ao
associados as bases de nucleot´ıdeos e suas posi¸oes na estrutura secund´aria do
RNA consenso. Um CM tem sete tipos de estados e regras de produ¸ao, conforme
a tabela 3.1, onde “forma¸ao”´e a probabilidade da ocorrˆencia de um estado e“tran-
si¸ao” ´e a probabilidade de um pr´oximo estado ocorrer a partir do atual (Eddy,
2007).
Por exemplo, um par particular v no estado P produz aY b, onde a e b apre-
sentam probabilidade de forma¸ao e
v
(a, b) e sua transi¸ao para arios novos estados
Y tem probabilidade t
v
(Y ) (probabilidade de transi¸ao). Entretanto, um estado
de bifurca¸ao B se bifurca em dois novos estados de in´ıcio S com probabilidade 1.
a o estado E ´e um caso especial de produ¸ao que termina uma derivao (Eddy,
2007).
39
Tabela 3.1: Estados do CM.
Tipo de estado Descri¸ao Produ¸ao Forma¸ao Transi¸ao
P Par formado P aY b e
v
(a, b) t
v
(Y )
L Esquerda formada L aY e
v
(a) t
v
(Y )
R Direita formada R Y a e
v
(a) t
v
(Y )
B Bifurca¸ao B SS 1 1
D Dele¸ao D Y 1 t
v
(Y )
S In´ıcio S Y 1 t
v
(Y )
E Fim E ε 1 1
Um CM consiste de arios estados dos sete tipos asicos, cada um com suas
distribui¸oes de probabilidade de produ¸ao (forma¸ao) e probabilidade de transi-
¸ao, al´em de seu estado que tamb´em pode sofrer transi¸ao. Pares de base consenso
ser´a modelada pelo estado P , res´ıduos consenso que ao se pareiam podem ser
modelados pelo estado L e R, insers˜oes consenso podem ser modeladas pelos esta-
dos L e R, dele¸oes conseso pode ser modeladas pelo estado D, e a topologia de
ramifica¸ao da estrutura secund´ario de RNA pode ser modelada pelos estados B,
S e E (Eddy, 2007).
Finalmente, para cada CM ´e gerada a ´arvore bin´aria referente a estrutura
consenso do alinhamento m´ultiplo. Para a constru¸ao da ´arvore s˜ao usados os oito
tipos de os relacionados na tabela 3.2. Por exemplo, um o MATP cont´em um
estado do tipo P para modelar um par de base consenso (Eddy, 2007).
Dada uma estrurura consenso, as bases pareadas ao atribu´ıdas aos os
MATP e as ao pareadas ao atribu´ıdas ou aos os MATL ou aos os MATR.
Um n´o ROOT ´e usado no in´ıcio da ´arvore. As bifurca¸oes em uma ´arvore s˜ao atri-
bu´ıdas aos os BIF e seus ramos, ou sub´arvores, ao iniciados com os os BEGL
e BEGR, o primeiro para o ramo a esquerda e o segundo para o ramos a direita
(figura 3.4) (Eddy, 2007).
40
Tabela 3.2: Os tipos de os usados na constru¸ao da ´arvore bin´aria.
o Descri¸ao Principais Estados
MATP Pareamento P
MATL ao pareado a esquerda L
MATR ao pareado a direita R
BIF Bifurca¸ao B
ROOT Raiz S
BEGL Come¸co a esquerda S
BEGR Come¸co a direita S
END Fim E
41
Figura 3.3: Exemplo de uma dada fam´ılia de RNA: A esquerda ´e representado
o alinhamento m´ultiplo de 3 sequˆencias, sendo que a linha [estrutura] representa
a estrutura secund´aria consenso. A direita ´e mostrada a estrutura secund´aria da
sequˆencia do RNA de humano, gerada a partir da estrutura consenso (adaptado
de Eddy, 2007).
Figura 3.4: Alinhamento estrutural ´e convertido em ´arvore bin´aria. A esquerda ´e
representado a estrutura secund´aria consenso derivada do alinhamento da figura
anterior. A direita ´e representada a ´arvore CM correspondente a estrutura consenso
(adaptado de Eddy, 2007).
42
Cap´ıtulo 4
Materiais e M´etodos
Foram utilizados neste estudo os cromossomos I e II dos genomas de V. mi-
micus VM573, V. alginolyticus 40B, V. communis 1DA3 e V. campbellii ATCC
BAA-1116.
4.1 Dados de entrada originados do genoma V. campbellii ATCC
BAA-1116
Para a obten¸ao do genoma completo de V. campbellii ATCC BAA-1116 fo-
ram importados do site de ftp do NCBI
1
os arquivos que cont´em as sequˆencias
de DNA (NC 004603.fna e NC 009784.fna, cromossomo I e II respectivamente),
os arquivos que conem as anota¸oes das ORFs (NC 004603.ptt e NC 009784.ptt)
e os arquivos que cont´em as localiza¸oes dos tRNAs e rRNAs (NC 004603.gbk e
NC 009784.gbk).
4.2 Dados de entrada originados dos genomas de V. mimicus
VM573, V. alginolyticus 40B, V. communis 1DA3
A linhagem V. mimicus VM573 foi isolada, na d´ecada de 90, de um paciente
norte-americano com diarr´eia. As linhagens V. alginolyticus 40B, V. communis
1
NCBI: National Center for Biotechnology Information
[ftp://ftp.ncbi.nih.gov/genomes/Bacteria]
43
1DA3 foram isoladas respectivamente dos corais brasileiros Mussismilia hispida e
Phyllogorgia dilatada, em 2007. A linhagem 1DA3, conhecida como V. harveyi-like
1DA3, foi caracterizada em 2010 como uma nova esp´ecie chamada V. communis
(Chimetto et al., 2010). Estes trˆes genomas foram recentemente sequenciados e
posteriormente submetidos ao processo de anota¸ao autom´atica, descrito a seguir,
de forma a obter as ORFs e tRNAs.
4.2.1 Sequenciamento
Os genomas de V. mimicus VM573, V. alginolyticus 40B e V. communis
1DA3 foram sequenciados atraes do m´etodo de pirosequenciamento pela equipe
do Professor Dr. David Ussery da Universidade da Dinamarca. O equipamento
utilizado foi o sequenciador 454 Life Sciences, modelo Gemone Sequencer FLX
System da Roche.
Atrav´es do m´etodo descrito acima, foram geradas 415.534, 376.865 e 554.651
leituras (reads) para os genomas de V. mimicus VM573, V. alginolyticus 40B e V.
communis 1DA3, respectivamente. Utilizando o programa NEWBLER, estas lei-
turas foram montadas em fragmentos maiores e cont´ınuos chamados contigs. Para
V. mimicus VM573 foram gerados 82 contigs, correspondendo a um tamanho total
de 4.373.300 nt e uma cobertura estimada de 24 vezes o tamanho do genoma. Para
o V. alginolyticus 40B e V. communis 1DA3 foram gerados respectivamente 290
e 229 contigs, correspondendo a um tamanho total de 5.234.286 e 5.989.648 nt, e
uma cobertura estimada de 18 e 22 vezes o tamanho do genoma.
4.2.2 Anota¸ao
A anota¸ao autom´atica destes trˆes genomas foi realizada utilizando o pro-
grama SABIA (System for Automated Bacterial Integrated Annotation) (Almeida
44
et al., 2004) pela equipe de bioinform´atica liderado pela Dra. Ana Tereza R. Vas-
concelos do Laborat´orio Nacional de Computa¸ao Cient´ıfica (LNCC). O programa
de anota¸ao SABIA possui interface com os principais bancos de dados utilizados
em anota¸ao de genomas, al´em de possibilitar arias compara¸oes entre genomas.
Os parˆametros utilizados para a anota¸ao dos genomas foram: cobertura de 60%
e E-value aximo de 10
5
.
O processo de anota¸ao autom´atica gerou para cada genoma o mapa das
ORFs (ver na tabela 4.1 a quantidade de ORFs encontradas) e tRNAs. Cada
mapa mostra para cada ORF sua localiza¸ao, dire¸ao, nome do gene quando iden-
tificado, fun¸ao da prote´ına quando identificada, entre outras caracter´ısticas.
Tabela 4.1: Quantidade de ORFs por genoma gerada pelo programa de anota¸ao
SABIA.
Genoma V. mimicus VM573 V. alginolyticus 40B V. communis 1DA3
Total de ORFs 3744 4340 4954
Com os resultados obtidos pela anota¸ao autom´atica, a equipe do labinfo
gerou para cada genoma de vibrio trˆes arquivos por contig: os fna, ptt e gbk.
O primeiro arquivo cont´em a sequˆencia de DNA referente ao contig, no formato
FASTA; o segundo conem as anota¸oes das ORFs deste contig, ou seja as locali-
za¸oes e os nomes dos genes assim como seu produto; a o terceiro arquivo al´em de
conter as anota¸oes das ORFs, como no arquivo ptt, tamem cont´em a localiza¸ao
dos tRNAs.
Para determinar a qual cromossomo cada contig pertence, foi utilizado, a
ferramenta Cross match para comparar as sequˆencias de DNA dos genomas aqui
estudados com genomas importados do NCBI, como segue: V. mimicus VM573
foi comparado com V. cholerae e V. cholerae 0395; V. alginolyticus 40B com V.
45
parahaemolyticus; V. harvey 1DA3 com V. campbellii ATCC BAA-1116. A tabela
4.2 mostra a quantidade de contigs por cromossomo.
Tabela 4.2: Quantidade de contigs por cromossomo. Em alguns contigs ao foi
poss´ıvel determinar o cromossomo de origem, sendo assim denominados de contigs
sem identifica¸ao.
Genoma V. mimicus VM573 V. alginolyticus 40B V. communis 1DA3
Contigs do Cromossomo I 34 103 66
Contigs do Cromossomo II 25 59 45
Contigs sem identifica¸ao 11 14 17
4.3 An´alise Computacional
Nesta etapa, al´em de terem sido utilizados o programa cmsearch (pertencente
ao pacote Infernal
2
vers˜ao 0.81) e a base de dados do Rfam
3
9.0, foram desen-
volvidos programas em linguagem Perl. O Perl ´e uma linguagem de programa¸ao
est´avel e multiplataforma, ou seja ´e suportada em ambientes UNIX, Windows, Ma-
cintosh, entre outros. Esta linguagem ´e muito utilizada na bioinform´atica devido a
sua alta eficiˆencia na manipula¸ao de caracteres e por possuir odulos espec´ıficos
para aplica¸oes em bioinform´atica.
A an´alise computacional apresentada neste trabalho baseou-se nas regi˜oes
intergˆenicas (IGRs) para a procura dos ncRNAs. Sendo assim, foram identificadas
todas as IGRs dos genomas de V. mimicus VM573, V. alginolyticus 40B, V. com-
munis 1DA3 e V. campbellii ATCC BAA-1116. Na figura 4.2 est˜ao representadas,
atrav´es de fluxograma, as etapas da an´alise computacional, as quais ser˜ao detalha-
das mais adiantes.
2
Infernal: inference of RNA alignments [http://infernal.janelia.org]
3
Rfam [http://rfam.janelia.org]
46
Em V. mimicus VM573, V. alginolyticus 40B e V. communis 1DA3 foram
usados, para a an´alise computacional, somente os contigs que continham pelo me-
nos uma ORF, os contigs sem ORFs foram descartados. A op¸ao pelo descarte
destes contigs deve-se aos seus diminutos tamanhos (estando muito fragmentados)
e `a impossibilidade de mapear os ncRNAs que por ventura fossem encontrados,
ou seja entre quais genes est˜ao situados. Na tabela 4.3 mostra a quantidade de
contigs sem ORFs e com ORFs de cada genoma.
Tabela 4.3: Quantidades de contigs sem ORFs e com ORFs (contigs ´uteis para
an´alise) em cada genoma.
Genoma V. mimicus VM573 V. alginolyticus 40B V. communis 1DA3
Total de contigs 82 290 229
Contigs sem ORFs 12 114 101
Contigs ´uteis para an´alise 70 176 128
4.3.1 Identifica¸ao de Regi˜oes Intergˆenica em V. mimicus VM573,
V. alginolyticus 40B, V. communis 1DA3
Para a identifica¸ao das regi˜oes intergˆenicas (IGRs) foi desenvolvido um pro-
grama em Perl. O primeiro passo deste programa ´e a separa¸ao dos contigs por
cromossomo. Posteriormente ao gerados, para cada contig, arquivos no formato
FASTA contendo a localiza¸ao e a sequˆencia das diversas IGRs. Estas IGRs ao
calculadas utilizando o arquivo que cont´em a sequˆencia do contig (fna) e os ar-
quivos que conem as anota¸oes das ORFs e de tRNAs (ptt e gbk) do contig em
quest˜ao. As regi˜oes que ao estiverem anotadas nos arquitos ptt e gbk ser˜ao ma-
peadas e suas sequˆencias extra´ıdas do arquivo fna.
Por exemplo, no contig 56 do genoma de V. mimicus foram identificados,
por este programa, 5 IGRs e ao final foram gerados 5 arquivos de sa´ıda, um para
cada IGR. Cada arquivo de sa´ıda cont´em a localiza¸ao do IGR no contig e a sua
47
sequˆencia de nucleot´ıdeos. Abaixo ao mostrados 3 destes arquivos de sa´ıda.
Nome do arquivo: Vibrio Mimicus Extragenic56 IGR 1.txt
Conte´udo:
>*IG* (1-229)
CCTCTAGTYGGCGCTTTTTTTTTGTACAACATTAATCTTTATCCAGCAATCAATTTCTCAACACTTTAT
CTAATAAAAATATAATTATTAAAAACCTTTCATTCGGTTCATTTCACGACTTAAGAAATTGGTACTCGT
AGCAACTCGCACTAAGTCTTCAAACCTCTTTTCATTACCAATGAGCTTCAATCTAATCTTGGTAATTAT
TTTTATAGAAGGTTAAAAAAAT
Nome do arquivo: Vibrio Mimicus Extragenic56 IGR 2.txt
Conte´udo:
>*IG* (1523-1559)
ACCTAAAAATCCCAGCCAAGTGCTGGGATTTTCTACA
Nome do arquivo: Vibrio Mimicus Extragenic56 IGR 3.txt
Conte´udo:
>*IG* (2616-2694)
GACTCATTTTCTCCTTTTTCGCCATCATAACAGCCAGAATGATGAGGAGCGAGTCGTACCCCAAATGAGTGT
GAGAAGC
4.3.2 Identifica¸ao de Regi˜oes Intergˆenica em V. campbellii ATCC
BAA-1116
Como o genoma de V. campbellii ATCC BAA-1116 ´e completo e seus 6 ar-
quivos (um arquivo fna, ptt e gbk, para cada cromossomo) foram importado do site
de ftp do NCBI, foi necess´ario adaptar o programa de extra¸ao de IGR para este
genoma. Neste caso o programa gera para cada cromossomo, e n˜ao para cada con-
tig como nos demais genomas, arquivos no formato FASTA contendo a localiza¸ao
e a sequˆencia das IGRs. Por exemplo, no cromossomo I do genoma de V. capbellii
foram gerados, atrav´es do programa, 2869 arquivos de sa´ıda que correspondem a
2869 IGRs. Pode-se observar abaixo trˆes destas sa´ıdas que correspondem ao IGR
2, 3 e 4:
Nome do arquivo: NC 009783 IGR 2.txt
Conte´udo:
>*IG* (6420-6515)
TGCGTGACGATAGATTAACCACTCTCTCTAATAACAAGAAAGAATAGAAGAGAATGTTTTATAACTTTTTGG
AAGTAAGAACGTTGGACCTAGTGC
Nome do arquivo: NC 009783 IGR 3.txt
Conte´udo:
48
>*IG* (6747-6895)
CGCAATCCCTGCTCCAACTTTTCTACATTGCTCTCAATAAGCATGGTCGAAGACTGAAACTTGGGCGAGAAAT
TCGATTTAATATAATGAAGTGATATAAAAAAACGCCGCTTATAAAGCGACGTTTTAAAGGAATGAATGCAGCG
TAC
Nome do arquivo: NC 009783 IGR 4.txt
Conte´udo:
>*IG* (7562-7661)
GTAATTTTTACTCCGAGATAGCTGATTTCAACATTAAGGGACATGTGAGAAATACTAACATACTCTCACAGCCC
GCCATCAACTAAATCTCTACAATCCG
4.3.3 Preprocessamento da base de dados do Rfam
A ferramenta Infernal apesar de ser considerada uma das ferramentas mais
eficientes e sens´ıveis para a detec¸ao de ncRNA em base de dados, consome muito
tempo de processamento quando o volume de informa¸oes a ser processado ´e alto.
Com o intuito de diminuir o tempo computacional no processo de busca, a base
de dados do Rfam foi preprocessado de forma que fossem eliminados os modelos
de covariˆancia referentes `as classes de tRNAs e rRNAs assim como `as classes de
ncRNAs de eucariotos (snoRNA, miRNA, snRNA splicing).
Para atingir tal objetivo, foi desenvolvido um novo programa em Perl. Este
consulta o arquivo Rfam.seed, no formato STOCKHOLM, e procura nos cam-
pos #=GF TP as seguintes classes de ncRNA: snoRNA, miRNA, snRNA spli-
cing, rRNA e tRNA. Quando estas classes ao encontradas, suas referˆencias (ex:
RF00007) contidas nos campos #=GF AC ao armazenadas. Estas referˆencias
ao usadas pelo programa para encontrar e eliminar os arquivos CM que cont´em
as classes indesejadas de ncRNAs. Veja figura 4.1.
4.3.4 Busca utilizando o infernal e a base de dados do Rfam
As IGRs geradas pelo programa descrito na sess˜ao 4.3.3, foram analisadas e
as que possu´ıam tamanhos menores do que 50 nt foram descartadas. Este procedi-
mento ´e necess´ario uma vez que os ncRNAs apresentam tamanhos a partir de 50 nt.
49
Figura 4.1: Fluxograma do preprocessamento da base Rfam.
Todas as sequˆencias das IGRs acima de 50 nt foram individualmente compa-
radas com a base de dados preprocessada do Rfam, utilizando para isto o programa
cmsearch do pacote Inferno. Cada sa´ıda pode apresentar pontua¸oes permitindo
estimar a importˆancia de cada candidato. O score cutoff utilizado foi 34, indicando
que os candidatos gerados ao os de score acima de 34. Quanto maior a pontua¸ao
dos candidatos maior a garantia do resultado. Pontua¸oes maiores do que o log
2
do tamanho da sequˆencia de interesse (sequˆencia de IGR) ao considerados signi-
ficativos, segundo o guia de usu´ario do Infernal
4
. Por exemplo, caso a sequˆencias
de interesse tenha 600 nt (300 nt x 2 fitas), pontua¸oes acima de 9.23 ao conside-
radas significantes. Como o maior IGR encontrado neste estudo apresenta 9666 nt
(cromossomo II de V. communis), e log
2
(9666 x 2) ´e igual a 14.24, pode-se concluir
4
Infernal User’s guide: Sequence analysis using profiles of RNA secondary structure consensus,
2007 [http://infernal.janelia.org]
50
que qualquer pontua¸ao acima de 14.24 para qualquer IGR a seria considerado
significativo. Entretanto foi adotado o score cutoff de 34, ou seja, selecionado ape-
nas os candidatos de pontua¸ao acima de 34. Este valor foi adotado pois ´e bem
pr´oximo ao utilizado pelo Web Search Rfam
5
, al´em disso confere uma maior credi-
bilidade aos resultados, pois, como descrito acima, quanto maior a pontua¸ao dos
candidatos maior a garantia do resultado.
Foi desenvolvido um programa em Perl que apresenta algumas fun¸oes para
realizar as etapas acima descritas, de forma que todos os IGRs dos genomas aqui es-
tudados foram confrontado com todos os arquivos CM (ap´os o preprocessamento).
A ´ultima fun¸ao desse programa ´e respons´avel pela formata¸ao dos resultados e
gera para cada sa´ıda dois arquivos, um contendo maiores detalhes do ncRNA can-
didato e o outro contendo o tamanho e a sequˆencia de DNA do ncRNA candidato
(veja figura 4.2).
4.3.5 Formata¸ao dos resultados
´
E a ´ultima fun¸ao do programa de busca, descrito acima, com o objetivo de
incrementar alguns dados importantes `as sa´ıdas do programa cmsearch, de forma a
gerar para cada ncRNA cantidato sua identifica¸ao, fam´ılia pertencente, descri¸ao,
seu tamanho, as sequˆencias de DNA do ncRNA candidato e da IGR que o pertence,
suas ORFs upstream e downstream, a fita (strand), entre outras informa¸oes. Para
gerar tais dados, esta parte do programa consulta os arquivos ptt e Rfam.seed,
al´em dos arquivos que cont´em as sequˆencias de DNA das IGRs.
5
Web Search Rfam [http://rfam.sanger.ac.uk/search]
51
Figura 4.2: Fluxograma das etapas da an´alise computacional.
4.4 An´alise de desempenho
O programa de busca foi executado em uma aquina do Laborat´orio de
Bioinform´atica (Labinfo/LNCC), sendo que 10 CPUs (Unidade Central de Proces-
samento) foram usados simultaneamente. A aquina apresenta a seguinte confi-
gura¸ao:
Processadores: 8 Dual Core AMD Opteron(tm) Processor 885. Totali-
zando 16 CPUs ou cores.
Mem´oria compartilhada: 64 GB.
Sistema Operacional: CentOS 5.2 kernel 2.6.18-92.el5.
Escalonador SGE (Sun Grid Engine). Software respons´avel por escalonar
52
(distribuir) as tarefas entre os diversos n´ucleos ou processadores.
Foram utilizados os IGRs acima de 50 nt do cromossomo I de V. mimicus
VM573 para realizar o teste de desempenho do programa de busca. Este teste
tem como objetivo comparar o desempenho de busca na base de dados Rfam pre-
processada com a busca na base de dados completa do Rfam. Ap´os a execu¸ao
do programa de busca ora usando a base completa ora a base preprocessada, o
wallclock (tempo de rel´ogio, do momento que come¸ca a execu¸ao at´e o t´ermino da
execu¸ao do programa) foi recolhido e analisado, para cada um dos casos.
4.5 Valida¸ao experimental
A valida¸ao experimental foi realizada pela equipe do Laborat´orio de Pes-
quisa Naval do Centro de Ciˆencia Biomolecular e Engenharia (Marinha Americana,
Washington DC) liderada pelo Dr. Gary J. Vora. Esta an´alise foi realizada uti-
lizando culturas de V. campbelli BAA-1116. A an´alise experimental tem como
objetivo validar os resultados obtidos pela metodologia in silico. Foram utilizadas
as t´ecnicas de microarranjo e PCR de transcri¸ao reversa (RT-PCR). Maiores de-
talhes sobre as ecnicas empregadas nesta valida¸ao podem ser obtidos na se¸ao
de materiais e m´etodos do artigo, no apˆendice C.
53
Cap´ıtulo 5
Resultados e Discuss˜ao
5.1 Identifica¸ao das Regi˜oes intergˆenicas em V. mimicus VM573,
V. alginolyticus 40B, V. communis 1DA3 e V. campbellii ATCC
BAA-1116
As quantidades de IGRs encontradas no genoma de V. mimicus VM573, V.
alginolyticus 40B e V. communis 1DA3 est˜ao listadas na tabela 5.1. As IGRs efeti-
vamente usadas nas an´alises foram as de tamanho acima de 50 nt. Por conseguinte,
foram usadas 2402 IGRs de V. mimicus, 3055 IGRs de V. alginolyticus, 3465 IGRs
de V. communis e 3663 IGRs de V. campbellii.
Tabela 5.1: Quantidade de IGRs (total, menores do que 50 nt e maiores do que
50 nt) encontradas nos genomas de V. mimicus VM573, V. alginolyticus 40B,
V. communis 1DA3 e V. campbellii ATCC BAA-1116, separadas por cromossomo:
cromossomo I (Crom I), cromossomo II (Crom II). As IGRs provenientes de contigs
que ao foram poss´ıveis detectar o cromossomo que as originou, fazem parte da
estat´ıstica de cromossomo indefinido (Crom -).
Organismo V. mimicus V. alginolyticus V. communis V. campbellii
IGRs Total <50nt >50nt Total <50nt >50nt Total <50nt >50nt Total <50nt >50nt
Crom I 1952 435 1517 2178 429 1749 2259 428 1831 2869 616 2253
Crom II 1038 183 855 1510 254 1256 1914 328 1586 1810 400 1410
Crom - 32 2 30 54 4 50 61 13 48 - - -
Total 3022 620 2402 3742 687 3055 4234 769 3465 4679 1016 3663
As maiores IGRs encontradas nos genomas dos vibrios, bem como o tamanho
m´edio das IGRs ao mostrados na tabela 5.2.
54
Tabela 5.2: Tamanhos das IGRs dos genomas de vibrio.
Organismo Cromossomo
Maior IGR Tamanho edio
Tamanho (nt) Localiza¸ao das IGRs (nt)
V. mimicus
Crom I 3431 contig4 IGR 59 179,54
Crom II 3453 contig18 IGR 9 237,88
V. alginolyticus
Crom I 9319 contig93 IGR 1 231,09
Crom II 7745 contig2 IGR 1 241,27
V. communis
Crom I 2915 contig19 IGR 1 208,08
Crom II 9666 contig17 IGR 1 227,08
V. campbellii
Crom I 2458 IGR 2563 179,45
Crom II 3922 IGR 1442 164,59
5.2 Desempenho do programa de busca utilizando a base de dados
preprocessada
A base preprocessada do Rfam reduziu o tempo de execu¸ao da busca de
ncRNAs em 2.9 vezes quando comparado `a busca utilizando a base completa do
Rfam (5.3). Os testes consistiram em trˆes execu¸oes na base completa e na base
preprocessada. A m´edia do tempo de execu¸ao, utilizando a base completa, foi
de 21 horas 58 minutos e 19 segundos (desvio padr˜ao de 2 minutos e 5 segundos),
a utilizando a base preprocessada a edia do tempo de execu¸ao foi de 7 horas
34 minutos e 22 segundos (desvio padr˜ao de 17 minutos e 6 segundos), conforme
tabela 5.3. Nestes testes de desempenho foram usados todos os IGRs acima de 50
nt do cromossomo I de V. mimicus VM573.
A busca na base de dados Rfam atrav´es da ferramenta Infernal ´e lenta, por
isso faz-se necess´aria uma pr´evia filtragem (preprocessamento) da base de dados
eliminando as classes de ncRNAs que ao condizem com o organismo estudado.
Vericou-se que o preprocessamento melhorou bastante o tempo de execu¸ao do
programa de busca, sendo essencial para a obten¸ao otimizada dos resultados.
55
Tabela 5.3: Compara¸ao dos tempos de execu¸ao.
Tempo de execu¸ao
(hh:mm:ss)
Base Rfam completa Base Rfam preprocessada
Teste 1 21:57:28 07:14:41
Teste 2 22:00:41 07:42:56
Teste 3 21:56:47 07:34:22
M´edia 21:58:19 07:34:22
Devio Padr˜ao 00:02:05 00:17:06
5.3 Busca utilizando Infernal / Rfam
Abaixo ´e apresentado um exemplo de sa´ıda do comando cmsearch. Neste
exemplo o arquivo CM usado foi o RF00378.cm e o arquivo contendo a sequˆen-
cia desejada foi o Vibrio Mimicus Extragenic20 IGR 46.txt (IGR 46 do contig 20
pertencente ao cromossomo II de V. mimicus VM573). No arquivo de sa´ıda ao
mostrados o alinhamento, a fita (strand) e a pontua¸ao (score). Neste exemplo este
ncRNA, que faz parte da fam´ılia do CM RF00378 (Qrr RNA) est´a na fita positiva
e apresenta uma pontua¸ao de 83,37.
CM 1: SEED
CM lambda and K undefined -- no statistics
Using CM score cutoff of 34.00
>*IG*
Plus strand results:
Query = 1 - 108, Target = 161 - 265
Score = 83.37, GC = 47
<<<<<<____________>>>>>>,,,,,,,,,,,,,,,<<<<--<<<<<<<____>>>>
1 uGaCCCUUauuAAgccgAGGGuCaCCUAGCCAACUGACGuuguUAGuGaAcauaAuugUu 60
:GACCCUU UAAGCCGAGGGUC:CCUAGCCAACUGACG U UUAGUGAACA AUUGUU
161 CGACCCUU-CUAAGCCGAGGGUCACCUAGCCAACUGACGUUGUUAGUGAACACCAUUGUU 219
>>>------->>>>--<<<<<<<<.______>>>>>>>>::::::::::
61 CaCAaaaAaaauaaaGCCAaccgc.aauaUUgcgguUGGcUuUUUUUUu 108
CACA A+A+ A A GCCAA:C:C ++U UUG:G:UUGGC UUUUUU
220 CACACAUAU-AGACGGCCAAUCACaCUUCUUGUGGUUGGCCUUUUUU-- 265
//
Fin
A an´alise in silico, utilizando o infernal e a base de dados preprocessada do
56
Rfam, identificou 140 ncRNAs candidatos nos quatro genomas, dos quais 31 em V.
alginolyticus 40B, 38 em V. campbellii ATCC BAA-1116, 38 em V. communis 1DA3
e 33 em V. mimicus VM573 (ver tabela 5.4). O tamanho dos ncRNAs encontrados
variaram entre 56 a 402 nt, sendo que 87%, ou seja 122 candidatos, apresentam
tamanhos que variam de 50 a 250 nt. O umero de ncRNAs encontrados no me-
nor cromossomo destes vibrios (variou de 9 a 12 candidatos), ´e significativamente
menor (p<0.01) do que no maior cromossomo (variou de 20 a 27 candidatos). ao
foram encontrados nenhum ncRNA nas IGRs de cromossomo indefinido.
Tabela 5.4: Quantidades de ncRNAs encontradas nos genomas de V. mimicus
VM573, V. alginolyticus 40B, V. communis 1DA3 e V. campbellii ATCC BAA-
1116, separadas por cromossomo: cromossomo I (Crom I), cromossomo II (Crom
II) ou cromossomo indefinido (Crom -).
Organismo V. mimicus V. alginolyticus V. communis V. campbellii
VM573 40B 1DA3 ATCC BAA-1116
Crom I 24 20 27 26
Crom II 9 11 11 12
Total 33 31 38 38
5.4 Formata¸ao dos resultados
A ´ultima fun¸ao do programa de busca desenvolvido em Perl, descrito nas
sess˜oes 4.3.4 e 4.3.5, gera dois arquivos para cada sa´ıda. Um dos arquivos conem
a sequˆencia de DNA do ncRNA candidato, seu tamanho e a fita (strand), e o outro
arquivo cont´em, al´em dos dados obtidos pelo comando cmsearch, outras informa-
¸oes importantes sobre o ncRNA candidato. Ou seja, as informa¸oes obtidas pelo
cmsearch, tais como, a pontua¸ao do ncRNA candidato e seu alinhamento com a
sequˆencia espec´ıfica da base de dados do Rfam recebem informa¸oes adicionais,
incluindo a localiza¸ao da IGR que conem o ncRNA candidato (em rela¸ao ao
contig), a sequˆencia da IGR, identifica¸ao do ncRNA, tipo da fam´ılia na qual este
pertence, ORFs que ladeiam o ncRNA.
57
Um exemplo de sa´ıda do programa de formata¸ao dos resultados ´e apresen-
tado no pr´oximo par´agrafo. Este programa gera dois arquivos por ncRNA candi-
dato. No exemplo escolhido, o candidato ´e o mesmo do subitem 5.3. Logo abaixo,
encontra-se o arquivo que cont´em uma nova formata¸ao, esta al´em de oferecer in-
forma¸oes originadas da sa´ıda do comando cmsearch (exemplo anterior), cont´em
importantes informa¸oes adicionais.
Arq saida: Vibrio_Mimicus_Extragenic20_IGR_46.txt
>*IG* (62915-63179)
TTTTTTTGCATTTTGCAAATGTTAATTTGCAATTCGCAATCGCAATTGCATTTTGTTATTCACTTATGAG
TCAAGTTGTAATGAAACTGCCGATTATTTGTACGGTTTTCATGCAAAAGTACTTAATAAAAAGTTGGCAC
GTAATCTGCATTAATTAGATCGACCCTTCTAAGCCGAGGGTCACCTAGCCAACTGACGTTGTTAGTGAAC
ACCATTGTTCACACATATAGACGGCCAATCACACTTCTTGTGGTTGGCCTTTTTT
Score: 83.37
#=GF AC RF00378
#=GF ID Qrr
#=GF DE Qrr RNA
#=GF AU Moxon SJ
#=GF SE PMID:15242645
#=GF SS Published; PMID:15242645; Moxon SJ
#=GF GA 25.00
#=GF TC 25.79
#=GF NC 8.85
#=GF TP Gene; sRNA;
#=GF BM cmbuild CM SEED
#=GF BM cmsearch --toponly CM SEQDB
#=GF RN [1]
#=GF RM 15242645
#=GF RT The Small RNA Chaperone Hfq
#=GF RA Lenz DH, Mok KC, Lilley BN, Kulkarni RV, Wingreen NS, Bassler BL;
#=GF RL Cell 2004;118:69-82.
#=GF CC This family represents a set of small RNAs (the Qrr RNAs) that are thought
#=GF CC to be involved in the regulation of quorum sensing in Vibrio species. It is
#=GF CC believed that these RNAs, guided by a protein, Hfq, can mediate the
#=GF CC destabilisation of the quorum-sensing master regulators LuxR/HapR mRNAs
#=GF CC [1].
#=GF SQ 31
ORF Upstream: - | Strand: +| Produto: GGDEF family protein
ORF Downstream: - | Strand: -| Produto: conserved hypothetical protein
<<<<<<____________>>>>>>,,,,,,,,,,,,,,,<<<<--<<<<<<<____>>>>
1 uGaCCCUUauuAAgccgAGGGuCaCCUAGCCAACUGACGuuguUAGuGaAcauaAuugUu 60
:GACCCUU UAAGCCGAGGGUC:CCUAGCCAACUGACG U UUAGUGAACA AUUGUU
161 CGACCCUU-CUAAGCCGAGGGUCACCUAGCCAACUGACGUUGUUAGUGAACACCAUUGUU 219
>>>------->>>>--<<<<<<<<.______>>>>>>>>::::::::::
61 CaCAaaaAaaauaaaGCCAaccgc.aauaUUgcgguUGGcUuUUUUUUu 108
CACA A+A+ A A GCCAA:C:C ++U UUG:G:UUGGC UUUUUU
220 CACACAUAU-AGACGGCCAAUCACaCUUCUUGUGGUUGGCCUUUUUU-- 265
58
Abaixo ´e apresentado o exemplo do outro arquivo gerado, ou seja, o arquivo
contendo as sequˆencias dos genes do ncRNA, seu tamanho e a fita (strand).
- Qrr (second) (105 nt | Strand +):
GACCCTTCTAAGCCGAGGGTCACCTAGCCAACTGACGTTGTTAGTGAACACCATTGTTC
ACACATATAGACGGCCAATCACACTTCTTGTGGTTGGCCTTTTTT
Para visualizar as sequˆencias dos ncRNAs candidatos geradas neste trabalho,
acessar a URL: http://www.lncc.br/tide
Gra¸cas a esta etapa da formata¸ao dos resultados ode-se gerar uma tabela
completa de ncRNAs dos quatro genomas de vibrio, esta tabela encontra-se no
apˆendice B. Os ncRNAs detectados foram categorizados, segundo suas fun¸oes e
caracter´ısticas. No total, 46 ncRNAs foram classificados como riboswitches, 30
como RNAs antisenso de ao trans, 22 como ncRNAs que modulam atividade
de prote´ınas, 9 RNAs antisenso de ao cis, 4 ribonucleoproteinas, 9 ncRNAs de
regula¸ao por ermino de transcri¸ao e 20 ncRNAs de classifica¸ao desconhecida.
A tabela contendo estes dados pode ser vizualizada no apˆendice A, onde cr I e cr
II ao cromossomo I e cromossomo II. O ncRNA encontrado com maior frequˆen-
cia foi o Qrr, com at´e 5 copias por genoma (exceto o genoma de V. mimicus que
apresenta 4 copies). Estas repeti¸oes podem sugerir um papel fundamental, desta
classe de ncRNAs, no funcionamento celular, como por exemplo na regula¸ao de
quorum sensing e patogenicidade.
5.5 Diversidade de ncRNAs nos genomas de vibrio
Nesta se¸ao ao discutidos os ncRNAs encontrados nos genomas dos quatro
vibrios estudados.
Riboswitches:
59
Riboswitch de glicina: Possui normalmente dois dom´ınios aptˆameros para
liga¸ao de metab´olitos. Os optˆameros ligam-se a glicina para regular a express˜ao
do gene subsequente. Este riboswitch ´e encontrado upstream do operon gcvt, em
Bacillus subtilis. O operon gcvt controla a degrada¸ao da glicina, quando a glicina
est´a em excesso, ela se liga a ambos os aptˆameros ativando estes genes e facilitando
a degrada¸ao da glicina. A glicina em uma elula bacteriana deve ser mantida a um
n´ıvel basal. Os dois optˆameros trabalhando em coopera¸ao tornaria o processo de
degrada¸ao mais eficiente, o que poderia conferir uma vantagem de crescimento sob
certas condi¸oes nutricionais (Kwon e Strobel, 2008; Mandal et al., 2004). Esse
riboswitch quando encontrado em nosso genoma apresenta-se adjacente ao gene
da fam´ılia simporter odio/alanina e consequentemente regula a tradu¸ao de seu
mRNA. A simporter odio/alanina ´e uma prote´ına de membrana respons´avel pelo
transporte de alanina e ou glicina em associa¸ao com ´ıons sodio e ou ´ıons hidrogˆe-
nio.
Riboswitch de cobalamina: Tamem chamado de elemento-B12, liga-se a
adenosilcobalamina (uma coenzima formada pela vitamina B12) para regular a bi-
oss´ıntese e transporte de cobalamina e metab´olitos similares (Martens et al., 2002;
Vitreschak et al., 2003). Em V. mimicus o gene que codifica para este riboswitch
´e ladeado pelo gene cujo produto ´e a prote´ına de membrana externa receptora de
cobalamina. Em V. alginolyticus e V. campbellii ATCC BAA-1116 ´e ladeado pelo
gene cujo produto ´e tRNA (uracil-5-)-metiltransferase (a vitamina B12 aumenta
a atividade da metiltransferase), indicando que estes ao os genes regulados pelo
riboswitch de cobalamina.
Riboswitch de lisina: Serve como um sensor preciso para detectar a lisina.
´
E encontrado em genes envolvidos com o metabolismo da lisina, incluindo o gene
lysC (Mandal et al., 2003; Sudarsan et al., 2003). O gene deste riboswitch foi en-
contrado nos genomas aqui estudados, ora adjacente ao gene lysC, ora adjacente
60
ao gene vicH. O produto de vicH ´e o DNA-binding protein H-NS, indicando ser o
regulador da tradu¸ao dos mRNAs destes genes.
Riboswitch de TPP: Tamb´em chamado de Thi-box riboswitch ou elemento
THI, ele liga-se diretamente a tiamina pirofosfato (TPP) para regular a express˜ao
gˆenica de v´arios mecanismos em archaea, bact´eria e eucariontes. TPP ´e uma forma
ativa de tiamina (vitamina B1), sendo assim este riboswitch ´e um elemento de re-
gula¸ao de tiamina (Winkler et al., 2002). ao encontrados em todos os genoma
de vibrio aqui estudados. Nestes genomas existem pelo menos dois riboswitches de
TPP, um no cromossomo II, que regula a express˜ao da fosfometilpirimidina quinase
cujo gene ´e thiD (participa do metabolismo da tiamina) e o outro, encontrado no
cromossomo I, que regula a express˜ao da prote´ına ThiC (participa na bioss´ıntese
de tiamina), cujo gene ´e thiC.
Riboswitch de FMN: Tamem chamado de elemento RFN, est´a envolvido
na regula¸ao de genes que sintetizam riboflavina (vitamina B2). O termo FMN
significa “flavina mononucleot´ıdeo” (sendo a riboflavina o componente central). O
elemento RFN ´e um dom´ınio encontrado frequentemente na regi˜ao 5’ ao-traduzida
de mRNAs respons´aveis pela bioss´ıntese de FMN e transporte de prote´ınas. O ele-
mento RFN se liga a FMN na ausˆencia de prote´ınas (Gelfand et al., 1999). Em
todos os genomas aqui estudados, este riboswitch ´e encontrado junto ao gene ribB
regulando a tradu¸ao do mRNA do RibB. O RibB codifica 3,4-dihidroxi-2-butano
4-fosfato sintase, envolvida na biosintese de riboflavina.
Riboswitch de purina: Ligam-se a guanina e adenina regulando o mRNA
respons´avel pela bioss´ıntese e transporte de purinas (Serganov et al., 2004). En-
contrado no genoma de V. communis e V. campbellii, neste ´ultimo est´a associado
ao gene cujo produto ´e adenosina deaminase, esta enzima promove a deamina¸ao
da adenosina para inosina (encontradas em tRNAs). A codifica¸ao desta enzima ´e
61
regulada pelo riboswitch de purina.
YkkC/YxkD: A fun¸ao desta fam´ılia ao ´e clara, embora tenha sido suge-
rido que ela possa ligar bombas de fluxo (efflux pumps) e sistemas de desintoxica¸ao
em resposta a mol´eculas ambientais nocivas (Barrick et al., 2004). o encontrado
no cromossomo II de V. communis.
ykoK: tamb´em chamado de M-box, ´e um RNA sens´ıvel a Mg
2+
que controla
a express˜ao de prote´ınas de transporte de ´ıons de magn´esio em bact´erias (Barrick
et al., 2004). Encontrados, em nossos estudos, no genoma de V. mimicus upstream
ao gene que expressa prote´ına transportadora de magn´esio, sendo a express˜ao deste
gene regulada por tal riboswitch.
GEMM: Genes associados com di-GMP c´ıclico (GEMM) est˜ao envolvidos
em diversas fun¸oes, como transdu¸ao de sinal, secre¸ao e uso de quitina (Sudar-
san et al., 2008; Weinberg et al., 2007). O GEMM foi encontrado upstream aos
genes que codificam prote´ınas reguladoras de transcri¸ao (fam´ılia LacI) e prote´ınas
chitinase like, indicando o seu papel regulat´orio sobre estes genes em vibrio.
MOCO RNA motif: Seu optˆamero liga-se ao cofator molibdˆenio (MOCO)
ou ao cofator tungstˆenio com a finalidade de regular a concentra¸ao de tais fatores
(Weinberg et al., 2007). Em E. coli existem cinco operons conhecidos envolvidos no
metabolismo do MOCO: moa, mob, mod, moe e mog (SHANMUGAM et al., 1992).
Em E. coli, o gene deste riboswitch foi localizado upstream ao operon moa, o qual
cont´em os genes moaA, moaB, moaC, moaD e moaE (Regulski et al., 2008). Em
nossos estudos, o gene deste riboswitch foi encontrado no cromossomo I de todos
os quatro vibrios ao lado do gene moaA (primeiro gene do operon moa), indicando
que esse riboswitch exerceria fun¸ao regulat´oria neste operon.
62
ncRNAs que modula atividade de prote´ınas:
CsrB: Em E. coli, este ncRNA modula a atividade de CsrA, uma prote´ına
que se liga a RNA para regular o uso do carbono e motilidade bacteriana. O
CsrB, ao formar o complexo CsrA-CsrB, inibe a eficiente degrada¸ao dos mRNA
respons´aveis pela bioss´ıntese de glicogˆenio mediada por CsrA (Liu et al., 1997).
CsrB participa de circuitos de regula¸ao global que controlam o metabolismo do
carbono, a produ¸ao de produtos extracelulares, motilidade da elula, forma¸ao de
biofilme, quorum sensing e/ou patogenicidade (Babitzke e Romeo, 2007). Foram
encontrados, pelo menos, dois destes ncRNA nos quatro genomas aqui estudados.
6S: Associa-se especialmente a holoenzima RNA polimerase contendo o σ
70
como fator espec´ıfico. Esta intera¸ao reprime a express˜ao de genes cujos promoto-
res dependem do fator σ
70
, durante a fase estacion´aria inibindo a participao do
complexo σ
70
-RNA polimerase na transcri¸ao de certos genes (Barrick et al., 2005).
O fator σ
70
´e usado para a grande maioria das fun¸oes de crescimento exponencial.
Foi encontrada, neste estudo, uma opia deste ncRNA em todos os genomas de
vibrio.
tmRNA: tamb´em conhecida como 10Sa RNA e o nome do gene ´e ssrA.
´
E
uma mol´ecula de RNA com propriedade dual, tRNA e mRNA. A tmRNA forma
um complexo ao se ligar com a prote´ına SmpB (Small Protein B - cujo gene ´e
smpB), com o EF-Tu e com a prote´ına ribossomal S1. Suas principais fun¸oes ao
reciclar os ribossomos paralisados e facilitar a degrada¸ao de mRNAs anˆomalos
(Keiler, 2007; Moore e Sauer, 2007; Dulebohn et al., 2007). O gene deste ncRNA
foi encontrado em todos os genomas aqui estudados adjacente ao gene smpB.
RNaseP bact a: ´e uma ribozima (RNA com capacidade catal´ıtica) (Frank
e Pace, 1998; Brown, 1999). Nos genomas aqui estudados, o gene desta riboen-
63
zima est´a adjacente ao gene mraW cujo produto ´e a prote´ına MraW (S-adenosil-
metiltransferase).
RNAs antisenso de ao cis:
Yybp-ykoY: Tamem chamado de SraF, foi originalmente descoberto em
E. coli e posteriormente encontrado em muitas bact´erias. Sua fun¸ao ainda ´e des-
conhecida (Barrick et al., 2004). Foi identificado em nossos genomas flanqueados
pelo gene glyQ, cujo produto ´e a sub-unidade alfa da glicil-tRNA sintetase.
GcvB: Este ncRNA est´a envolvido na express˜ao de sistemas de transportes
de dipept´ıdeos e oligopeptideos em E. coli (Urbanowski et al., 2000). Foi demons-
trado ser um regulador de resistˆencia a ´acidos em E. coli, aumentando a capacidade
da bact´eria de sobreviver em pH baixo (Jin et al., 2009). A transcri¸ao de seu gene
(gcvB) ´e ativada pela prote´ına GcvA (Urbanowski et al., 2000). O gene desse
ncRNA foi encontrado em todos os genomas aqui estudados, sendo que upstream a
ele encontra-se o gene cujo produto ´e um regulador transcricional da fam´ılia LysR
e Downstream encontra-se o gene thiI, cujo produto ´e a prote´ına ThiI (envolvida na
bioss´ıntese de tiamina). Em V. campbellii, o gene gcvB encontra-se adjacente ao
gene gcvA, cujo produto ´e a prote´ına GcvA (membro da fam´ılia LysR) (MingSheng
et al., 2009).
RNAs antisenso de ao trans:
RyhB: Regula, em E. coli, a express˜ao de genes envolvidos no metabolismo
do ferro. RyhB causa a apida degrada¸ao de arios mRNAs alvos, os quais co-
dificam prote´ınas ao-essenciais que se ligam a ferro. Sem a codifica¸ao destas
prote´ınas ´e reduzido a requisi¸ao intracelular de ferro, reservando, assim, ferro so-
mente para prote´ınas essenciais (Masse e Gottesman, 2002). RyhB foi encontrado
64
em nossos estudos no cromossomo I de todos os quatro vibrios.
Spot 42: Este ncRNA parece ter um papel regulat´orio no operon galactose,
inibindo a tradu¸ao de galK . A galK codifica uma galactoquinase envolvida em
um caminho metab´olico da galactose (Moller et al., 2002). Foram observados que
mudan¸cas nos n´ıveis de Spot 42 afetam os n´ıveis de DNA polimerase I adjacente
(POLAYES et al., 1988). Neste estudo, o Spot 42 foi encontrado no cromossomo I
de todos os quatro vibrios, estando adjacente ao gene polI (cujo produto ´e a DNA
polimerase I).
Qrr: Est´a envolvido na regula¸ao do quorum sensing em vibrios. Acredita-
se que estes RNAs, com o aux´ılio da prote´ına chaperona Hfq, podem mediar a
desestabiliza¸ao do mRNAs LuxR/HapR respons´aveis pelo quorum-sensing (Zhu
et al., 2002; Lenz et al., 2004). Este ncRNA foi encontrado em muitas repeti¸oes
principalmente no cromosomo II dos organismos estudados.
Ribonucleoproteina:
SRP bact: Envolvida na tradu¸ao e liga¸ao de prote´ınas na membrana ce-
lular (Regalia et al., 2002). Encontrado no cromossomo I dos quatro genomas de
vibrio aqui estudados.
Regulador por t´ermino de transcri¸ao:
Estes ncRNAs s˜ao conhecidos como sequˆencia leader na regulao por atenu-
ao, como descrito na sess˜ao 2.2.1.4. Esta sequˆencia leader pode adquirir estrutura
secund´aria, em forma de grampo, que caracterize ou ao o ermino de transcri¸ao
dentro de um operon, podendo assim impedir ou permitir a transcri¸ao dos genes
estruturais subsequentes (KOLTER e YANOFSKY, 1982).
65
His-leader:
´
E a sequˆencia leader do operon da histidina (FRUNZIO et al.,
1981; AMES et al., 1983). No presente trabalho, este ncRNA foi encontrado no
cromossomo I de V. mimicus, V. alginolyticus e V. communis.
Thr-leader:
´
E a sequˆencia leader do operon da treonina (KOLTER e YA-
NOFSKY, 1982). Neste estudo, o thr-leader foi encontrado no cromossomo I de
V. mimicus, V. communis e V. campbellii.
Trp-leader:
´
E a sequˆencia leader do operon do triptofano (KOLTER e YA-
NOFSKY, 1982). Encontrado nos gemomas de V. mimicus, V. alginolyticus e V.
communis deste estudo.
Classifica¸ao desconhecida:
P26: Este ncRNA foi primeiramente encontrado em Pseudomonas aerugi-
nosa (Livny et al., 2006).
´
E conservado em muitas esp´ecies da classe Gamma-
proteobacteria e em muitos casos aparece localizado entre os genes rpoB (codifica
a subunidade beta da RNA polimerase) e rplL (codifica a prote´ına ribossomal
L7/L12) (Livny et al., 2006). Neste estudo, o P26 foi encontrado nos genomas de
V. mimicus, V. communis e V. campbellii, localizados entre os genes rpoB e rplL,
como descrito acima.
S15-leader: Controla a express˜ao da prote´ına ribossomal S15. Em E. coli,
a regi˜ao leader do mRNA que codifica a prote´ına ribossomal S15 pode formar es-
trutura secund´aria permitindo ou ao a tradu¸ao deste mRNA, regulando assim a
express˜ao da prote´ına ribossomal S15 (Benard et al., 1996). No presente estudo, o
S15-leader foi encontrado apenas no cromossomo I de V. campbellii.
66
Alfa RBS:
´
E uma regi˜ao de liga¸ao de ribossomo do operon alfa. O operon
alfa de E. coli cont´em os genes para prote´ınas ribossomais S13, S11, S4, subuni-
dade alfa da RNA polimerase e prote´ına ribossomal L17, nesta ordem. A prote´ına
ribossomal S4 atua como repressor traducional deste operon ao ligar-se a regi˜ao
Alfa RBS (SPEDDING e DRAPER, 1993). No presente estudo, o Alfa RBS foi
encontrado apenas no cromossomo I de V. campbellii.
Intron-gpII:
´
E uma ribozima. Este parece codificar prote´ınas para proces-
sar certos mRNAs de bact´erias, ou seja ao me parece ser um ncRNA!!!!!! (n˜ao
entendi) (Lehmann e Schmidt, 2003).
Este ´e o primeiro estudo sobre a diversidade de ncRNAs nos genomas de V.
alginolyticus 40B, V. campbellii ATCC BAA-1116, V. communis 1DA3 e V. mimi-
cus VM573. Fazendo uma an´alise global dos ncRNAs detectados em tais genomas,
podemos constatar que em muitos casos os genes adjacentes aos dos ncRNAs apre-
sentam algum padr˜ao de ocorrˆencia, que possivelmente justifique alguma rela¸ao
funcional entre eles. Em certos casos, como nos riboswitches e nos ncRNAs re-
guladores por t´ermino de transcri¸ao, os genes downstream ao os regulados pelo
ncRNA. Podemos observar tamem o caso de ncRNA que encontra-se adjacente ao
gene de seu ativador, como em GcvB. A an´alise realizada nesta sess˜ao demonstrou
que os ncRNAs detectados no presente trabalho apresentam uma ampla diversi-
dade de classes funcionais, estando possivelmente associados com a regula¸ao fina
de diferentes processos celulares e at´e participando de cascatas de regula¸ao glo-
bal, como ´e o caso do ncRNA RyhB. O grupo mais abundante de ncRNA foi o
riboswitch, enquanto que o menos abundante foi o ribonucleoproteina.
67
5.6 Express˜ao dos candidatos de ncRNAs em V. campbellii BAA-
1116
Na an´alise in silico foram identificados 38 ncRNAs candidatos em V. camp-
bellii BAA-1116. Destes 38, oito foram identificados como intron gpII. Todos os
intron gpII foram representados por somente um ´unico grupo de sondas, sendo
assim poss´ıvel a detec¸ao de apenas 31 ncRNAs usando o m´etodo de microarranjo
do genoma completo de V. campbellii BAA-1116. Cinco dos 31 ncRNAs foram pre-
viamente descritos como ncRNAs reguladores que participam no quorum sensing
(Qrr 1-5) Lenz et al. (2004) e (Tu e Bassler, 2007).
A an´alise experimental revelou que 21 dos 31 ncRNAs candidatos de V. camp-
bellii BAA-1116 foram expressos durante seu estado fisiol´ogico. Foi demonstrado
um alto n´ıvel de express˜ao em cinco dos ncRNAs candidatos (6S, tmRNA, TPP-2,
S15 e Alpha RBS), sendo que 6S RNA apresentou o mais alto n´ıvel de express˜ao
(figura 5.1). As tabelas 5.5 e 5.6 ilustram a express˜ao dos ncRNAs em V. camp-
bellii, realizada por colaboradores. Detalhes dos resultados das an´alises realizadas
utilizando a t´ecnica de microarranjo e RT-PCR ao encontrados nos resultados do
artigo, apˆendice C. Baseado nos resultados de valida¸ao experimental, parece que a
ferramenta cmsearch (do pacote infernal), com o parˆametro score cutoff de 34, foi
uma boa escolha na identifica¸ao de ncRNAs que j´a foram descritos e comprovados
em outros genomas.
68
Tabela 5.5: Tabela de express˜ao dos ncRNAs em V. campbellii BAA-1116 (cro-
mossomo I)
Cromossomo Tipo Subtipo Express˜ao
Cromossomo I
Riboswitches
Glicina -
Cobalamina +
Lisina-1 -
Lisina-2 -
TPP-1 +
TPP-2 +
GEMM RNA motif +
MOCO RNA motif -
CsrB-1 +
Moduladores da RNaseP bact a +
atividade de 6S +
prote´ına tmRNA +
Qrr-1 -
RNAs antisenso RyhB +
de ao Trans Spot 42 -
RNAs antisenso Yybp-ykoY -
de ao Cis GcvB +
Ribonucleoproteina SRP bact +
Regula¸ao por
t´ermino de Thr leader +
transcri¸ao
Desconhecido
S15 leader +
Alfa RBS +
P26 +
Intron gpII +
69
Tabela 5.6: Tabela de express˜ao dos ncRNAs em V. campbellii BAA-1116 (cro-
mossomo II)
Cromossomo Tipo Subtipo Express˜ao
Cromossomo II
Riboswitches
TPP +
FMN -
Purina +
Moduladores da atividade de prote´ına CsrB-2 +
Qrr-2 +
RNAs antisenso Qrr-3 -
de ao Trans Qrr-4 +
Qrr-5 -
70
Figura 5.1: Express˜ao de ncRNAs ao longo do tempo, utilizando PCR de transcri-
¸ao reversa.
71
Cap´ıtulo 6
Conclus˜oes e Trabalhos Futuros
A ferramenta cmsearch (do pacote infernal), com o parˆametro score cutoff de
34, utilizada neste trabalho pode ser considerada uma boa escolha para identificar,
em um dado genoma de bact´eria, ncRNAs anteriormente descritos e comprovados
em outros genomas; uma vez que dos 31 candidatos submetidos a valida¸ao expe-
rimental em V. campbellii BAA-1116, 21 foram comprovados.
O preprocessamento na base de dados do Rfam tornou-se fundamental para
otimizar as buscas de ncRNAs nesta base com o uso da ferramenta cmsearch. Foi
estimado uma redu¸ao no tempo de execu¸ao em 2.9 vezes em rela¸ao a base com-
pleta, aumentando consideravelmente o desempenho da busca.
A abundˆancia e a diversidade de ncRNAs nos genomas de vibrios sugerem
a importˆancia destas mol´eculas nas diversas vias metab´olicas e na resposta a est´ı-
mulos ambientais (Liu et al., 2009). O presente estudo demonstra que os vibrios
aqui estudados possuem v´arios tipos diferentes de ncRNAs e que muitos destes s˜ao
possivelmente respons´aveis pela regula¸ao fina da express˜ao gˆenica associadas a
diferentes respostas celulares e processos em vibrios.
Como trabalho futuro seria interessante validar experimentalmente os de-
mais ncRNAs candidatos encontrados nos genomas dos V. mimicus VM573, V.
72
alginolyticus 40B e V. communis 1DA3, gerados neste trabalho. Al´em disso, refa-
zer os experimentos in silico alterando os parˆametros do cmsearch com o intuito
de identificar o melhor parˆametro para esta an´alise.
Outro poss´ıvel trabalho futuro seria utilizar outras abordagens da bioinfor-
atica para identificar novos ncRNAs em vibrios que ainda ao tenham sido des-
critos em nenhum outro genoma.
73
Referˆencias Bibliogr´aficas
Rafi Ahmad, Erik Hjerde, Geir Asmund Hansen, Peik Haugen, e Nils-Peder Willas-
sen. Prediction and Experimental Testing of Ferric Uptake Regulator Regulons
in Vibrios. JOURNAL OF MOLECULAR MICROBIOLOGY AND
BIOTECHNOLOGY, 16(3-4):159–168, 2009. ISSN 1464-1801.
Elke Allers, Christina Niesner, Christian Wild, e Jakob Pernthaler. Microbes en-
riched in seawater after addition of coral mucus. APPLIED AND ENVI-
RONMENTAL MICROBIOLOGY, 74(10):3274–3278, MAY 2008. ISSN
0099-2240.
LGP Almeida, R Paixao, RC Souza, GC da Costa, FJA Barrientos, MT dos Santos,
DF de Almeida, e ATR Vasconcelos. A System for Automated Bacterial (ge-
nome) Integrated Annotation - SABIA. BIOINFORMATICS, 20(16):2832–
2833, NOV 1 2004. ISSN 1367-4803.
S. F. Altschul, W. Gish, W. Miller, E. W. Meyers, e D. J. Lipman. Basic local
alignment search tool. Journal of Molecular Biology, 215(3):403–410, 1990.
Shoshy Altuvia. Identification of bacterial small non-coding RNAs: experimental
approaches. CURRENT OPINION IN MICROBIOLOGY, 10(3):257–
261, JUN 2007. ISSN 1369-5274.
BN AMES, TH TSANG, M BUCK, e MF CHRISTMAN. THE LEADER
MESSENGER-RNA OF THE HISTIDINE ATTENUATOR REGION RE-
SEMBLES TRANSFER RNAHIS - POSSIBLE GENERAL REGULATORY
IMPLICATIONS. PROCEEDINGS OF THE NATIONAL ACA-
74
DEMY OF SCIENCES OF THE UNITED STATES OF AMERICA-
BIOLOGICAL SCIENCES, 80(17):5240–5242, 1983. ISSN 0027-8424.
M. Ansaruzzaman, Ashrafuzzaman Chowdhury, Nurul A. Bhuiyan, Marzia Sul-
tana, Ashrafus Safa, Marcelino Lucas, Lorenz von Seidlein, Avertino Barreto,
Claire-Lise Chaignat, David A. Sack, John D. Clemens, G. Balakrish Nair,
Seon Young Choi, Yoon Seong Jeon, Je Hee Lee, Hye Ri Lee, Jongsik Chun,
e Dong Wook Kim. Characteristics of a pandemic clone of O3: K6 and O4: K68
Vibrio parahaemolyticus isolated in Beira, Mozambique. JOURNAL OF ME-
DICAL MICROBIOLOGY, 57(12):1502–1507, DEC 2008. ISSN 0022-2615.
Luis Caetano M. Antunes, Amy L. Schaefer, Rosana B. R. Ferreira, Nan Qin,
Ann M. Stevens, Edward G. Ruby, e E. Peter Greenberg. Transcriptome analy-
sis of the Vibrio fischeri LuxR-LuxI regulon. JOURNAL OF BACTERIO-
LOGY, 189(22):8387–8391, NOV 2007. ISSN 0021-9193.
L Argaman e S Altuvia. fhlA repression by OxyS RNA: Kissing complex formation
at two sites results in a stable antisense-target RNA complex. JOURNAL OF
MOLECULAR BIOLOGY, 300(5):1101–1112, JUL 28 2000. ISSN 0022-
2836.
B. Austin. Vibrios as causal agents of zoonoses. VETERINARY MICROBI-
OLOGY, 140(3-4, Sp. Iss. SI):310–317, JAN 27 2010. ISSN 0378-1135.
B. Austin e X-H. Zhang. Vibrio harveyi: a significant pathogen of marine verte-
brates and invertebrates. LETTERS IN APPLIED MICROBIOLOGY,
43(2):119–124, AUG 2006. ISSN 0266-8254.
Paul Babitzke e Tony Romeo. CsrB sRNA family: sequestration of RNA-binding
regulatory proteins. CURRENT OPINION IN MICROBIOLOGY, 10(2):
156–163, APR 2007. ISSN 1369-5274.
JE Barrick, KA Corbino, WC Winkler, A Nahvi, M Mandal, J Collins, M Lee,
A Roth, N Sudarsan, I Jona, JK Wickiser, e RR Breaker. New RNA motifs
75
suggest an expanded scope for riboswitches in bacterial genetic control. PRO-
CEEDINGS OF THE NATIONAL ACADEMY OF SCIENCES OF
THE UNITED STATES OF AMERICA, 101(17):6421–6426, APR 27 2004.
ISSN 0027-8424.
JE Barrick, N Sudarsan, Z Weinberg, WL Ruzzo, e RR Breaker. 6S RNA is a
widespread regulator of eubacterial RNA polymerase that resembles an open
promoter. RNA-A PUBLICATION OF THE RNA SOCIETY, 11(5):
774–784, MAY 2005. ISSN 1355-8382.
Y Ben-Haim, FL Thompson, CC Thompson, MC Cnockaert, B Hoste, J Swings, e
E Rosenberg. Vibrio coralliilyticus sp nov., a temperature-dependent pathogen
of the coral Pocillopora damicornis. INTERNATIONAL JOURNAL OF
SYSTEMATIC AND EVOLUTIONARY MICROBIOLOGY, 53(Part
1):309–315, JAN 2003. ISSN 1466-5026.
L Benard, C Philippe, B Ehresmann, C Ehresmann, e C Portier. Pseudoknot and
translational control in the expression of the S15 ribosomal protein. BIOCHI-
MIE, 78(7):568–576, 1996. ISSN 0300-9084.
David Bourne, Yuki Iida, Sven Uthicke, e Carolyn Smith-Keune. Changes in coral-
associated microbial communities during a bleaching event. ISME JOURNAL,
2(4):350–363, APR 2008. ISSN 1751-7362.
DJ BRENNER, FW HICKMANBRENNER, JV LEE, AG STEIGERWALT,
GR FANNING, DG HOLLIS, JJ FARMER, RE WEAVER, SW JOSEPH, e RJF
SEIDLER. VIBRIO-FURNISSII (FORMERLY AEROGENIC BIOGROUP OF
VIBRIO-FLUVIALIS), A NEW SPECIES ISOLATED FROM HUMAN FECES
AND THE ENVIRONMENT. JOURNAL OF CLINICAL MICROBIO-
LOGY, 18(4):816–824, 1983. ISSN 0095-1137.
JW Brown. The Ribonuclease P Database. NUCLEIC ACIDS RESEARCH,
27(1):314, JAN 1 1999. ISSN 0305-1048.
76
M Camara, A Hardman, P Williams, e D Milton. Quorum sensing in Vibrio
cholerae. NATURE GENETICS, 32(2):217–218, OCT 2002. ISSN 1061-4036.
AM CARNAHAN, J HARDING, D WATSKY, e S HANSMAN. IDENTIFICA-
TION OF VIBRIO-HOLLISAE ASSOCIATED WITH SEVERE GASTROEN-
TERITIS AFTER CONSUMPTION OF RAW OYSTERS. JOURNAL OF
CLINICAL MICROBIOLOGY, 32(7):1805–1806, JUL 1994. ISSN 0095-
1137.
Brandon M. Childers e Karl E. Klose. Regulation of virulence in Vibrio cholerae:
the ToxR regulon. FUTURE MICROBIOLOGY, 2(3):335–344, JUN 2007.
ISSN 1746-0913.
LA Chimetto, I Cleenwerck, N Jr Alves, BS Silva, M Brocchi, A Willems, P De Vos,
e FL Thompson. Vibrio communis sp. nov. isolated from marine animals (Mussis-
milia hispida, Phyllogorgia dilatata, Palythoa caribaeorum, Palythoa variabilis
and Litopenaeus vannamei). Int J Syst Evol Microbiol, 2010.
Seung-Hak Cho, Hyun-Ho Shin, Yeon-Hwa Choi, Mi-Sun Park, e Bok-Kwon Lee.
Enteric bacteria isolated from acute diarrheal patients in the Republic of Korea
between the year 2004 and 2006. JOURNAL OF MICROBIOLOGY, 46
(3):325–330, JUN 2008. ISSN 1225-8873.
MT Cottrell e DL Kirchman. Contribution of major bacterial groups to bacterial
biomass production (thymidine and leucine incorporation) in the Delaware estu-
ary. LIMNOLOGY AND OCEANOGRAPHY, 48(1):168–178, JAN 2003.
ISSN 0024-3590.
ME Davey e GA O’toole. Microbial biofilms: from ecology to molecular genetics.
MICROBIOLOGY AND MOLECULAR BIOLOGY REVIEWS, 64(4):
847+, DEC 2000. ISSN 1092-2172.
BM Davis, M Quinones, J Pratt, YP Ding, e MK Waldor. Characterization of the
77
small untranslated RNA RyhB and its regulon in Vibrio cholerae. JOURNAL
OF BACTERIOLOGY, 187(12):4005–4014, JUN 2005. ISSN 0021-9193.
BR DAVIS, GR FANNING, JM MADDEN, AG STEIGERWALT, HB BRAD-
FORD, HL SMITH, e DJ BRENNER. CHARACTERIZATION OF BIOCHE-
MICALLY ATYPICAL VIBRIO-CHOLERAE STRAINS AND DESIGNATION
OF A NEW PATHOGENIC SPECIES, VIBRIO-MIMICUS. JOURNAL OF
CLINICAL MICROBIOLOGY, 14(6):631–639, 1981. ISSN 0095-1137.
CG De Oliveira. Regula¸ao gˆenica da bioss´ıntese de violace´ına e quorum
sensing em Chromobacterium violaceum. Tese de Doutorado, Engenharia
Qu´ımica da UFSC, 2005.
Tom Defoirdt, Nico Boon, Patrick Sorgeloos, Willy Verstraete, e Peter Bossier.
Quorum sensing and quorum quenching in Vibrio harveyi: lessons learned from
in vivo work. ISME JOURNAL, 2(1):19–26, JAN 2008. ISSN 1751-7362.
A DePaola, J Ulaszek, CA Kaysner, BJ Tenge, JL Nordstrom, J Wells, N Puhr,
e SM Gendel. Molecular, serological, and virulence characteristics of Vibrio pa-
rahaemolyticus isolated from environmental, food, and clinical sources in north
America and Asia. APPLIED AND ENVIRONMENTAL MICROBIO-
LOGY, 69(7):3999–4005, JUL 2003. ISSN 0099-2240.
Elizabeth A. Dinsdale, Olga Pantos, Steven Smriga, Robert A. Edwards, Florent
Angly, Linda Wegley, Mark Hatay, Dana Hall, Elysa Brown, Matthew Haynes,
Lutz Krause, Enric Sala, Stuart A. Sandin, Rebecca Vega Thurber, Bette L.
Willis, Farooq Azam, Nancy Knowlton, e Forest Rohwer. Microbial Ecology of
Four Coral Atolls in the Northern Line Islands. PLOS ONE, 3(2), FEB 27
2008. ISSN 1932-6203.
Stephenie L. Drake, Angelo DePaola, e Lee-Ann Jaykus. An overview of Vibrio
vulnificus and Vibrio parahaemolyticus. COMPREHENSIVE REVIEWS
78
IN FOOD SCIENCE AND FOOD SAFETY, 6(4):120–144, OCT 2007.
ISSN 1541-4337.
Daniel Dulebohn, Jennifer Choy, Thomas Sundermeier, Nihal Okan, e A. Wali
Karzai. Trans-translation: The tmRNA-mediated surveillance mechanism for
ribosome rescue, directed protein degradation, and nonstop mRNA decay. BI-
OCHEMISTRY, 46(16):4681–4693, APR 24 2007. ISSN 0006-2960.
S Eddy. Infernal user’s guide: sequence analysis using profiles of rna secondary
structure consensus. http://infernal.janelia.org, 2007.
SR Eddy. The infernal users guide. http://infernal.janelia.org, 2003.
SR EDDY e R DURBIN. RNA SEQUENCE-ANALYSIS USING COVARIANCE-
MODELS. NUCLEIC ACIDS RESEARCH, 22(11):2079–2088, JUN 11
1994. ISSN 0305-1048.
Brenner F.W. Cameron D.N. Birkhead K.M. Farmer J.J. III, Janda M. Genus I.
Vibrio Pacini 1854. In: Bergey’s Manual of Systematic Bacteriology.
New York: Springer, 2005.
P M Fidopiastis, S von Boletzky, e E G Ruby. A new niche
for vibrio logei, the predominant light organ symbiont of squids in
the genus sepiola. J Bacteriol, 180(1):59–64, 1998. ISSN 0021-
9193. URL http://www.biomedsearch.com/nih/new-niche-Vibrio-logei-
predominant/9422593.html.
DN Frank e NR Pace. Ribonuclease P: Unity and diversity in a tRNA processing
ribozyme. ANNUAL REVIEW OF BIOCHEMISTRY, 67:153–180, 1998.
ISSN 0066-4154.
Eva K. Freyhult, Jonathan P. Bollback, e Paul P. Gardner. Exploring genomic dark
matter: A critical assessment of the performance of homology search methods on
noncoding RNA. GENOME RESEARCH, 17(1):117–125, JAN 2007. ISSN
1088-9051.
79
R FRUNZIO, CB BRUNI, e F BLASI. INVIVO AND INVITRO DETECTION
OF THE LEADER RNA OF THE HISTIDINE OPERON OF ESCHERICHIA-
COLI K-12. PROCEEDINGS OF THE NATIONAL ACADEMY
OF SCIENCES OF THE UNITED STATES OF AMERICA-
BIOLOGICAL SCIENCES, 78(5):2767–2771, 1981. ISSN 0027-8424.
MS Gelfand, AA Mironov, J Jomantas, YI Kozlov, e DA Perumov. A conserved
RNA structure element involved in the regulation of bacterial riboflavin synthesis
genes. TRENDS IN GENETICS, 15(11):439–442, NOV 1999. ISSN 0168-
9525.
N Gonzalez-Escalona, V Cachicas, C Acevedo, ML Rioseco, JA Vergara, F Cabello,
J Romero, e RT Espejo. Vibrio parahaemolyticus diarrhea, Chile, 1998 and 2004.
EMERGING INFECTIOUS DISEASES, 11(1):129–131, JAN 2005. ISSN
1080-6040.
S Gottesman. Micros for microbes: non-coding regulatory RNAs in bacteria.
TRENDS IN GENETICS, 21(7):399–404, JUL 2005. ISSN 0168-9525.
S Griffiths-Jones, A Bateman, M Marshall, A Khanna, e SR Eddy. Rfam: an RNA
family database. NUCLEIC ACIDS RESEARCH, 31(1):439–441, JAN 1
2003. ISSN 0305-1048.
BK Hammer e BL Bassler. Quorum sensing controls biofilm formation in Vibrio
cholerae. MOLECULAR MICROBIOLOGY, 50(1):101–114, OCT 2003.
ISSN 0950-382X.
BP Hedlund e JT Staley. Vibrio cyclotrophicus sp nov., a polycyclic aroma-
tic hydrocarbon (PAH)-degrading marine bacterium. INTERNATIONAL
JOURNAL OF SYSTEMATIC AND EVOLUTIONARY MICROBI-
OLOGY, 51(Part 1):61–66, JAN 2001. ISSN 1466-5026.
JF Heidelberg, KB Heidelberg, e RR Colwell. Bacteria of the gamma-subclass
Proteobacteria associated with zooplankton in Chesapeake Bay. APPLIED
80
AND ENVIRONMENTAL MICROBIOLOGY, 68(11):5498–5507, NOV
2002. ISSN 0099-2240.
S HENIKOFF e JG HENIKOFF. AMINO-ACID SUBSTITUTION MATRICES
FROM PROTEIN BLOCKS. PROCEEDINGS OF THE NATIONAL
ACADEMY OF SCIENCES OF THE UNITED STATES OF AME-
RICA, 89(22):10915–10919, NOV 15 1992. ISSN 0027-8424.
JM Henke e BL Bassler. Quorum sensing regulates type III secretion in Vibrio
harveyi and Vibrio parahaemolyticus. JOURNAL OF BACTERIOLOGY,
186(12):3794–3805, JUN 2004. ISSN 0021-9193.
IL Hofacker, M Fekete, e PF Stadler. Secondary structure prediction for aligned
RNA sequences. JOURNAL OF MOLECULAR BIOLOGY, 319(5):1059–
1066, JUN 21 2002. ISSN 0022-2836.
IL HOFACKER, W FONTANA, PF STADLER, LS BONHOEFFER, M TAC-
KER, e P SCHUSTER. FAST FOLDING AND COMPARISON OF RNA SE-
CONDARY STRUCTURES. MONATSHEFTE FUR CHEMIE, 125(2):
167–188, FEB 1994. ISSN 0026-9247.
F JACOB e J MONOD. GENETIC REGULATORY MECHANISMS IN
SYNTHESIS OF PROTEINS. JOURNAL OF MOLECULAR BIOLOGY,
3(3):318–&, 1961. ISSN 0022-2836.
Ye Jin, Rory M. Watt, Antoine Danchin, e Jian-dong Huang. Small noncoding
RNA GcvB is a novel regulator of acid resistance in Escherichia coli. BMC
GENOMICS, 10, APR 20 2009. ISSN 1471-2164.
M Kawano, AA Reynolds, J Miranda-Rios, e G Storz. Detection of 5’- and 3’-
UTR-derived small RNAs and cis-encoded antisense RNAs in Escherichia coli.
NUCLEIC ACIDS RESEARCH, 33(3):1040–1050, 2005. ISSN 0305-1048.
81
Kenneth C. Keiler. Physiology of tmRNA: what gets tagged and why? CUR-
RENT OPINION IN MICROBIOLOGY, 10(2):169–175, APR 2007. ISSN
1369-5274.
RJ Klein e SR Eddy. RSEARCH: Finding homologs of single structured RNA
sequences. BMC BIOINFORMATICS, 4, SEP 22 2003. ISSN 1471-2105.
R KOLTER e C YANOFSKY. ATTENUATION IN AMINO-ACID BIOSYNTHE-
TIC OPERONS. ANNUAL REVIEW OF GENETICS, 16:113–134, 1982.
ISSN 0066-4197.
Prajna R. Kulkarni, Xiaohui Cui, Joshua W. Williams, Ann M. Stevens, e Rahul V.
Kulkarni. Prediction of CsrA-regulating small RNAs in bacteria and their expe-
rimental verification in Vibrio fischeri. NUCLEIC ACIDS RESEARCH, 34
(11):3361–3369, 2006. ISSN 0305-1048.
Miyun Kwon e Scott A. Strobel. Chemical basis of glycine riboswitch cooperativity.
RNA-A PUBLICATION OF THE RNA SOCIETY, 14(1):25–34, JAN
2008. ISSN 1355-8382.
K Lehmann e U Schmidt. Group II introns: Structure and catalytic versatility of
large natural ribozymes. CRITICAL REVIEWS IN BIOCHEMISTRY
AND MOLECULAR BIOLOGY, 38(3):249–303, 2003. ISSN 1040-9238.
DH Lenz, KC Mok, BN Lilley, RV Kulkarni, NS Wingreen, e BL Bassler. The
small RNA chaperone Hfq and multiple small RNAs control quorum sensing in
Vibrio harveyi and Vibrio cholerae. CELL, 118(1):69–82, JUL 9 2004. ISSN
0092-8674.
BN Lilley e BL Bassler. Regulation of quorum sensing in Vibrio harveyi by LuxO
and Sigma-54. MOLECULAR MICROBIOLOGY, 36(4):940–954, MAY
2000. ISSN 0950-382X.
CN Liu, BY Bai, G Skogerbo, L Cai, W Deng, Y Zhang, DB Bu, Y Zhao, e
RS Chen. NONCODE: an integrated knowledge database of non-coding RNAs.
82
NUCLEIC ACIDS RESEARCH, 33(Sp. Iss. SI):D112–D115, JAN 1 2005.
ISSN 0305-1048.
Jane M. Liu, Jonathan Livny, Michael S. Lawrence, Marc D. Kimball, Matthew K.
Waldor, e Andrew Camilli. Experimental discovery of sRNAs in Vibrio cholerae
by direct cloning, 5S/tRNA depletion and parallel sequencing. NUCLEIC
ACIDS RESEARCH, 37(6), APR 2009. ISSN 0305-1048.
MY Liu, GJ Gui, BD Wei, JF Preston, L Oakford, U Yuksel, DP Giedroc, e T Ro-
meo. The RNA molecule CsrB binds to the global regulatory protein CsrA and
antagonizes its activity in Escherichia coli. JOURNAL OF BIOLOGICAL
CHEMISTRY, 272(28):17502–17510, JUL 11 1997. ISSN 0021-9258.
J Livny, MA Fogel, BM Davis, e MK Waldor. sRNAPredict: an integrative compu-
tational approach to identify sRNAs in bacterial genomes. NUCLEIC ACIDS
RESEARCH, 33(13):4096–4105, 2005. ISSN 0305-1048.
Jonathan Livny, Anja Brencic, Stephen Lory, e Matthew K. Waldor. Identification
of 17 Pseudomonas aeruginosa sRNAs and prediction of sRNA-encoding genes
in 10 diverse pathogens using the bioinformatic tool sRNAPredict2. NUCLEIC
ACIDS RESEARCH, 34(12):3484–3493, 2006. ISSN 0305-1048.
N Majdalani, C Cunning, D Sledjeski, T Elliott, e S Gottesman. DsrA RNA regu-
lates translation of RpoS message by an anti-antisense mechanism, independent
of its action as an antisilencer of transcription. PROCEEDINGS OF THE
NATIONAL ACADEMY OF SCIENCES OF THE UNITED STATES
OF AMERICA, 95(21):12462–12467, OCT 13 1998. ISSN 0027-8424.
M Mandal, B Boese, JE Barrick, WC Winkler, e RR Breaker. Riboswitches con-
trol fundamental biochemical pathways in Bacillus subtilis and other bacteria.
CELL, 113(5):577–586, MAY 30 2003. ISSN 0092-8674.
M Mandal, M Lee, JE Barrick, Z Weinberg, GM Emilsson, WL Ruzzo, e RR Bre-
aker. A glycine-dependent riboswitch that uses cooperative binding to control
83
gene expression (vol 306, pg, 275, 2004). SCIENCE, 306(5701):1477, NOV 26
2004. ISSN 0036-8075.
M Manefield, L Harris, SA Rice, R De Nys, e S Kjelleberg. Inhibition of lu-
minescence and virulence in the black tiger prawn (Penaeus monodon) patho-
gen Vibrio harveyi by intercellular signal antagonists. APPLIED AND EN-
VIRONMENTAL MICROBIOLOGY, 66(5):2079–2084, MAY 2000. ISSN
0099-2240.
JH Martens, H Barg, MJ Warren, e D Jahn. Microbial production of vitamin
B-12. APPLIED MICROBIOLOGY AND BIOTECHNOLOGY, 58(3):
275–285, MAR 2002. ISSN 0175-7598.
E Masse e S Gottesman. A small RNA regulates the expression of genes involved
in iron metabolism in Escherichia coli. PROCEEDINGS OF THE NATI-
ONAL ACADEMY OF SCIENCES OF THE UNITED STATES OF
AMERICA, 99(7):4620–4625, APR 2 2002. ISSN 0027-8424.
D McDougald, SA Rice, e S Kjellberg. The marine pathogen Vibrio vulnificus
encodes a putative homologue of the Vibrio harveyi regulatory gene, luxR: a
genetic and phylogenetic comparison. GENE, 248(1-2):213–221, MAY 2 2000.
ISSN 0378-1119.
MB Miller e BL Bassler. Quorum sensing in bacteria. ANNUAL REVIEW OF
MICROBIOLOGY, 55:165–199, 2001. ISSN 0066-4227.
DL Milton, A Hardman, M Camara, SR Chhabra, BW Bycroft, GSAB Stewart,
e P Williams. Quorum sensing in Vibrio anguillarum: Characterization of
the vanI/vanR locus and identification of the autoinducer N-(3-oxodecanoyl)-L-
homoserine lactone. JOURNAL OF BACTERIOLOGY, 179(9):3004–3012,
MAY 1997. ISSN 0021-9193.
Qi MingSheng, Luo Li, Cheng HaiPing, Zhu Jiabi, e Yu GuanQiao. Identification
84
and characterization of two gcvA genes in Sinorhizobium meliloti. CHINESE
SCIENCE BULLETIN, 54(3):405–411, FEB 2009. ISSN 1001-6538.
T MIZUNO, MY CHOU, e M INOUYE. A UNIQUE MECHANISM REGULA-
TING GENE-EXPRESSION - TRANSLATIONAL INHIBITION BY A COM-
PLEMENTARY RNA TRANSCRIPT (MICRNA). PROCEEDINGS OF
THE NATIONAL ACADEMY OF SCIENCES OF THE UNITED
STATES OF AMERICA-BIOLOGICAL SCIENCES, 81(7):1966–1970,
1984. ISSN 0027-8424.
Tamaki Mizuno, Syed Z. Sultan, Yoshimi Kaneko, Tomonaga Yoshimura, Yoko Ma-
ehara, Hiroshi Nakao, Tomofusa Tsuchiya, Sumio Shinoda, e Shin-ichi Miyoshi.
Modulation of Vibrio mimicus hemolysin through limited proteolysis by an endo-
genous metalloprotease. FEBS JOURNAL, 276(3):825–834, FEB 2009. ISSN
1742-464X.
T Moller, T Franch, C Udesen, K Gerdes, e P Valentin-Hansen. Spot 42 RNA
mediates discoordinate expression of the E-coli galactose operon. GENES &
DEVELOPMENT, 16(13):1696–1706, JUL 1 2002. ISSN 0890-9369.
Sean D. Moore e Robert T. Sauer. The tmRNA system for translational surveil-
lance and ribosome rescue. ANNUAL REVIEW OF BIOCHEMISTRY,
76:101–124, 2007. ISSN 0066-4154.
KH NEALSON, T PLATT, e JW HASTINGS. CELLULAR CONTROL OF
SYNTHESIS AND ACTIVITY OF BACTERIAL LUMINESCENT SYSTEM.
JOURNAL OF BACTERIOLOGY, 104(1):313–&, 1970. ISSN 0021-9193.
DS Nichols. Prokaryotes and the input of polyunsaturated fatty acids to the marine
food web. FEMS MICROBIOLOGY LETTERS, 219(1):1–7, FEB 14 2003.
ISSN 0378-1097.
Michele K. Nishiguchi. Temperature affects species distribu-
85
tion in symbiotic populations of vibrio spp. 2000. URL
http://www.pubmedcentral.gov/articlerender.fcgi?artid=92184.
N Okuda, M Ishibashi, E Hayakawa, T Nishino, Y Takeda, AK Mukhopadhyay,
S Garg, SK Bhattacharya, GB Nair, e M Nishibuchi. Emergence of a unique
O3:K6 clone of Vibrio parahaemolyticus in Calcutta, India, and isolation of
strains from the same clonal group from Southeast Asian travelers arriving in
Japan. JOURNAL OF CLINICAL MICROBIOLOGY, 35(12):3150–3155,
DEC 1997. ISSN 0095-1137.
DA POLAYES, PW RICE, e JE DAHLBERG. DNA-POLYMERASE-I ACTI-
VITY IN ESCHERICHIA-COLI IS INFLUENCED BY SPOT-42 RNA. JOUR-
NAL OF BACTERIOLOGY, 170(5):2083–2088, MAY 1988. ISSN 0021-
9193.
Tonya K. Rawlings, Gregory M. Ruiz, e Rita R. Colwell. Association of Vibrio cho-
lerae O1 El Tor and O139 Bengal with the copepods Acartia tonsa and Euryte-
mora affinis. APPLIED AND ENVIRONMENTAL MICROBIOLOGY,
73(24):7926–7933, DEC 2007. ISSN 0099-2240.
M Regalia, MA Rosenblad, e T Samuelsson. Prediction of signal recognition par-
ticle RNA genes. NUCLEIC ACIDS RESEARCH, 30(15):3368–3377, AUG
1 2002. ISSN 0305-1048.
Elizabeth E. Regulski, Ryan H. Moy, Zasha Weinberg, Jeffrey E. Barrick, Zizhen
Yao, Walter L. Ruzzo, e Ronald R. Breaker. A widespread riboswitch candidate
that controls bacterial genes involved in molybdenum cofactor and tungsten
cofactor metabolism. MOLECULAR MICROBIOLOGY, 68(4):918–932,
MAY 2008. ISSN 0950-382X.
L Riemann e F Azam. Widespread N-acetyl-D-glucosamine uptake among pela-
gic marine bacteria and its ecological implications. APPLIED AND ENVI-
86
RONMENTAL MICROBIOLOGY, 68(11):5554–5562, NOV 2002. ISSN
0099-2240.
E Rivas e SR Eddy. Noncoding rna gene detection using comparative sequence
analysis. BMC Bioinformatics, aginas 2–8, 2001.
T Romeo. Global regulation by the small RNA-binding protein CsrA and the
non-coding RNA molecule CsrB. MOLECULAR MICROBIOLOGY, 29
(6):1321–1330, SEP 1998. ISSN 0950-382X.
E Rosenberg e L Falkovitz. The Vibrio shiloi/Oculina patagonica model system of
coral bleaching. ANNUAL REVIEW OF MICROBIOLOGY, 58:143–159,
2004. ISSN 0066-4227.
EG Ruby. Lessons from a cooperative, bacterial-animal association: The Vibrio
fischeri Euprymna scolopes light organ symbiosis. ANNUAL REVIEW OF
MICROBIOLOGY, 50:591–624, 1996. ISSN 0066-4227.
Y SAKAKIBARA, M BROWN, R HUGHEY, IS MIAN, K SJOLANDER, RC UN-
DERWOOD, e D HAUSSLER. STOCHASTIC CONTEXT-FREE GRAM-
MARS FOR TRANSFER-RNA MODELING. NUCLEIC ACIDS RESE-
ARCH, 22(23):5112–5120, NOV 25 1994. ISSN 0305-1048.
A Salomaa. Formal Languages. 1987.
A Serganov, YR Yuan, O Pikovskaya, A Polonskaia, L Malinina, AT Phan, C Ho-
bartner, R Micura, RR Breaker, e DJ Patel. Structural basis for discriminative
regulation of gene expression by adenine- and guanine-sensing mRNAs. CHE-
MISTRY & BIOLOGY, 11(12):1729–1741, DEC 2004. ISSN 1074-5521.
KT SHANMUGAM, V STEWART, RP GUNSALUS, DH BOXER, JA COLE,
M CHIPPAUX, JA DEMOSS, G GIORDANO, ECC LIN, e KV RAJA-
GOPALAN. PROPOSED NOMENCLATURE FOR THE GENES INVOL-
VED IN MOLYBDENUM METABOLISM IN ESCHERICHIA-COLI AND
87
SALMONELLA-TYPHIMURIUM. MOLECULAR MICROBIOLOGY, 6
(22):3452–3454, NOV 1992. ISSN 0950-382X.
EB Sherr e BF Sherr. Significance of predation by protists in aquatic microbial
food webs. ANTONIE VAN LEEUWENHOEK INTERNATIONAL
JOURNAL OF GENERAL AND MOLECULAR MICROBIOLOGY,
81(1-4):293–308, 2002. ISSN 0003-6072.
Simmons MJ Snustad D.P. Fundamentos de Gen´etica (4 ed.). 2008.
Tianyan Song, Franziska Mika, Barbro Lindmark, Zhi Liu, Stefan Schild, Anne
Bishop, Jun Zhu, Andrew Camilli, Joergen Johansson, Joerg Vogel, e Sun Nyunt
Wai. A new Vibrio cholerae sRNA modulates colonization and affects release
of outer membrane vesicles. MOLECULAR MICROBIOLOGY, 70(1):100–
111, OCT 2008. ISSN 0950-382X.
G SPEDDING e DE DRAPER. ALLOSTERIC MECHANISM FOR TRANS-
LATIONAL REPRESSION IN THE ESCHERICHIA-COLI ALPHA-OPERON.
PROCEEDINGS OF THE NATIONAL ACADEMY OF SCIENCES
OF THE UNITED STATES OF AMERICA, 90(10):4399–4403, MAY 15
1993. ISSN 0027-8424.
L. Stryer. Bioquimica (3 ed.). 1992.
N. Sudarsan, E. R. Lee, Z. Weinberg, R. H. Moy, J. N. Kim, K. H. Link, e R. R.
Breaker. Riboswitches in eubacteria sense the second messenger cyclic di-GMP.
SCIENCE, 321(5887):411–413, JUL 18 2008. ISSN 0036-8075.
N Sudarsan, JK Wickiser, S Nakamura, MS Ebert, e RR Breaker. An mRNA
structure in bacteria that controls gene expression by binding lysine. GENES
& DEVELOPMENT, 17(21):2688–2697, NOV 1 2003. ISSN 0890-9369.
W Suginta, A Vongsuwan, C Songsiriritthigul, H Prinz, P Estibeiro, RR Duncan,
J Svasti, e LA Fothergill-Gilmore. An endochitinase A from Vibrio carchariae:
88
cloning, expression, mass and sequence analyses, and chitin hydrolysis. AR-
CHIVES OF BIOCHEMISTRY AND BIOPHYSICS, 424(2):171–180,
APR 15 2004. ISSN 0003-9861.
ME Taga e BL Bassler. Chemical communication among bacteria. PROCEE-
DINGS OF THE NATIONAL ACADEMY OF SCIENCES OF THE
UNITED STATES OF AMERICA, 100(Suppl. 2):14549–14554, NOV 25
2003. ISSN 0027-8424.
Akira Takahashi, Shin-ichi Miyoshi, Noriko Takata, Masayuki Nakano, Akiko Ha-
mamoto, Kazuaki Mawatari, Nagakatsu Harada, Sumio Shinoda, e Yutaka Na-
kaya. Haemolysin produced by Vibrio mimicus activates two Cl- secretory
pathways in cultured intestinal-like Caco-2 cells. CELLULAR MICROBI-
OLOGY, 9(3):583–595, MAR 2007. ISSN 1462-5814.
F TETART e JP BOUCHE. REGULATION OF THE EXPRESSION OF THE
CELL-CYCLE GENE FTSZ BY DICF ANTISENSE RNA - DIVISION DOES
NOT REQUIRE A FIXED NUMBER OF FTSZ MOLECULES. MOLECU-
LAR MICROBIOLOGY, 6(5):615–620, MAR 1992. ISSN 0950-382X.
Kimberly C. Tu e Bonnie L. Bassler. Multiple small RNAs act additively to inte-
grate sensory information and control quorum sensing in Vibrio harveyi. GE-
NES & DEVELOPMENT, 21(2):221–233, JAN 15 2007. ISSN 0890-9369.
ML Urbanowski, LT Stauffer, e GV Stauffer. The gcvB gene encodes a small un-
translated RNA involved in expression of the dipeptide and oligopeptide trans-
port systems in Escherichia coli. MOLECULAR MICROBIOLOGY, 37(4):
856–868, AUG 2000. ISSN 0950-382X.
AG Vitreschak, DA Rodionov, AA Mironov, e MS Gelfand. Regulation of the
vitamin B-12 metabolism and transport in bacteria by a conserved RNA struc-
tural element. RNA-A PUBLICATION OF THE RNA SOCIETY, 9(9):
1084–1097, SEP 2003. ISSN 1355-8382.
89
J Vogel, V Bartels, TH Tang, G Churakov, JG Slagter-Jager, A Huttenhofer,
e EGH Wagner. RNomics in Escherichia coli detects new sRNA species and
indicates parallel transcriptional output in bacteria. NUCLEIC ACIDS RE-
SEARCH, 31(22):6435–6443, NOV 15 2003. ISSN 0305-1048.
Joerg Vogel e Kai Papenfort. Small non-coding RNAs and the bacterial outer
membrane. CURRENT OPINION IN MICROBIOLOGY, 9(6):605–611,
DEC 2006. ISSN 1369-5274.
EGH WAGNER e RW SIMONS. ANTISENSE RNA CONTROL IN BACTE-
RIA, PHAGES, AND PLASMIDS. ANNUAL REVIEW OF MICROBIO-
LOGY, 48:713–742, 1994. ISSN 0066-4227.
S. WASHIETL. Rnaz: Predicting structural noncoding rnas. Department for
Theoretical Chemistry/University Vienna, 2006.
KM Wassarman, AX Zhang, e G Storz. Small RNAs in Escherichia coli. TRENDS
IN MICROBIOLOGY, 7(1):37–45, JAN 1999. ISSN 0966-842X.
Lauren S. Waters e Gisela Storz. Regulatory RNAs in Bacteria. CELL, 136(4):
615–628, FEB 20 2009. ISSN 0092-8674.
Zasha Weinberg, Jeffrey E. Barrick, Zizhen Yao, Adam Roth, Jane N. Kim, Jeremy
Gore, Joy Xin Wang, Elaine R. Lee, Kirsten F. Block, Narasimhan Sudarsan,
Shane Neph, Martin Tompa, Walter L. Ruzzo, e Ronald R. Breaker. Identifica-
tion of 22 candidate structured RNAs in bacteria using the CMfinder compara-
tive genomics pipeline. NUCLEIC ACIDS RESEARCH, 35(14):4809–4819,
JUL 2007. ISSN 0305-1048.
W Winkler, A Nahvi, e RR Breaker. Thiamine derivatives bind messenger RNAs
directly to regulate bacterial gene expression. NATURE, 419(6910):952–956,
OCT 31 2002. ISSN 0028-0836.
K Yamane, J Asato, N Kawade, H Takahashi, B Kimura, e Y Arakawa. Two
cases of fatal necrotizing fasciitis caused by Photobacterium damsela in Japan.
90
JOURNAL OF CLINICAL MICROBIOLOGY, 42(3):1370–1372, MAR
2004. ISSN 0095-1137.
Fitnat H. Yildiz e Karen L. Visick. Vibrio biofilms: so much the same yet so dif-
ferent. TRENDS IN MICROBIOLOGY, 17(3):109–118, MAR 2009. ISSN
0966-842X.
AX Zhang, KM Wassarman, C Rosenow, BC Tjaden, G Storz, e S Gottesman.
Global analysis of small RNA and mRNA targets of Hfq. MOLECULAR
MICROBIOLOGY, 50(4):1111–1124, NOV 2003. ISSN 0950-382X.
J Zhu e JJ Mekalanos. Quorum sensing-dependent biofilms enhance colonization
in Vibrid cholerae. DEVELOPMENTAL CELL, 5(4):647–656, OCT 2003.
ISSN 1534-5807.
J Zhu, MB Miller, RE Vance, M Dziejman, BL Bassler, e JJ Mekalanos. Quorum-
sensing regulators control virulence gene expression in Vibrio cholerae. PRO-
CEEDINGS OF THE NATIONAL ACADEMY OF SCIENCES OF
THE UNITED STATES OF AMERICA, 99(5):3129–3134, MAR 5 2002.
ISSN 0027-8424.
M ZUKER e P STIEGLER. OPTIMAL COMPUTER FOLDING OF LARGE
RNA SEQUENCES USING THERMODYNAMICS AND AUXILIARY INFOR-
MATION. NUCLEIC ACIDS RESEARCH, 9(1):133–148, 1981. ISSN 0305-
1048.
91
Apˆendice A
Tabela resumida dos ncRNAs
92
93
94
95
Apˆendice B
Tabela completa dos ncRNAs
96
97
98
99
100
101
102
103
104
Apˆendice C
Artigo cient´ıfico
105
Livros Grátis
( http://www.livrosgratis.com.br )
Milhares de Livros para Download:
Baixar livros de Administração
Baixar livros de Agronomia
Baixar livros de Arquitetura
Baixar livros de Artes
Baixar livros de Astronomia
Baixar livros de Biologia Geral
Baixar livros de Ciência da Computação
Baixar livros de Ciência da Informação
Baixar livros de Ciência Política
Baixar livros de Ciências da Saúde
Baixar livros de Comunicação
Baixar livros do Conselho Nacional de Educação - CNE
Baixar livros de Defesa civil
Baixar livros de Direito
Baixar livros de Direitos humanos
Baixar livros de Economia
Baixar livros de Economia Doméstica
Baixar livros de Educação
Baixar livros de Educação - Trânsito
Baixar livros de Educação Física
Baixar livros de Engenharia Aeroespacial
Baixar livros de Farmácia
Baixar livros de Filosofia
Baixar livros de Física
Baixar livros de Geociências
Baixar livros de Geografia
Baixar livros de História
Baixar livros de Línguas
Baixar livros de Literatura
Baixar livros de Literatura de Cordel
Baixar livros de Literatura Infantil
Baixar livros de Matemática
Baixar livros de Medicina
Baixar livros de Medicina Veterinária
Baixar livros de Meio Ambiente
Baixar livros de Meteorologia
Baixar Monografias e TCC
Baixar livros Multidisciplinar
Baixar livros de Música
Baixar livros de Psicologia
Baixar livros de Química
Baixar livros de Saúde Coletiva
Baixar livros de Serviço Social
Baixar livros de Sociologia
Baixar livros de Teologia
Baixar livros de Trabalho
Baixar livros de Turismo