Post on 20-Jun-2022
Biologie moléculaire-2019
1
INTRODUCTION À LA BIO-INFORMATIQUE
Dans cette section, on désire vous donner une introduction sur l’utilisation du site web du
National Center for Biotechnology Information (NCBI) pour obtenir de l’information au
sujet de différentes séquences.
Lien au site web de NCBI : http://www.ncbi.nlm.nih.gov/
RECHERCHE GÉNÉRALE 1. Le premier outil que nous allons explorer est l’engin de recherche général. Semblable à
Google, vous pouvez entrer une combinaison de termes de recherche, ou le numéro
d’accession spécifique de la séquence d'intérêt, dans la zone de recherche. Vous pouvez
également spécifier sur quelle base de données effectuer la recherche dans le menu
déroulant as à gauche de la boîte de recherche.
2. Disons que nous sommes intéressés à trouver des informations relatives à la myosine,
une protéine musculaire. Entrez le mot « myosin » dans la zone de recherche, puis
cliquez sur « Search ». Une nouvelle page sera affichée, telle que sur la page suivante,
indiquant le nombre de fichier trouvés dans les différentes bases de données.
Biologie moléculaire-2019
2
3. Les bases de données le plus fréquemment utilisées dans ce cours sont celles des
nucléotides et des protéines. Cliquez sur la base de données de nucléotides pour obtenir
la page suivante
4. Pour préciser votre recherche, vous pouvez alors choisir parmi les menus sur la gauche
l'espèce, le type de molécule ou le taxon spécifique parmi les organismes les plus
communs dans le menu de droite. Pour cet exemple, nous allons d'abord choisir l'ARNm
Biologie moléculaire-2019
3
du menu de type de molécule. Ensuite, à partir de la nouvelle fenêtre qui apparaît, nous
allons choisir des dossiers spécifiques pour le poisson zèbre (Danio rerio) à partir du
menu des taxons.
5. Une liste des fichiers correspondant à vos critères de recherche sera alors affichée. De là,
vous pouvez rechercher et accéder au fichier spécifique d'intérêt. L'information qui peut
être obtenu à partir de ces fichiers sera expliquée plus loin dans cet exercice.
6. Pour votre devoir, utiliser cette approche pour trouver le numéro d’accession protéique
pour l’enzyme BglII. Cette protéine provient de quel organisme.
7. Utilisez l’engin de recherche général pour obtenir le fichier qui correspond au numéro
d'accession M68489.
8. Une fois que vous avez obtenu ce fichier, répondez aux questions suivantes pour votre
devoir.
Est-ce que ce fichier correspond à une séquence nucléotidique ou protéique ?
Cette séquence provient de quel organisme ?
Quel est le nom du gène qui correspond à cette séquence ?
Biologie moléculaire-2019
4
RECHERCHE AVEC UNE SÉQUENCE NUCLÉOTIDIQUE 1. L’engin de recherche le plus couramment utilisé soit avec des séquences nucléotidiques
ou protéiques est le « Basic Local Alignment Search Tool » (BLAST). Vous pouvez
accéder à cet engin de recherche à partir du menu des ressources populaires sur la droite,
ou par le biais du lien « Resource list (A-Z) » dans le menu à gauche.
2. « Resource List (A-Z) » : Sur cette page se retrouve la majorité des liens que vous
utiliserez durant l'année.
Biologie moléculaire-2019
5
3. Explorons Blast. Cliquer sur le lien Blast. Vous devriez obtenir la page suivante :
«BLAST » est une collection d’engins de recherches de similarités conçus pour examiner
toutes les bases de données de séquences indépendamment qu’elle soit protéine ou ADN.
« Nucleotide blast » compare une séquence nucléique d’intérêt aux séquences d’une base de
données d’acides nucléiques.
« Protein blast » compare une séquence d’acides aminés d’intérêt aux séquences d’une base
de données de protéines.
« Blastx » compare une séquence nucléique d’intérêt traduite dans tous les cadres de lecture
aux séquences d’une banque de données de protéines. Vous pourriez utiliser cette option pour
trouver les produits de traduction d’une séquence nucléique inconnue.
« Tblastn » compare une séquence d’acides aminés d’intérêt aux séquences d’une base de
données d’acides nucléiques dont la traduction a été faite dans tous les cadres de lecture.
« Tblastx » compare les traductions dans les six cadres de lectures d’une séquence nucléique
d’intérêt aux séquences d’une base de données d’acides nucléiques traduites.
Biologie moléculaire-2019
6
En premier lieu, nous utiliserons ce programme pour obtenir de l’information sur différentes
séquences avec lesquelles vous allez travailler. Notez, une de ces séquences représente
celle de l’insertion que vous devez vérifier dans l’exercice de laboratoire No2.
4. Cliquer sur l’option « Nucleotide blast" (blastn) ». Vous devriez obtenir la page
suivante:
5. Avant de pouvoir faire l’entrée de la séquence d’intérêt, vous devez vous assurer que le
format de celle-ci est compatible avec le logiciel. La majorité des logiciels qui traitent
des séquences peuvent comprendre un format appelé FASTA. Le format FASTA est un
fichier texte dépourvu de chiffres ou toute autre annotation qui est précédée par une ligne
descriptive de texte. Voici un exemple :
>John’s sequence123 (Pesez « enter » après cette ligne)
AACGTCGGATTCAGGTACCCAGGAAAACTACATCTC
La première ligne de votre fichier doit débuter avec le symbole suivant : « > ». Ce symbole
informe le logiciel que cette ligne est descriptive seulement et que l’information au sujet de
la séquence débute sur la prochaine ligne. Vous pouvez écrire quoi que ce soit sur cette ligne
pour identifier la séquence.
La prochaine ligne représente la séquence.
6. Obtenir le document texte des séquences inconnues disponible sur la page web de
BIO3551, en suivant le lien: Séquences>Gènes inconnus. Ce document contient cinq
séquences numérotées de 1-5. Convertir chacune des séquences au format FASTA. Vous
pouvez faire cela dans « NOTEPAD »
Biologie moléculaire-2019
7
7. Copier et coller la séquence dans la boite de requête de « Nucleotide blast ». Choisir la
banque de données sur laquelle la recherche sera exécutée dans le menu « Choose
Search Set ». Choisir « other » puisque les séquences ne sont pas d’origine humaine ou
de souris et « nucleotide collection (nr/nt) ». (Voir l’image ci-dessous)
8. Maintenant, choisir le logiciel qui fera la recherche à partir du menu « Program
Selection ». Choisir «Somewhat similar sequences (blastn) »
9. Cliquer sur BLAST. Une nouvelle page apparaîtra vous indiquant d’attendre pour que la
requête soit complétée. Cela pourrait être très rapide ou très long en fonction de la
charge sur le serveur de NCBI.
Biologie moléculaire-2019
8
10. Une fois que votre requête aura été complétée, une nouvelle page sera ouverte indiquant
les résultats de votre recherche.
11. Avant de procéder avec l’analyse des résultats, nous allons changer les options du
format. Cliquer sur « Formatting options » au haut de la page. Un nouveau menu
apparaitra tel qu’illustré ci-dessous: choisir l’option « Old view » et ensuite cliquer sur
« Reformat ».
Biologie moléculaire-2019
9
12. Les correspondances à votre séquence sont présentées sous trois formats.
Un format graphique tel que celui-ci :
Plus bas sur la page, un format textuel comme celui-ci :
Biologie moléculaire-2019
10
Et encore plus bas, les alignements des séquences :
Pour cet exercice, le format qui nous intéresse c'est la liste des différents fichiers obtenus qui
représentent des correspondances.
Parmi l'information qui peut être retrouvée sont les valeurs suivantes :
« Query coverage » : Cette valeur indique l’étendue de la séquence (de requête) qui
correspond à la séquence trouvée. Par exemple, si la requête est de 631 nucléotides et
BLAST peut aligner tous les 631 nucléotides de cette requête à une correspondance, alors
cela serait une couverture de 100%. Rappelez-vous, « Query coverage » ne prends pas en
considération la longueur de la séquence retrouvée, mais seulement le pourcentage de la
requête qui s’aligne avec la correspondance.
La valeur prévue (« Expect ») (E) représente le nombre de correspondances (HITS) que
vous devriez trouver lors d’une recherche d’une base de données de séquences aléatoires.
Lorsque les valeurs E sont inférieures à 1, elles sont équivalentes à la probabilité que deux
séquences ont une certaine correspondance. Cela signifierait que si nous avons une « valeur
E » de 0,01, il y a 1% de chances qu’on trouverait une correspondance dans une base de
données de séquences aléatoires. Souvent, les valeurs E sont très faibles.
En fait, si nous avons une correspondance parfaite, la "valeur E" peut être donnée comme
zéro. Deux facteurs supplémentaires ont une forte influence sur les valeurs E. Ce sont la
longueur de la séquence et la taille de la base de données. C'est parce qu'il est plus facile de
trouver une correspondance parfaite à une séquence plus courte.
Il est également plus facile de trouver une correspondance dans une base de données plus
grande.
Biologie moléculaire-2019
11
« Ident. » : BLAST calcule le pourcentage d'identité entre la requête et le résultat pour un
alignement de nucléotide à nucléotide. Comment expliquez-vous le fait que plus d'une
séquence possède une identité de 100%?
Notez que certaines des séquences représentent des séquences du génome entier! Par
exemple, la première séquence de cette recherche. Pour cet exercice, vous souhaitez obtenir
la séquence du gène et non celle du génome. Celles-ci sont parfois suivies de la lettre « G »
et parfois d’autres lettres. Ignorer ces autres lettres. Notez dans l'exemple ci-dessus que le
fichier suivi d'un « G » indique 100% d'identité, mais seulement une couverture de 42%.
Qu'est-ce que cela veut dire?
13. Cliquer sur le numéro d’accession pour visualiser la fiche. Vous devriez obtenir un
fichier semblable à celui-ci :
To convert to FASTA
1
2
4
3
5 6
7 8
Biologie moléculaire-2019
12
14. L’information qui peut être obtenue d’un fichier nucléotidique:
La définition (#1): Fournit une brève description de la séquence, qui inclut de
l’information telle que l’organisme source, le nom du gène/nom de la protéine ou une
description de la fonction de la séquence.
Le numéro d’accession (#2): Un identificateur unique du fichier de la séquence.
L’organisme (#3): Le nom formel scientifique pour l’organisme source (genre et
espèce).
La source: (#4): L’information inclut une forme abrégée du nom de l’organisme
parfois suivi du type de molécule.
.
CDS (#5): Séquence codante; région de nucléotides qui correspond à la séquence
d’acides aminés de la protéine (inclut sont les codons « Start » et « Stop »). En
cliquant sur ce lien vous pourriez obtenir la séquence de l’ARNm du codon « Start »
au codon « Stop ».
o Gene = (#6): Le nom du gène.
o Product = (#7): Le nom du produit du gène.
o Protein_id. (#8): Ceci est le numéro d’accession de la protéine. En cliquant
sur ce lien vous pouvez obtenir le fichier de la protéine.
15. Dans plusieurs des exercices ultérieurs, vous devrez obtenir et sauvegarder ces séquences
sous format FASTA. Afin de changer la présentation à FASTA, choisir FASTA au haut
de la page. Vous devriez être redirigé à une page semblable à celle-ci :
Biologie moléculaire-2019
13
16. Vous pourriez maintenant sélectionner et copier la description qui est précédée par le
symbole « > » ainsi que la séquence et la collée dans le programme de votre choix, ou
dans « Notepad » si vous désiriez sauvegarder la séquence sous ce format.
17. Pour votre devoir, obtenir les informations suivantes pour chacune des séquences
inconnues disponible sur la page web de ce cours (Séquences > Gènes inconnus):
Numéro d’accession
« Coverage »
Ident.
Valeur E
La définition
L’organisme duquel cette séquence a été obtenue
Le nom du gène
Le nom du produit du gène
Le numéro d’accession de la protéine