SIMAP - Team
Team Statistik
Join Team

 

Similarity Matrix of Proteins

Was ist SIMAP:
SIMAP ist eine Datenbank, in der die Ähnlichkeiten aller derzeit bekannten Proteinsequenzen untereinander sowie deren Domänen gespeichert sind. Man kann sich das als Matrix vorstellen, die quadratisch ist bei einer Kantenlänge von ca. 4 Mio Proteinsequenzen die wir momentan speichern. Der Inhalt der Matrix ist symmetrisch, das heißt wenn Protein 1 dem Protein 2 ähnlich ist, dann ist es umgekehrt genauso. SIMAP ist weltweit das einzige derartige Projekt, bei dem wirklich alle Proteine einbezogen werden. Das "Konkurrenzprojekt" clustr am European Bioinformatics Institute beschränkt sich derzeit auf ca. 1/5 unserer Datenmenge.

Wem nutzt SIMAP?
Proteinähnlichkeiten geben Hinweise auf die Verwandschaftsverhältnisse zwischen Proteinen. Verwandte Proteine haben oft gleiche oder ähnliche Eigenschaften und Funktionen im Organismus, da sie sich im Lauf der Evolution nur langsam verändern. Da man derzeit viel mehr Proteinsequenzen kennt als man eingehend in Labors untersuchen kann, werden die experimentellen Erkenntnisse über ein Protein auch auf dessen Verwandte übertragen. Ein gutes Beispiel dafür ist die intensive Untersuchung von Mausgenen und -proteinen, deren Ergebnisse oft auch für den Menschen gültig sind.
Proteindomänen sind die strukturellen Bausteine der Proteine und verantwortlich für die Aktivitäten eines bestimmten Domains. So ermöglichen sie z.B. die Bindung kleiner Moleküle, katalytische Reaktionen oder die Zusammenlagerung von Proteinen zu groß:en Komplexen. Das Wissen über Proteindomänen ist in großen Repositorien gespeichert, vor allem in den InterPro-Datenbanken. Die Vorhersage von Proteindomänen in neu sequenzierten Proteinen beruht auf diesen Datenbanken und ermöglicht eine automatische funktionelle Annotation dieser Proteine. Daher berechnen wir die Proteindomänen mit Hilfe der InterPro-Datenbanken für alle Proteine in SIMAP. Somit stellen wir das weltweit umfangreichste System für die Funktionsvorhersage von Proteinen bereit.
Darüber hinaus gibt es noch viele weitere Methoden in der Bioinformatik, die auf Proteinähnlichkeiten basieren. Unsere Proteinähnlichkeitsdatenbank stellt all diesen Methoden die vorberechneten Ähnlichkeiten aller bekannten Proteine zur Verfügung. Dadurch eröffnen sich neuartige Möglichkeiten, denn bislang würden die Ähnlichkeiten immer und immer wieder neu berechnet. SIMAP wird regelmäßig aktualisiert und muss nur neu hinzukommende Sequenzen in die Matrix integrieren (sogenannte inkrementelle updates). SIMAP ist für Forschung und Lehre vollständig kostenlos verfügbar.


SIMAP ist ein Gemeinschaftsprojekt des GSF-Forschungszentrums für Gesundheit und Umwelt in Neuherberg bei München und der Technischen Universität München, Wissenschaftszentrum Weihenstephan. Ansprechpartner ist Thomas Rattei vom Lehrstuhl für Genomorientierte Bioinformatik.