Kurzbeschreibung

Historie

Antrag

Ausschreibung

Veranstaltungen


Koordinationsgremium

Gutachtergremium

 


Geförderte Projekte

Projekte im Umfeld

Software

People

Abschlussbericht


Home

  English

KURZBESCHREIBUNG

INFORMATIKMETHODEN ZUR ANALYSE UND INTERPRETATION GROSSER GENOMISCHER DATENMENGEN



Die umfangreichen Aktivitäten bei der Sequenzierung der Genome ganzer Organismen revolutionieren die Molekularbiologie und Biotechnologie. Bereits über zehn Mikroorganismen sind vollständig sequenziert (Stand März 1997). Sieben Genome sind öffentlich zugänglich, darunter der Eukaryont Hefe mit rund 12 Mio Basenpaaren. Die Sequenzierung des menschlichen Genoms soll bis spätestens zum Jahre 2005 abgeschlossen sein. Das Ergebnis der Sequenzierungen ist eine Datenfülle, die mit herkömmlichen Methoden der Datenanalyse und Modellierung nicht mehr bewältigt werden kann. Hefe, deren Sequenzierung vor kurzem abgeschlossen wurde, hat ca. 6000 Gene. Bereits die Aufgabe, eine Übersicht über diese Datenmenge zu bekommen, erfordert neuartige Methoden der Datenanalyse. Es reicht nicht mehr aus, sich auf die Betrachtung von Sequenzmustern, Strukturen und Funktionen einzelner Gene, RNA-Moleküle oder Proteine zu konzentrieren. Vielmehr bedarf es neuer Verfahren, um große genomische Datensätze gezielt zu durchsuchen und aufzuarbeiten. Solche Verfahren bezeichnen wir als "Screening Methoden". Hier spielen die Aufklärung evolutionärer, struktureller und funktioneller Ähnlichkeiten eine besondere Rolle. Die Methoden für solche Analysen kommen aus der Informatik und Mathematik. Aus diesen Gründen mißt der Technologierat des Bundeskanzlers in seinen Empfehlungen zur Biotechnologie in Deutschland der Bioinformatik einen zentralen Stellenwert bei und empfiehlt, sie mit Nachdruck voranzutreiben. Wir reagieren auf diese Empfehlung mit dem vorliegenden Vorschlag für ein Schwerpunktprogramm der DFG.

Der Schwerpunkt richtet sich an die interdisziplinäre Forschergemeinde aus Informatikern und Mathematikern einerseits und Molekularbiologen und Biochemikern andererseits, die sich in Deutschland durch die in den letzten Jahren verstärkt durchgeführten Bioinformatikaktivitäten gebildet und international etabliert hat. Mit den sequenzierten Genomen stehen jetzt Datensätze zur Verfügung, die alle relevanten Informationen einer Spezies enthalten. Eine detaillierte Zuordnung der Funktionen der genetischen Elemente kann jedoch bisher nur unvollständig vorgenommen werden. Mindestens ein Drittel aller Gene der sequenzierten Organismen sind nicht oder nur unzureichend charakterisiert. Die Aufgabe des Schwerpunkts soll daher die Exploration großer genomischer Datensätze mit den Methoden der Informatik sein. Diese systematischen Vergleiche von Sequenzmustern sowie Modellierungen von molekularen Strukturen und Wechselwirkungen erlauben es, Beziehungen zwischen Struktur und Funktion aufzuklären und so zelluläre Komponenten in metabolische oder regulatorische Netzwerke einzuordnen. Durch die Identifikation von orthologen Proteinen in Modellgenomen können menschliche Erbkrankheiten funktionell zugeordnet, Pathogenität von Mikroorganismen aufgeklärt oder Ansätze zur Medikamentenentwicklung gefunden werden. Diese Methoden haben weitreichende Bedeutung für die biologische Grundlagenforschung. Mit der schnell wachsenden Zahl vergleichbarer Genome ist die Bioinformatik zunehmend gefordert, wenn es um die eindeutige Identifikation von Genen geht, die als Kandidaten für die aufwendige experimentelle Funktionsanalyse ausgewählt werden sollen. Diese Problematik ist vor allem im Kontext der von der DFG in Erwägung gezogenen Sequenzierung einzelliger Organismen in der Größe von 20-40 Megabasen zu sehen.

Auf der methodischen Seite spielt die geeignete Modellierung komplexer biologischer Interaktionen sowie die Entwicklung effizienter Algorithmen für den geforderten Datendurchsatz eine Rolle, aber auch Datenhaltungs- und Zugriffsfragen sowie Fragen der visuellen Präsentation komplexer Analysedaten sind wichtig. Schließlich bestehen Screeningsysteme aus vielen Softwarekomponenten, deren Durchgängigkeit und Bedienbarkeit gewährleistet sein muß.

Dieser Zielsetzung ordnen sich folgende Problembereiche unter.

  • Analyse molekularbiologischer Sequenzen, insbesondere Sequenzalignment und Analyse von Sequenzvariabilität, Strukturierung des Genoms sowie Polymorphismen

  • systematische Genomvergleiche (z.B. Analyse der genomischen Topologie verwandter pathogener/nichtpathogener Organismen)

  • Molekulare Strukturbestimmung mit Informatikmethoden (Proteine, RNA, Komplexe)

  • Bestimmung molekularer Funktionen auf der Basis von Sequenz- und/oder Strukturvergleichen

  • Molekularbiologische Datenbanken (Organisation, Zugriff, Datenvalidierung, Suche nach Mustern, Klassifikation)

  • Rechnermodellierung regulatorischer und metabolischer Netzwerke

  • Visualisierung molekularbiologischer Daten

    In allen diesen Bereichen liegt der Fokus innerhalb des Schwerpunktes auf Methoden, die einen ausreichend hohen Datendurchsatz gewährleisten, um große genomische Datensätze auch komplexen Analysen zu unterziehen

    Projekte, die in dem Schwerpunkt gefördert werden, sollen auf der methodischen Seite durch Inhalte aus der Informatik und/oder der Mathematik gekennzeichnet sein und gleichzeitig eine direkt nachvollziehbare Relevanz für wichtige molekularbiologische Fragestellungen haben. Dazu ist es notwendig, die methodische Seite durch qualifizierte Informatik und/oder Mathematik abzusichern und gleichzeitig zu zeigen, daß die angestrebten Ziele für die Genomforschung relevant sind. Antragsteller aus den Gebieten Bioinformatik, Informatik und Mathematik sollten angesprochen werden, die Förderung interdisziplinärer Kooperationen ist besonders wünschenswert.

    Die Begutachtung sollte fachübergreifend erfolgen, wobei besonders Gutachter ausgewählt werden sollten, die Qualifikationen nachweisen können, die über fachspezifische Kompetenzen hinausgehen. Die Ergebnisse des Schwerpunktprogramms sollen direkt der Praxis der biologischen Forschung zugänglich gemacht werden. Daher sollte die Validierung von Werkzeugen an realen biologischen Daten vorausgesetzt und die Implementierung in nutzbarer Form gefordert werden. Regelmäßige Kolloquien sollen die Arbeit aus dem Schwerpunkt vorstellen und den direkten Austausch mit den Biowissenschaften fördern. Eine entsprechende Präsentation des Schwerpunktes durch das WWW ist integraler Teil des Programms.