Application for a priority program

Informatics methods for the analysis and interpretation of large genomic datasets

of the Deutschen Forschungsgemeinschaft (DFG)


0. Resumé

Die umfangreichen Aktivitäten bei der Sequenzierung der Genome ganzer Organismen revolutionieren die Molekularbiologie und Biotechnologie. Bereits über zehn Mikroorganismen sind vollständig sequenziert (Stand März 1997). Sieben Genome sind öffentlich zugänglich, darunter der Eukaryont Hefe mit rund 12 Mio Basenpaaren. Die Sequenzierung des menschlichen Genoms soll bis spätestens zum Jahre 2005 abgeschlossen sein. Das Ergebnis der Sequenzierungen ist eine Datenfülle, die mit herkömmlichen Methoden der Datenanalyse und Modellierung nicht mehr bewältigt werden kann. Hefe, deren Sequenzierung vor kurzem abgeschlossen wurde, hat ca. 6000 Gene. Bereits die Aufgabe, eine Übersicht über diese Datenmenge zu bekommen, erfordert neuartige Methoden der Datenanalyse. Es reicht nicht mehr aus, sich auf die Betrachtung von Sequenzmustern, Strukturen und Funktionen einzelner Gene, RNA-Moleküle oder Proteine zu konzentrieren. Vielmehr bedarf es neuer Verfahren, um große genomische Datensätze gezielt zu durchsuchen und aufzuarbeiten. Solche Verfahren bezeichnen wir als "Screening Methoden". Hier spielen die Aufklärung evolutionärer, struktureller und funktioneller Ähnlichkeiten eine besondere Rolle. Die Methoden für solche Analysen kommen aus der Informatik und Mathematik. Aus diesen Gründen mißt der Technologierat des Bundeskanzlers in seinen Empfehlungen zur Biotechnologie in Deutschland der Bioinformatik einen zentralen Stellenwert bei und empfiehlt, sie mit Nachdruck voranzutreiben. Wir reagieren auf diese Empfehlung mit dem vorliegenden Vorschlag für ein Schwerpunktprogramm der DFG.

Der Schwerpunkt richtet sich an die interdisziplinäre Forschergemeinde aus Informatikern und Mathematikern einerseits und Molekularbiologen und Biochemikern andererseits, die sich in Deutschland durch die in den letzten Jahren verstärkt durchgeführten Bioinformatikaktivitäten gebildet und international etabliert hat. Mit den sequenzierten Genomen stehen jetzt Datensätze zur Verfügung, die alle relevanten Informationen einer Spezies enthalten. Eine detaillierte Zuordnung der Funktionen der genetischen Elemente kann jedoch bisher nur unvollständig vorgenommen werden. Mindestens ein Drittel aller Gene der sequenzierten Organismen sind nicht oder nur unzureichend charakterisiert. Die Aufgabe des Schwerpunkts soll daher die Exploration großer genomischer Datensätze mit den Methoden der Informatik sein. Diese systematischen Vergleiche von Sequenzmustern sowie Modellierungen von molekularen Strukturen und Wechselwirkungen erlauben es, Beziehungen zwischen Struktur und Funktion aufzuklären und so zelluläre Komponenten in metabolische oder regulatorische Netzwerke einzuordnen. Durch die Identifikation von orthologen Proteinen in Modellgenomen können menschliche Erbkrankheiten funktionell zugeordnet [1], Pathogenität von Mikroorganismen aufgeklärt oder Ansätze zur Medikamentenentwicklung gefunden werden. Diese Methoden haben weitreichende Bedeutung für die biologische Grundlagenforschung. Mit der schnell wachsenden Zahl vergleichbarer Genome ist die Bioinformatik zunehmend gefordert, wenn es um die eindeutige Identifikation von Genen geht, die als Kandidaten für die aufwendige experimentelle Funktionsanalyse ausgewählt werden sollen. Diese Problematik ist vor allem im Kontext der von der DFG in Erwägung gezogenen Sequenzierung einzelliger Organismen in der Größe von 20-40 Megabasen zu sehen.

Auf der methodischen Seite spielt die geeignete Modellierung komplexer biologischer Interaktionen sowie die Entwicklung effizienter Algorithmen für den geforderten Datendurchsatz eine Rolle, aber auch Datenhaltungs- und Zugriffsfragen sowie Fragen der visuellen Präsentation komplexer Analysedaten sind wichtig. Schließlich bestehen Screeningsysteme aus vielen Softwarekomponenten, deren Durchgängigkeit und Bedienbarkeit gewährleistet sein muß.

Dieser Zielsetzung ordnen sich folgende Problembereiche unter.

  • Analyse molekularbiologischer Sequenzen, insbesondere Sequenzalignment und Analyse von Sequenzvariabilität, Strukturierung des Genoms sowie Polymorphismen

  • systematische Genomvergleiche (z.B. Analyse der genomischen Topologie verwandter pathogener/nichtpathogener Organismen)

  • Molekulare Strukturbestimmung mit Informatikmethoden (Proteine, RNA, Komplexe)

  • Bestimmung molekularer Funktionen auf der Basis von Sequenz- und/oder Strukturvergleichen

  • Molekularbiologische Datenbanken (Organisation, Zugriff, Datenvalidierung, Suche nach Mustern, Klassifikation)

  • Rechnermodellierung regulatorischer und metabolischer Netzwerke

  • Visualisierung molekularbiologischer Daten

    In allen diesen Bereichen liegt der Fokus innerhalb des Schwerpunktes auf Methoden, die einen ausreichend hohen Datendurchsatz gewährleisten, um große genomische Datensätze auch komplexen Analysen zu unterziehen

    Projekte, die in dem Schwerpunkt gefördert werden, sollen auf der methodischen Seite durch Inhalte aus der Informatik und/oder der Mathematik gekennzeichnet sein und gleichzeitig eine direkt nachvollziehbare Relevanz für wichtige molekularbiologische Fragestellungen haben. Dazu ist es notwendig, die methodische Seite durch qualifizierte Informatik und/oder Mathematik abzusichern und gleichzeitig zu zeigen, daß die angestrebten Ziele für die Genomforschung relevant sind. Antragsteller aus den Gebieten Bioinformatik, Informatik und Mathematik sollten angesprochen werden, die Förderung interdisziplinärer Kooperationen ist besonders wünschenswert.

    Die Begutachtung sollte fachübergreifend erfolgen, wobei besonders Gutachter ausgewählt werden sollten, die Qualifikationen nachweisen können, die über fachspezifische Kompetenzen hinausgehen. Die Ergebnisse des Schwerpunktprogramms sollen direkt der Praxis der biologischen Forschung zugänglich gemacht werden. Daher sollte die Validierung von Werkzeugen an realen biologischen Daten vorausgesetzt und die Implementierung in nutzbarer Form gefordert werden. Regelmäßige Kolloquien sollen die Arbeit aus dem Schwerpunkt vorstellen und den direkten Austausch mit den Biowissenschaften fördern. Eine entsprechende Präsentation des Schwerpunktes durch das WWW ist integraler Teil des Programms.


    1. Wissenschaftliches Programm

    1.1 Stand der Forschung

    Zur Zeit vollzieht sich international eine Entwicklung in der Genomforschung, die die Biowissenschaften, vor allem die Medizin und die Biotechnologie, wie wir sie heute kennen, völlig verändern wird. Die DNA Sequenz für ein breites Spektrum von Organismen aus den verschiedensten Bereichen der Taxonomie, vom Prokaryonten bis zum zelldifferenzierenden höheren Eukaryonten, wird in naher Zukunft aufgeschlüsselt sein. Mit der Verfügbarkeit der vollständigen genetischen Information geht ein schon jetzt spürbarer Paradigmenwechsel von beschreibenden, phänomenologisch orientierten Beobachtungen zur systematischen Aufklärung der molekularen Mechanismen komplexer Lebensvorgänge einher. Die Effizienz der Informationsgewinnung ist durch die Entwicklung geeigneter Technologien mit hohem Durchsatz um Größenordnungen gewachsen; die Möglichkeiten der breiten wissenschaftlichen und wirtschaftlichen Exploration genomischer Daten macht die Genomforschung zur Schlüsseltechnologie.

    Genomforschung ist quantitativ, datenorientiert. Daher spielt die Bioinformatik als Bindeglied zur Bearbeitung, Analyse und Interpretation großer Datenmengen eine zentrale Rolle. In Zukunft wird die Beschreibung der funktionellen Interaktionen von Biomolekülen in den Mittelpunkt rücken und die Beschreibung der homologiebasierten Sequenzanalyse ergänzen. Die Grundlagenforschung wird in der Lage sein, die Informationsmenge zu nutzen, um zu verstehen, warum Organismen ein fast unbegrenztes Spektrum an Phänotypen ausbilden können, welche Mechanismen ihrer Genexpression es erlauben, sich den unterschiedlichsten Lebensbedingungen anzupassen und welche Signalketten wirksam sind, den zellulären Informationsfluß zu bewirken. Die Bioinformatik stellt dabei die Werkzeuge bereit, die Voraussetzung sind, immer komplexer werdende Fragestellungen zu erforschen. Schon jetzt sind Genomforschung, experimentelle Biochemie, Molekularbiologie, molekulare Medizin und Pharmakologie von den Ergebnissen der Bioinformatik abhängig, in Zukunft wird dieser Einfluß weiter an Bedeutung gewinnen. Darüber hinaus hat die Bioinformatik eine große Bedeutung für die innovative Entwicklung bedeutender Wirtschaftsbereiche wie der Pharmaentwicklung, der Medizin, der Landwirtschaft, der Lebensmittel- und Biotechnologie.

    Das Verstehen biologischer Information hat weitreichende wissenschaftliche Konsequenzen, die große ökonomische und auch gesellschaftliche Bedeutung haben:

  • Die Identifizierung aller Komponenten eines Organismus ist Grundlage für Funktionsanalysen, d.h. zur vollständigen Beschreibung aller funktionellen Einheiten.

  • Die Kenntnis der DNA Sequenz und der Funktion ihrer Translationsprodukte erlaubt die Diagnose genetischer Defekte, die Analyse ihrer Auswirkungen auf den zellulären Stoffwechsel und öffnet Chancen zur medikamentösen oder genomischen Therapie von Erbkrankheiten.

  • Die Erforschung von Signalketten, ausgehend von Rezeptoren der Zelloberfläche erlaubt die detaillierte Untersuchung von Interaktionen natürlicher und synthetischer Liganden und ihrer Wirkung auf ein breites Spektrum zellulärer Prozesse. Expressionsanalysen können frühzeitig potentielle Nebenwirkungen von Pharmaka erkennen.

  • Fragen zur Genregulation und Zelldifferenzierung stehen im Mittelpunkt aktueller Forschungsschwerpunkte. Techniken der Genzerstörung und der gezielten Analyse von Mutanten werden zur Funktionsanalyse von Einzellern bis zu Säugern genutzt.

  • Die systematische, differentielle Sequenzierung verwandter Organismen (z.B. Hefestämme) ermöglicht das Verstehen speziesspezifischer Eigenschaften.

  • Die Erforschung der Stoffwechselwege erlaubt es durch regulative oder genetische Manipulation des Metabolismus die biotechnologischen Produktion in Zellkulturen oder Bioreaktoren zu optimieren.

    Die hier genannte kleine Auswahl von Beispielen macht deutlich, welch zentrale Bedeutung die Interpretation der Genominformation mit Hilfe der Bioinformatik - im Konzert mit experimentellen Techniken - hat. Bioinformatische Methoden können und müssen dabei auf den verschiedensten Ebenen eingesetzt werden. Diese reichen von der Fehlersuche in genomischen Datenbeständen über die Erkennung von Genen bis zur Interpretation von Struktur und Funktion der codierten Proteine, der Analyse der molekularen Wechselwirkungen sowie der Aufklärung der Rolle der nichtcodierenden Abschnitte im Genom. Das Fernziel ist die Schaffung eines Detailbildes der funktionalen Zusammenhänge im Organismus auf molekularer Ebene.


    1.1.1 Stand der Genomsequenzierungen

    Die Bioinformatik muß im Zusammenhang mit Kernbereichen der biotechnologischen Forschung gesehen werden, die Daten in bisher nicht gekanntem Umfang generieren. Im Vordergrund steht hier die Genomforschung, die durch Automatisierung und dramatische Verbesserung der Qualität der DNA Sequenzierung neue Dimensionen erreicht hat. Heutige Datensammlungen umfassen etwa 200 000 Proteinsequenzen und 750 Millionen Basen aus Nukleinsäuresequenzierungen. Diese Datenmengen werden sich im Zeitraum von nur 3 Jahren verdoppeln. Die ersten beiden mikrobiellen Genome wurde bereits 1995 entschlüsselt, bis heute sind es mehr als 10 (siehe Tabelle 1). Mit der kompletten Genomsequenz der 16 Chromosomen von S. cerevisiae wurde ein Meilenstein in der eukaryontischen Genomforschung gelegt [2]. Darüberhinaus gibt es eine größere Anzahl von komplett sequenzierten eukaryontischen Organellen mit Längen von bis zu knapp 200 kbp, vor allem Mitochondrien. Eine aktuelle Übersicht über den Stand der Genomsequenzierungsaktivitäten findet sich unter [3]. Die vollständige Sequenz der 3 Milliarden Basen des menschlichen Genoms wird bereits für das Jahr 2002 bis spätestens 2005 erwartet. Das Vorliegen der Genpools verschiedener Organismen eröffnet völlig neue Zugänge zur vergleichenden Identifizierung funktioneller Eigenschaften.

    Wesentliche Anteile der Genomdaten sind auf dem Internet verfügbar. Es gibt eine ganze Anzahl von Datenbanken, die den Genomen einzelner Organismen oder Spezies gewidmet sind (für eine Teilübersicht siehe [4]). Die Websites beinhalten nicht nur die Genomdaten selbst sondern auch Möglichkeiten, Anfragen auch komplexer Natur an die Datenbanken zu stellen. Am Münchner Informationszentrum für Proteinsequenzen (MIPS) in Martinsried sind z.B. alle Hefegenomdaten auf diese Art und Weise abrufbar [5].

     

    Organismus

    Länge des Genoms (in kbp) Bisher sequenzierter Anteil (in %) Datum der Fertigstellung
    Bakterien
    M. genitalium 760 100% 1995
    M. pneumoniae 800 100% 9/1996
    M. janaschii 1660 100% 8/1996
    H. influenzae 1830 100% 7/1995
    Synechocystis sp. 3570 100% 4/1996
    E. coli 4640 100% 1/1997
    Eukaryonten
    S. cerevisiae 12060 100% 4/1996
    S. pombe 16000 <10% 1998
    A. thaliana 70000 <3% 200+
    C. elegans 100000 60% 1998
    D. melanogaster 165000 <3% 200+
    H. sapiens 2900000 1% 2002-2005

    Tabelle 1: Liste der in wesentlichen Anteilen sequenzierten Genome einiger Organismen

     


    Eine Übersicht über das Genom des Organismus H. influenzae Abbildung 1. Die Beschriftungen identifizieren Gene im Genom und die Schattierungen beschreiben unterschiedliche Funktionsklassen der entsprechenden Proteine. Neben den Genomdaten selbst ist besonders die Gesamtheit der im Genom codierten Proteine, das sogenannte Proteom von Interesse. Der Grund dafür ist, daß das Proteom der wesentliche Träger des Stoffwechsels und der biologischen Prozesse im Organismus ist. Liegen die gesamten Genomdaten vor, so ist die erste Aufgabe, alle Elemente des Proteoms zu identifizieren und eine Klassifikation der Proteine nach ihren erwarteten Struktur- und Funktionsklassen vorzunehmen. Eine Übersicht über den Wissensstand über das Proteom von H. influenzae enthält Abbildung 2. Wie aus der Abbildung ersichtlich, gibt es für knapp ein Drittel der Proteine dieses Organismus noch keine funktionelle Zuordnung. Durch derartige Analysen gewinnt man einen Überblick über den gesamten Organismus [6,7,8]. Systeme, die diese Aufgabe angehen, gibt es bereits. Die Systeme GeneQuiz [9, 10] und TIGR [11] konzentrieren sich auf das Proteom, in [12] wird über Software zur Analyse nichtcodierender Regionen berichtet. Die Qualität der Vorhersagen muß allerdings noch deutlich verbessert werden. Auf diesen Grundanalysen setzen eine Vielzahl von Detailfragen auf. Diese Fragen mit bioinformatischen Methoden einer Antwort näher zu bringen, steht im Zentrum des Schwerpunktes.

    Abbildung 1: "Landkarte" des Genoms von H. influenzae


    Abbildung 2: Grobeinteilung der Proteine von H. influenzae


    1.1.2 Problembereiche, die Screening Methoden erfordern

    In diesem Abschnitt beschreiben wir relevante Arten der Analyse großer genomischer Datenbestände. Im folgenden Abschnitt 1.1.3 wird dann diskutiert, mit welchen Methoden die Bioinformatik derzeit diese Analysen bewältigt. In Abschnitt 1.1.4 wird zusammengefaßt, welche Informatikmethoden dazu eingesetzt werden.

    1.1.2.1 Genomsequenzierung und Kartierung

    Die Technologie zur DNA Sequenzierung im großen Stil bedarf der Unterstützung durch Computer. International und auch in Deutschland - speziell im Zusammenhang des Deutschen Genomprojekts - wurden und werden Programme zur Datenverwaltung, zur Sequenzassemblierung und zur Kartierung entwickelt. Durch den steten Wandel der zugrunde liegenden Technologien sind auch immer neue Computeralgorithmen nötig. So wird etwa an neuen Verfahren zur Sequenzierung und Kartierung unter Verwendung von Hybridisationsdaten mit Oligonukleotiden oder Oligonukleotidarrays gearbeitet. Derartige Methoden versprechen auch für diagnostische Zwecke von erheblichem Nutzen zu sein.

    Die Bioinformatikmethoden, welche in diesem Bereich zum Einsatz kommen, sind vielfältig. Im Bereich der Datenverwaltung sind Datenbanken gefragt, die den Arbeitsablauf in einem Labor widerspiegeln, Qualitätskontrolle unterstützen und mit den öffentlichen Sequenzdatenbanken integrierbar sind. Im Bereich der Sequenzierung fallen Aufgaben wie das Design von PCR Primern oder die Assemblierung von Fragmenten an. Im Zusammenhang der physikalischen Kartierung werden kombinatorische Optimierungsverfahren eingesetzt. Schließlich führen diese Verfahren wieder zu Problemen der Integration verschiedener Karten und allgemein zu den Fragen des Abgleichs heterogener Informationsquellen. Es ist aber für die Genomsequenzierung heute kennzeichnend, daß schon die Datenproduktion ohne intelligenten Einsatz von Computerverfahren nicht mehr denkbar ist.

    1.1.2.2 Identifikation von Genen

    Mit der großangelegten genomischen Sequenzierung einiger multizellulären Eukaryonten (z.B. C. elegans, A. thaliana, H. sapiens) fallen große Datenmengen an, von denen nur ein geringer Teil für Proteine kodiert (C. elegans 15%, H. sapiens 3%). Die kodierenden Regionen eines Gens der genomischen DNA (Exons) sind in höheren Organismen fast immer von nicht-kodierenden Einschüben (Introns) unterbrochen, die nach der Transkription zur Vorläufer-RNA an spezialisierten Partikeln (Splicosomen) im Zellkern entfernt werden. Es gibt bisher keine perfekten Methoden, Gene korrekt zu modellieren, d.h. alle Splicestellen richtig vorherzusagen. Besonders erschwert wird die Situation durch das in höheren Eukaryonten zu beobachtende "alternative Splicing", wobei externe Bedingungen bestimmen, welche Kombination von Exons derselben genomischen Sequenz bzw. Vorläufer RNA zum Protein translatiert wird. Schwierigkeiten bereitet auch die Interpretation von Pseudogenen, die zwar in hypothetische Proteinsequenzen übersetzt werden können, für die aber keine Translationsprodukte gefunden werden. Hier ist wahrscheinlich die Analyse der nichtkodierenden Umgebung der Schlüssel für eine bessere Unterscheidung von Genen und Pseudogenen. Andere natürlich vorkommende Phänomene wie RNA-editing, Inteine oder verschachtelte Gene (Gene in Introns) komplizieren die Vorhersagen weiter.

    Der Schwerpunkt in der Methodenentwicklung liegt derzeit bei der Identifizierung menschlicher Gene. Da jedoch erst ca. 1% des menschlichen Genoms sequenziert ist und die vorhandenen Daten unzureichend für ein eingehendes Verständnis der Struktur menschlicher Gene sind, sind die bekannten Methoden stark, sind existierende Methoden stark verbesserungsbedürftig. Viele der Signale sind speziesabhängig, so daß eine sehr differenzierte Herangehensweise erforderlich ist. Trotz besser lautender Thesen in den Originalveröffentlichungen, konnte kürzlich in einem fairen Vergleich aller verfügbaren Methoden gezeigt werden [13], daß die Vorhersagegüte bei unbekannten Sequenzen 60% nicht übersteigt (Anzahl der absolut korrekt vorhergesagten Gene). Derzeitige Methoden versuchen, verschiedene Signale zu integrieren. Durch die Heterogenität der verfügbaren Information ist dies jedoch äußerst schwierig. Ausgenutzte Signale sind z.B. "codon usage", "start/stop und splice Stellen", Promotoren, Homologieinformation etc. Jedes dieser Signale ist für sich sehr schwach. Insgesamt werden viele Expertenregeln benötigt. Einige der publizierten Methoden sind nicht oder nur kommerziell verfügbar.

    Die bekannteste und eine der besten Methoden zur Genidentifikation ist die GRAIL Programmfamilie [14]. Sie basiert auf neuronalen Netzen und berücksichtigt Signale wie Codon Usage, Splice Sites, GC Content und Sequenzähnlichkeiten. Die derzeit beste Methode scheint GeneID+ [13] zu sein, die Homologieverfahren besser nutzt und auch andere Signale wie Hexamerzusammensetzung einbezieht. Die Durchschnittswerte über die Zuverlässigkeit von Genidentifikationen geben allerdings nur wenig Aussagen für den praktischen Gebrauch, da bestimmte Stärken (z.B. wissen um eine höhere Güte bei der Vorhersage innerer Exons) von den Sequenziergruppen gezielt ausgenutzt werden. Von den Sequenziergruppen werden heute mehrere Verfahren miteinander verglichen und zusätzlich externe Daten (z.B. Exon Trapping) herangezogen.

    1.1.2.3 Klassifizierung und Interpretation nichtcodierender Regionen

    Die Packungsdichte, das Verhältnis von kodierender zu nicht kodierender Sequenz, variiert zwischen stark den einfach strukturierten prokaryontischen und den komplexen eukaryontischen Genomen. Während bei Gendichten von einem Gen/1000 Basen in E. coli nur wenig Raum für nichtkodierende Regionen bleibt, ist der weit überwiegende Teil des menschlichen Genoms nichtkodierend. Die Identifizierung von definierten genetischen Einheiten wie Introns, Promotoren, Terminatoren, Enhancer, Silencer, tRNAs, rRNAs, LTRs etc. in höheren Eukaryonten bereitet immer noch große Probleme und ist auch im Fall niederer Eukaryonten nicht immer befriedigend gelöst. Viele Faktoren der Transkriptionsmaschinerie binden an bestimmte regulatorische Stellen; hier fehlen oftmals noch die generellen Zusammenhänge, um den Ablauf zu verstehen. Räumliches Verhalten von DNA spielt eine Rolle, wenig Wissen ist zur globalen DNA-Faltung vorhanden und auch lokal sind bindungsbeeinflussende Faktoren wie z.B. sich an die DNA anlagernde Proteine noch wenig berücksichtigt (für Vorarbeiten in diesem Bereich siehe [15, 16]). Die Bedeutung vieler repetitiver Elemente ist unbekannt. Statistische Analysen konnten bisher nur an relativ kleinen Datensätzen durchgeführt werden.

    In zunehmenden Maße finden regulatorische Elemente Eingang in Datenbanken wo sie mittels Konsensus- oder Matrixmethoden mit nicht-annotierten Genomsequenzen verglichen werden. Oftmals sind die Signale zu schwach, und so haben sich auch neuronale Netze bewährt, die die lokale Umgebung mit einbeziehen. Andere Verfahren benutzen Standardsequenzähnlichkeitssuchen, um bekannte repetitive Elemente (z.B. Alu) zu annotieren. Spezielle Methoden wurden zum Auffinden invertierter Repeats entwickelt. Auch statistische Verfahren werden für bestimmte Elemente (CpG Inseln ) herangezogen.

    Im Umfeld des Schwerpunktes wurden drei Datenbanken mit Informationen über transkriptionelle Regulierung entwickelt [17], die Transkriptionsfaktoren und die sie regulierenden DNA Segmente enthält. Die Datenbank TRANSFAC enthält Transkriptionsfaktoren und ihre DNA Bindungsstellen. Die Datenbank TRRD sammelt Informationen über vollständige regulatorische Abschnitte, ihre regulatorischen Eigenschaften und ihre Architektur. COMPEL ist eine Datenbank, die Informationen über zusammengesetzte regulatorische Elemente enthält. Die Datenbanken werden zur Zeit gekoppelt. In die Klassifikation regulatorischer Elemente wurden auch Aspekte der dreidimensionalen molekularen Struktur einbezogen [16]. Zusammenhänge zwischen verschiedenen Promotoren werden ebenfalls bereits analysiert [18].

    1.1.2.4 Vergleichende Genomanalyse

    Die mehrfach erwähnten Möglichkeiten der intergenomischen Sequenzvergleiche erlauben es, die Frage nach den essentiellen Elementen eines Organismus zu untersuchen [19]. Interessant in bezug auf das menschliche Genom ist vor allem die Suche nach orthologen, also funktionell und strukturell äquivalenten Genen in Modellorganismen. Praktisch alle menschlichen Gene haben Äquivalente in anderen Organismen, selbst in einfachen, einzelligen Eukaryonten lassen sich diese Verwandtschaften leicht nachweisen. So weisen eine überraschend hohe Zahl von Hefegenen signifikante Homologien mit humanen Genen auf, von denen eine ganze Reihe als Loci menschlicher Erbkrankheiten identifiziert werden konnten. Die Deletion dieser Gene im Modellorganismus und die Komplementierung ihrer Funktion durch Rekombination mit dem orthologen menschlichen Gen erlaubt die funktionelle Untersuchung in der Umgebung eines stark vereinfachten Testsystems, die mit effizienten molekularbiologischen Methoden durchgeführt werden kann. Damit stehen Wege zur Entwicklung von diagnostischer Kits (PCR, Hybridisierung) zur Analyse genetischer Risiken, vor allem zur Prävention bei Risikogruppen offen (z.B. Mucoviszidose).

    Bisher beruhen die Methoden zur intragenomischen Sequenzanalyse meist auf der Auswertung paarweiser Vergleiche. Es gibt jedoch bereits Ansätze zur Analyse im Megabasenbereich, die auf systematischen, vollständigen Sequenzvergleichen beruhen. Dazu sind bei n Genfragmenten eines Genoms n2 Sequenzvergleiche erforderlich. So konnten im Fall des Hefegenoms 300 Millionen Vergleiche durch die Anwendung leistungsfähiger Informatikwerkzeug in weniger als 24 Stunden auf einer UNIX-Workstation durchgeführt werden [20, 21]. Beim Vergleich aller 16 Hefechromosomen wurde eine sehr hohe Zahl von Sequenzähnlichkeiten gefunden, die als Indizien für intragenomische Evolution verstanden werden können. Daraus ergeben sich zentrale Aussagen zur genomischen Organisation, wie der Verteilung von Genfamilien oder die Anordnung collinearer Gencluster. Bisher ist nicht bekannt, ob die Topologie der Genomanordnung zwischen Organismen erhalten bleibt (dies kann bei bakteriellen Operons erwartet werden). Informatikmethoden müssen entwickelt werden, um aus der Fülle der Relationen mit Hilfe geeigneter Filter dedizierte Aussagen machen zu können. Damit sind Ansätze zum Verständnis evolutionärer Entwicklungsstrategien gegeben, über die bisher nur sehr wenig bekannt ist.

    Von erheblichem praktischen Interesse sind Genomvergleiche von nah verwandten Organismen, wie z.B. Hefestämmen. Die genomische Sequenzierung von S. cerevisiae wurde an einem reinen Laborstamm durchgeführt, der sich in seinen Eigenschaften deutlich von Wildtyp-Stämmen unterscheidet. Genomvergleiche zwischen Stämmen können aufklären, welche Differenzen Ursache für bestimmte Eigenschaften sind und damit auch zur Verbesserung wünschenswerter Charakteristika führen.

    1.1.2.5 Expressionsanalysen

    Während die genomische Sequenzierung bereits Datenmengen im Gigabytebereich generiert, ist von Expressionsanalysen ein Vielfaches dieses Volumens zu erwarten. Damit stellt sich umso mehr die Frage nach einer effizienten Verarbeitung und Darstellung der Daten. Die Analyse von Expressionsmustern erlaubt im Gegensatz zur statischen Analyse der Zellkomponenten eine Momentaufnahme der Syntheserate der Menge aller Gene. Da die Syntheseraten von einer großen Zahl externer und interner Parameter abhängen und in vielen Fällen zusätzlich der zeitliche Verlauf zu beobachten ist, ist die Zahl der durchführbaren Experimente praktisch unbegrenzt. Für menschliche Zellen werden ca. 80-100.000 Gene geschätzt, jede einzelne Momentaufnahme wird Daten dieser Größenordnung liefern.

    Das Spektrum der Anwendbarkeit von Expressionanalysen kann hier nur skizziert werden. Sie erlauben z.B. Rückschlüsse auf die funktionellen Eigenschaften eines Transkriptionsfaktors durch seine Deletion und die anschließende Analyse des Expressionsmusters. Da Transkriptionsfaktoren Teile von Signalübertragungswegen sind, müssen die experimentellen Parameter im Einzelfall variiert werden, bis Bedingungen zur Auslösung des Signals gefunden sind.

    Expressionsanalysen werden für die Untersuchung von Wirkstoffen eine kaum zu überschätzende Bedeutung gewinnen. Wenn im Idealfall das Proteom einer Zelle und die Interaktionen der Komponenten bekannt sind, können Expressionsanalysen detaillierte Auskunft über die Transkriptionsraten jedes einzelnen Proteins geben. Rückschlüsse auf direkte und indirekte Wirkungen in Stoffwechsel oder Zellzyklusnetzwerken können gezogen werden. Die Zellbiologie wird auf eine völlig neue Grundlage gestellt. Vor allem die Wirkungen von Pharamaka auf die Elemente des Zellstoffwechsels können im Detail erfaßt werden. Damit kann die Entwicklung spezifischer, sicherer Pharamaka unterstützt werden. Die Bioinformatik muß zunächst Daten aus Transkriptionsanalysen organisieren, analysieren und mit Hilfe intelligenter Werkzeuge interpretieren.

    1.1.2.6 Funktionsvorhersagen und Funktionsspektrum im Proteom

    Nach der Identifizierung von Genen in genomischen Sequenzen oder direkt aus cDNAs oder EST Daten werden derzeit vielfältigste Datenbanksuchmethoden angewandt um über Homologieaussagen zu Datenbankproteinen Rückschlüsse auf die Funktion ziehen zu können. Die aus solchen Homologievergleichen abgeleiteten Annotationen vermischen jedoch oft molekulare, zelluläre und phänotypische Funktionen. Probleme sind zum einen immer noch Sensitivität und Geschwindigkeit der Suchen, aber in zunehmenden Maße auch die Art und Weise der Funktionsübertragung: in vielen Fällen geben Homologien keine direkten Rückschlüsse auf Funktionen, was dann bei automatischer Abarbeitung in großen Datenmengen auch zu falschen Annotationen führen kann. Eine relativ neue Richtung ist die Gruppierung von Funktionen, die erste Aufschlüsse über die Organisation von Organismen bringt. Hier müssen prinzipiell neue Methoden zur automatischen Extraktion und Klassifikation funktioneller Information entwickelt werden.

    Die meisten bakteriellen Genome, die sequenziert werden, stammen von Organismen die biochemisch kaum untersucht sind (z.B. waren nur drei Proteine des Genoms von M. janaschii experimentell charakterisiert; alle anderen Genfunktionen wurden mittels Datenbanksuchen vorhergesagt). Zumindest mit dem Wissen über E. coli und B. subtilis können durch gezielte Genomvergleiche Rückschlüsse über Stoffwechselvorgänge gezogen werden [22], aber auch auf evolutionäre Phänomene, die solche Vorhersagen erschweren [19], 23]. Ein Zusammenspiel von Homologiesuchen und Stoffwechselmodellierungen im Zusammenhang mit den Nährstoffanforderungen ist bis jetzt nur in Einzelfällen erfolgt [22] und noch nicht algorithmisch aufgearbeitet.

    1.1.2.7 Suche nach krankheitsrelevanten Genen und Proteinen

    Fortschritte in der Genomanalyse erlauben immer häufiger die Einengung von Krankheitsgenen im Genom und schließlich ihre Sequenzierung. Auf dem Wege dahin werden bioinformatische Schritte von "linkage" über Kartierung bis hin zur Einengung von Kandidatengenen in einem größeren Satz von Genen benötigt. Derzeit werden überwiegend Gene für monogene Krankheiten kloniert, da das Zusammenspiel in multifaktoriell bedingten Krankheiten noch kaum durchdrungen ist. Hier müssen völlig neue Ansätze entwickelt werden, um entsprechende phänotypische Beobachtungen in Modelle umsetzen zu können, die dann Vorhersagen über Kausalitäten erlauben.

    In einer Kandidatenregion werden zur Zeit potentielle Krankheitsgene weitgehend manuell durchsucht. Hier gilt es, die vielfältigsten und sehr heterogenen Datenbanken mit für Krankheitsgene relevanten Informationen (z.B. Kartierungen inkl. solcher in anderen Organismen, Phänotypdatenbanken, Mutationsdatenbanken, Expressionsmusterdaten) algorithmisch zu erschließen. Kartierungsdatenbanken (z.B. [24]) sind jedoch verbesserungsbedürftig.

    Seit Anfang der 90er Jahre ermöglichte die schnell wachsende Zahl verfügbarer Genominformationen darüber hinaus die Identifizierung relevanter "Targets", d.h. wirkstoff-sensitiver Proteine. Damit setzte ein intensiver Wettbewerb auf der Seite der Sequenzanalytik zum Aufspüren geeigneter Ziele wie Ionenkanäle oder Transkriptionsfaktoren ein. Diese Bemühungen wurden durch die Konkurrenz der Pharmaindustrie bei der Entwicklung geeigneter, target-bindender Wirkstoffe, gefördert. Die Suche nach Zielproteinen führt viele bioinformatische Methoden zusammen, so etwa Sequenzvergleiche, Strukturvorhersagen, Funktionsvorhersagen und die Modellierung metabolischer Zusammenhänge.

    1.1.2.8 Strukturbasierte Wirkstoffsuche

    Wirkstoffe sind Substanzen, die in den Organismus eingeführt werden und dort an Biomoleküle, meistens Enzyme, binden. In dieser Eigenschaft bezeichnet man das Wirkstoffmolekül auch als "Ligand" des Enzyms. Wirkstoffe können kleine organische Moleküle (mit bis zu einigen Dutzend Atomen) sein oder große Biopolymere, wie Proteine, DNA oder RNA. Von pharmazeutischem Interesse sind vornehmlich die niedermolekularen Wirkstoffe, da die Biopolymere Probleme bei der Bioverfügbarkeit und Haltbarkeit aufweisen.

    Protein-Ligand Docking: In diesem Fall ist der Ligand niedermolekular. Es gibt grundsätzlich mehrere Anwendungsszenarien für das Durchmustern von derartigen Liganddatenbanken auf der Suche nach interessanten Leitstrukturen für neue Wirkstoffe.

     

    1. Wenn die Struktur des Proteins und seine Bindestelle bekannt sind, kann jedes Molekül in der Liganddatenbank daraufhin getestet werden, wie gut es in die Bindetasche des Rezeptors paßt. Dazu werden Programme verwendet, die den Liganden geometrisch in die Bindetasche einpassen und dabei gleichzeitig eine Abschätzung der Energie die Komplexes (genauer: der Differenz zwischen freier Energie im gebundenen und ungebundenen Zustand) berechnen. Im Umfeld des Schwerpunktes ist das zur Zeit schnellste derartige Docking Programm FlexX [25] entstanden, das diese Aufgabe in wenigen Minuten auf einer Workstation bewältigt und sich deshalb auch für die Durchmusterung größerer Ligandmengen eignet (siehe auch Abbildung 3). FlexX berücksichtigt die strukturelle Beweglichkeit des Liganden, hält aber das Protein starr. Es gibt Programme, die auch den Rezeptor flexibel halten, siehe z.B. [26]. Diese benötigen jedoch heute noch wesentlich längere Laufzeiten. Die schnelle Berechnung geeigneter Energiefunktionen [27] steht neben der Behandlung der kombinatorischen Vielfalt [1, 28, 29,30] der molekularen 3D Strukturen im Zentrum der Ansätze zum Docking.


      Abbildung 3: Darstellung des Liganden MTX in der Bindetasche des Rezeptorproteins DHFR. rot = gemessen, grün = berechnet mit FlexX

       


    2. Ist die Struktur des Rezeptors nicht bekannt, kennt man aber Liganden, die an ihn binden, so kann man Verfahren verwenden, die auf einer Ähnlichkeitsanalyse von Liganden beruhen. Dazu berechnet man eine strukturelle Überlagerung der beiden Ligandmoleküle. Diese Aufgabe ist schwieriger als das Docking, da Information über den Rezeptor fehlt. Es gibt aktuelle Ansätze mit genetischen Algorithmen, die beide Ligandmoleküle flexibel halten [31], aber Laufzeiten um eine Stunde pro Ligand haben. Programme zur schnelleren Behandlung von Liganden sind in Arbeit [32,33], können aber zur Zeit nur ein Ligandmolekül flexibel halten.
    3. Im allgemeinen können diverse indirekte oder Teilinformationen über die Struktur des Rezeptors zugänglich sein. Diese Informationen bei der Wirkstoffsuche zu nutzen, erfordert zum einen eine Datenbank, die solche Informationen effizient zugreifbar macht und zum anderen Modelle und Algorithmen, die solche Informationen nutzen können. Im Rahmen des Reliwe Verbundes ist die ReLiBase entstanden, die einen Prototypen für eine Rezeptor-Ligand Datenbank darstellt [34].

       

    Alle bisher beschriebenen Zugänge gehen von der Existenz großer Mengen bereits bekannter und vorliegender Liganden aus. Ein alternativer Zugang ist, ein noch nicht bekanntes Ligandmolekül neu in der Rezeptortasche maßzuschneidern. Dieser Zugang wird als De Novo Design bezeichnet [35, 36]. Eine aktuelle Variante des De Novo Design versucht, Familien neuartiger Liganden auf sogenannten "kombinatorischen Bibliotheken" aufzubauen. Das sind Bibliotheken molekularer Bausteine, aus denen nach einem durchgängigen Bauprinzip Liganden gefertigt werden können, deren wirtschaftliche Synthese gewährleistet werden kann und deren Bioverfügbarkeit und Toxizität in erhöhtem Maße abschätzbar sind. Die ersten kombinatorischen Bibliotheken hatten (natürliche oder künstliche) Aminosäuren als Bausteine und basierten auf dem Bauprinzip der Peptidbindung [37]. Gubernator et al. [38] haben eine kombinatorische Bibliothek vorgeschlagen, die auf der Ugi-Reaktion oder geeigneten organischen Bausteinen basiert.

    Protein-Protein Docking: Das Problem beim Protein-Protein Docking, also wenn der Ligand ebenfalls ein Protein ist, ist etwas anders gelagert. Hier sind beide Bindungspartner zunächst im Großen und Ganzen starr und haben eine recht große Kontaktoberfläche (zwischen mehreren hundert und wenigen tausend Å2). Das Problem hat also in erster Näherung die Qualität einer rigiden Strukturüberlagerung (eines Proteins mit dem "Negativabdruck" des anderen Proteins). Allerdings finden beim Bindungsprozeß subtile Konformationsänderungen an den Kontaktoberflächen statt (induced fit), die manchmal sogar die Gesamtkonformation eines oder beider Bindungspartner nachhaltig verändern. Solche Flexibilitäten können bis heute nur mit größtem Zeitaufwand, wenn überhaupt, berechnet werden [39]. Meistens wird Induced Fit dadurch berücksichtigt, daß die sterischen Anforderungen an die Nicht-Überlappung der beiden Bindungspartner weich gehalten werden. Damit werden Dockingprobleme gelöst, bei denen sich die konformationellen Änderungen der Bindungspartner in engen Grenzen halten.

    Andere Dockingprobleme: Dockingprobleme mit DNA und RNA als Bindungspartner beinhalten häufig Desolvatationseffekte sowie sehr subtile Oberflächenerkennung, z.B. in der DNA-Furche. Solche Dockingprobleme werden heute nicht sehr häufig, und wenn, dann ausschließlich mit rechenintensiven Methoden bearbeitet, die zum Screening nicht geeignet sind.

    1.1.2.9 Modellierung von metabolischen und regulatorischen Netzwerken

    Molekulare Wechselwirkungen sind nur einzelne Bausteine in komplexen Netzwerken, die die Grundlage für die regulatorischen und metabolischen Prozesse in lebenden Organismen sind. Abbildung 4 zeigt einen Ausschnitt aus dem metabolischen Netzwerk von E. coli.

    Nur auf der Basis metabolischer Netzwerke können Wirkungen des Wirkstoffs, die in vivo zu verzeichnen sind und über die in vitro zu beobachtenden Effekte hinausgehen, verstanden werden. Heute ist der einzig gangbare Weg zum Wirkstoffentwurf der, einzelne Wechselwirkungen, also Kanten im metabolischen Netzwerk, ganz auszuschalten und damit gezielt Stoffwechselkreisläufe zu brechen. Dazu benötigt man sogenannte "Inhibitoren", also Moleküle, die fest an Enzyme binden und ihre katalytische Wirkung blockieren. Schon die Identifikation solcher Wechselwirkungen kann auf der Basis umfassenden Wissens über einen Organismus und mit Rechnerhilfe gezielter geschehen als dies heute der Fall ist. Deshalb sind metabolische Netzwerke und ihre Analyse auch ein wichtiges Element der Zielstruktursuche (siehe auch 1.1.2.7).

    Seit ganz wenigen Jahren ist man im Begriff, die metabolischen Zusammenhänge on-line in Datenbanken zusammenzufassen [40, 41, 42]. Ferner gibt es erste Ansätze zur Modellierung metabolischer Zusammenhänge, die über die klassischen Methoden partieller Differentialgleichungen hinausgehen und Informatikmethoden benutzen [43, 44]. Eine deratige Methode, die auf Computeralgebramethoden zurückgreift, stammt aus dem Umfeld des Schwerpunktes [45]. Auch im Bereich der interkativen Simulation metabolischer Netzwerke wurden im Umfeld des Schwerpunktes Vorarbeiten geleistet [46, 47].


    Abbildung 4: Übersicht über das metabolische Netzwerk von E coli. Jede Kante in diesem Graphen entspricht einer molekularen Wechselwirkung.


    Detailliertes Wissen über das Genom eines Organismus kann letztlich helfen, Prozesse der Zelldifferenzierung und Entwicklung des Organismus aufzuklären. Im Umfeld des Schwerpunktes wurden bereits Arbeiten durchgeführt, die molekulare Grundlagen für diese Prozesse mit Hilfe von Rechnermodellierungen aufgedeckt haben. [48, 49]

    1.1.3 Stand der Bioinformatikmethoden

    Die Bioinformatik hat eine beachtliche Geschichte, was die Entwicklung von Methoden betrifft, die der Analyse kleinerer genomischer Datenbestände dienen, etwa einzelner Gene und Proteine oder homologer Familien davon, siehe z.B. [50]. Erst seit wenigen Jahren, seit ganze längere Genome zur Verfügung stehen, haben die Methoden der Bioinformatik eine neue Zielrichtung bekommen, die sich daraus ergibt, daß keine Zeit mehr dafür vorhanden ist, jedes einzelne Gen oder Protein mit rechenintensiven Methoden zu analysieren. Dadurch ergeben sich hohe Anforderungen an die Effizienz der Bioinformatikmethoden. Die verwendeten Modelle müssen von zu großem Detail abstrahieren und den wesentlichen biologischen Sachverhalt widerspiegeln.

    In diesem Abschnitt beschreiben wir, wie sich in jüngster Zeit die Bioinformatik auf diese Herausforderungen einzustellen beginnt. Insbesondere wird auch auf Arbeiten eingegangen, die auf potentielle Teilnehmer in dem hier beantragten Schwerpunkt zurückgehen.

    1.1.3.1 Alignment von genomischen und Proteinsequenzen

    Der Vergleich zweier ähnlicher Sequenzen wird im sogenannten Alignment dargestellt. Das Alignment schreibt zwei (oder im Falle des multiplen Alignments mehrere) Sequenzen unter Einführung von Lücken so übereinander, daß einander entsprechende Reste miteinander gepaart werden. Die klassische Methode zum Sequenzalignment ist ein dynamisches Programmierungsverfahren, welches die Anzahl bzw. Qualität der in einem Alignment einander zugeordneten Residuenpaare bei gleichzeitiger Bestrafung eingeführter Lücken maximiert [51, 52]. Dieses Verfahren hat sich als ausgesprochen erfolgreich bei der Identifikation homologer Proteine erwiesen. Auch liegt es den meisten praktischen Verfahren zum multiplen Alignment zugrunde.

    Sequenzalignment ist die Grundlage aller Analogieschlüsse, die bekannten Eigenschaften einer Sequenz, wie etwa Struktur oder Funktion, auf eine ähnliche übertragen. Zur Erfolgsgeschichte des Sequenzalignment gehören:

     

    1. die erste Entdeckung, daß ein Onkogen eine Variante eines zellulären Gens sein kann [53],
    2. die Vorhersage der Funktion des Genes für Mukoviszidose allein aus der Sequenz [54],
    3. die Identifikation einer Ähnlichkeit des Brustkrebsgens BRCA1 zu einem Protein, welches das bekannte Antionkogen p53 bindet [55].

       

    Durch die Ansprüche der Genomanalyse hat sich das Schwergewicht der Weiterentwicklung der Alignmentverfahren verschoben. Zum einen gibt es spezielle Anforderungen im Alignment von genomischer DNA. Hier muß die Existenz von Introns berücksichtigt werden, was zur Zulassung einer speziellen Kategorie extrem langer Lücken führt [56]. In anderem Zusammenhang, etwa bei der Analyse von ESTs, sind Sequenzierungsfehler mit einzukalkulieren, welche dann das Leseraster stören. In der Folge wurden Varianten des klassischen Algorithmus entwickelt, die diesen Aspekten Rechnung tragen [57, 58]. Ein weiterer wesentlicher Einsatzbereich der weiterentwickelten Methode liegt in der Genvorhersage. Statistische Methoden der Intron/Exon-Erkennung werden heute durch Vergleiche zu bekannten Proteinen dramatisch verbessert.

    Das Problem des multiplen Alignments hat eine hohe Berechnungskomplexität. Es hat im Zusammenhang der Genomsequenzierung auch verstärkt an Bedeutung gewonnen. Durch die Analyse der Genome verschiedener Modellorganismen sind zu vielen Proteinen heute homologe Familien bekannt. Diese müssen zum Zwecke der weiteren Analyse multipel aligniert werden. Ein wesentlicher deutscher Beitrag hierzu aus den letzten Jahren ist die divide-and-conquer Methode [59]. Auf diesem Algorithmus beruht das zur Zeit schnellste Verfahren, welches zudem in der Lage ist, das optimale Alignment mit einer Abweichung unter 1% anzunähern. Schwache Signale verlängern die Rechenzeit, verschlechtern aber nicht die Qualität der Approximation. Aus evolutionsbiologischer Sicht ist die gängige Praxis der Rekonstruktion von Phylogenien aus multiplen Alignments problematisiert worden. Ansätze wie das globale integrierte Baum-Alignment [60, 61] oder das segmentbasierte Alignment [62], um Positionen, die ein phylogenetisches Signal tragen, zu identifizieren [63], wurden in letzter Zeit von deutschen Gruppen verstärkt bearbeitet.

    Nicht allein die Qualität der Optimierung des Alignments ist ausschlaggebend. Das global optimale Alignment kann aufgrund fehlerhafter Daten oder von Ungenauigkeiten in der Kostenfunktion biologisch falsch sein. Daher ist es notwendig, neben einem optimalen Alignment auch die fast optimalen Alignments zu bestimmen [64]. Nur wo sich die meisten von ihnen ähneln, kann man dem Alignment trauen. Auf dieser Basis läßt sich jeder Alignmentposition eine "Signifikanz" zuweisen. [65].

    Die Wahl der Koeffizienten in der Kostenfunktion für das Alignment ist schwierig. In letzter Zeit wurden Algorithmen entwickelt, die zur Optimierung dieser Parameter dienen. Diese Algorithmen halten die fraglichen Parameter variabel und berechnen den Einfluß der Änderung solcher Parameter auf die Menge der optimalen Alignments [66, 67].

    Ein fundamentales Problem in der Analyse von Sequenzähnlichkeit vor dem Hintergrund der ständig wachsenden Datenmengen ist das Ansteigen der nur auf Grund zufälliger Ähnlichkeit zu erwartenden Qualität eines Alignments. Auch über diese statistischen Probleme wird in Heidelberg gearbeitet [68].

    1.1.3.2 Überlagerung von Proteinstrukturen

    Der effiziente und biologisch sinnvolle Strukturvergleich von Proteinen ist eine wesentliche Komponente von Genomanalysesystemen. Die strukturelle Clusterung von Proteinfamilien, die einen Teil der Strukturierung genomischer Information darstellt, basiert auf dem Strukturvergleich von Proteinen. Ferner werden Strukturvergleiche zur Eichung und Validierung von Proteinstrukturvorhersagemethoden benötigt. Insbesondere sind Strukturvergleiche die algorithmische Basis von Datenbanken von Proteinteilstrukturen (Fragmenten) und strukturellen Alignments von Proteinen.

    Die Überlagerung zweier Proteinstrukturen geschieht in zwei Schritten. Im ersten Schritt werden Atome der beiden Proteine, die sich strukturell entsprechen, einander zugeordnet. Im zweiten Schritt wird dann auf der Basis dieser Zuordnungen eine Transformation des einen Proteins auf das andere berechnet, das die Abweichungen der Koordinaten der einander zugeordneten Atome minimiert. Der zweite Schritt ist gut verstanden und kann schnell durchgeführt werden [69, 70, 71]. Der erste Schritt ist der schwierige. Hier beschränkt man sich häufig auf kritische Atome in den Proteinen, etwa Ca- oder C[beta]-Atome.

    Bei der Strukturüberlagerung werden verschiedene Arten von struktureller Ähnlichkeit unterschieden:

     

    1. Topologische Ähnlichkeit: Hier respektieren die Zuordnungen der Hauptkettenatome in den beiden Proteinen die Sequenzordnung, d h., die Proteine passen nicht nur strukturell aufeinander sondern "fädeln auch ineinander".
    2. Strukturelle Ähnlichkeit: Hier konzentriert man sich auf die Sekundärstrukturelemente (a-Helices und [beta]-Stränge) der beiden Proteine und überlagert sie ohne Ansehen ihrer Abfolge in der Sequenz.

      Bei der Strukturüberlagerung von Proteinen gibt es zwei sich entgegenstehende Gütekriterien. Das eine ist die Anzahl der Paare einander zugeordneter Atome. Das andere ist die strukturelle Abweichung zwischen den beiden Proteinen. Offenbar ist es umso einfacher, eine geringe strukturelle Abweichung zu erzielen, je weniger Atompaare man betrachtet. Auf der anderen Seite möchte man so große Anteile der beiden Proteine wie möglich einander strukturell zuordnen. Häufig sucht man nach maximalen identischen Teilstrukturen in den beiden zu vergleichenden Proteinen.

    Die algorithmischen Ansätze zur Strukturüberlagerung wurden zum Teil auch im Umfeld des Schwerpunktes entwickelt und umfassen:

     

    1. Hierarchische Versionen von dynamischer Programmierung [72],
    2. Methoden, die lokale strukturelle Ähnlichkeiten in einen Graphen abbilden, und durch Cliquensuche auf diesem Graphen größte gemeinsame Teilstrukturen finden [73, 74
    3. eine aus dem Gebiet der rechnergestützten Szenenanalyse entlehnte Hashing Methode [75],
    4. Methoden, die auf dem Vergleich von Distanzmatrizen basieren [76, 77, 78].

       

    Alle hier genannten Verfahren wurden auch eingesetzt, um die gesamte Proteinstrukturdatenbank zu clustern oder wesentliche Teile von ganzen Proteomen strukturell zu klassifizieren [79, 80, 81, 82]. Dennoch ist die Verfeinerung im Hinblick auf rechnerische Effizienz und biologische Signifikanz eine wichtige Anforderung an die weitere Forschung. Verschiedene Methoden ergeben bis heute noch oft unterschiedliche, ja zum Teil sogar nicht vergleichbare Resultate.

    1.1.3.3 Faltungserkennung und Threading bei Proteinen

    Wir unterscheiden folgende Arten der Proteinstrukturvorhersage

     

    1. Comparative Modeling. Hier wird eine Proteinsequenz A angegeben und nach der dreidimensionalen Struktur des Proteins gefragt. Dabei ist die Proteinsequenz (zu 40% oder mehr) ähnlich einer Proteinsequenz B, deren Struktur bereits bekannt ist. Das Protein B wird in der Regel durch herkömmliche Alignmenttechniken oder aber durch Threading (s. u. bestimmt.) Die Struktur des Proteins B wird als Modell für die von A genommen, und A wird auf B abgebildet. Diese Methode zielt darauf, genaue Strukturmodelle zu bekommen, ist aber im allgemeinen zeitaufwendig. Die Qualität der Modelle nimmt bei fallender prozentualer Sequenzidentität dramatisch ab.
    2. Threading. Die Situation ist hier wie beim Comparative Modeling, nur daß die Ähnlichkeit weit unter 40%, ja sogar unter 20% absinken kann. Dann kann man nicht mehr verlangen, daß die Kenntnis eines strukturellen Modells zu vollen Atomkoordinaten führt. Deshalb beschränkt man sich auf eine Zuordnung der Hauptkettenatome zwischen dem Modellprotein B, dem sogenannten "Template" und der zu modellierenden Proteinsequenz A, dem sogenannten "Target". Das Ziel dieser Modellierung ist, die Faltungsklasse, also die globale Architektur des Proteins zu bestimmen (Faltungserkennung), sowie den Hauptkettenverlauf im einzelnen zu berechnen. Die Berechnung des Hauptkettenverlaufs wird auch als "Sequenz-Struktur-Alignment" oder "Threading" bezeichnet. Um das Template-Protein B zu bestimmen, das als Strukturmodell für die gegebene Proteinsequenz A zu gelten hat, wird je ein Threading von A in alle Proteine aus einer Modellbibliothek von Proteinstrukturen berechnet. Diese Threadings werden mit geeigneten Kostenfunktionen bewertet, die im wesentlichen versuchen, die Energie der betreffenden Strukturen abzuschätzen. Template-Proteine, die zu Threadings mit attraktiven Kosten führen, bieten sich als Kandidaten für weitere Modellierungen oder zur Bestimmung der Faltungsklasse an.

      Ein gutes Threading in ein strukturell hochähnliches Template-Protein ermöglicht gegebenenfalls auch bei Proteinen ohne hochähnliche Vorbilder in der PDB die Modellierung des aktiven Zentrums oder anderer wesentlicher Teile des Proteins.

    3. Ab-initio. Hier ist wiederum eine Proteinsequenz gegeben und ihre Struktur gesucht. Diesmal gibt es jedoch kein ähnliches in seiner Struktur bekanntes Protein. Die Struktur der Sequenz muß also ohne weitere Kenntnisse modelliert werden.

       

    In dem weltweiten Experiment CASP-2 (Second Meeting on the Critical Assessment of Techniques for Protein Structure Prediction [83]) wurden alle drei Strukturvorhersageklassen (und Docking) einer genauen Prüfung dahingehend unterzogen, wie effektiv sie bei tatsächlichen Vorhersagen in Unkenntnis der Struktur sind. Dabei hat sich herausgestellt, daß insbesondere im Threading Bereich in den letzten Jahren große Fortschritte erzielt wurden.

    Für großangelegte Durchmusterungen von Genomen kommt nur die Problemklasse 2 (Threading) in Frage. Comparative Modeling ist bis auf weiteres zu rechenintensiv und erfordert eine explizite Einzelbehandlung jedes Proteins. Die Erfolge in ab initio Bereich sind bisher weit von dem entfernt, was man als biologisch nützlich bezeichnen kann. Allerdings hat sich ein Teilbereich der ab initio Strukturvorhersage, nämlich die Vorhersage von Sekundärstrukturen, vor allem als unterstützendes Element für Threading Methoden, etabliert. Hier gibt es neue Methoden, die auf neuronalen Netzen basieren und neben den Sequenzdaten auch evolutionäre Information berücksichtigen. Im Umfeld des Schwerpunktes sind zwei der weltbesten Methoden zur Sekundärstrukturvorhersagen entstanden [84, 85].

    Threading ist die wesentliche strukturbasierte Methode zur Durchmusterung von Proteomen mit dem Ziel der Strukturklassifikation aller Proteine.

    Es gibt weltweit bereits eine Vielzahl von Threadingmethoden, die sich auf unterschiedlichste Algorithmen und Eingangsinformationen stützen. Die natürlichste Unterscheidung findet sich zwischen Verfahren, die davon ausgehen, daß das chemische Strukturprofil zwischen Template und Target identisch ist (Profilmethoden) und solchen Verfahren, die berücksichtigen, daß Aminosäureaustausche auch dieses Profil verändern können, und deshalb Wechselwirkungen zwischen Aminosäurepaaren (oder sogar mehr Aminosäuren) bewerten (Potentialmethoden).

     

    1. Profilmethoden. Diese wurden in [86] pioniert. Aus dem Umfeld des Schwerpunktes sind erfolgreiche Varianten dieses Zugangs beigetragen worden [87, 88]. Der im Umfeld des Schwerpunktes entstandene Threader 123D [88] gehört zu den am meisten über das Internet benutzten Strukturvorhersageprogrammen. Die algorithmische Seite dieses Zugangs ist dynamische Programmierung. Deshalb können die Methoden ganze Strukturdatenbanken in Minutenschnelle durchforsten.

      Eine Spezialklasse der Profilmethoden benutzt überhaupt keine Strukturinformation. Die erfolgreichste Variante dieser Methoden basiert auf dem Hidden Markov Modell [89]. Es ist überraschend, wie zutreffend die Ergebnisse dieser Methoden sind, erwartet man doch, daß eine explizite Berücksichtigung von Strukturinformation zusätzliche Genauigkeit liefert. Ein genauer Vergleich der beiden Methodenklassen steht noch aus.

    2. Potentialmethoden. Diese berücksichtigen paarweise Wechselwirkungen zwischen Aminosäuren. Das unterliegende Optimierungsproblem (der Energiefunktion) ist jedoch NP-vollständig [90]. Daher gibt es nur approximative und heuristische Verfahren zur Berechnung von auf diesem Modell basierenden Threadings. Ein Branch&Bound Algorithmus, der bei ausreichender Laufzeit immer zu einem optimalen Alignment kommt, wird in [91] angegeben. Heuristische Verfahren, basierend auf Varianten von lokaler Suche, sind in [92] enthalten. Im Umfeld des Verbundes wurde eine Branch&Bound Methode entwickelt, die der Tatsache Rechnung trägt, daß die Kostenfunktionen selbst ungenau sind und Mengen fast optimaler Alignments berechnet [93].

       

    Aktuelle Erfahrungen zeigen, daß eine Kombination beider Zugänge zum Threading am erfolgversprechendsten ist. Die globale Architektur kann mit Profilmethoden bestimmt werden. Genauere Modellierungen von aktiven Zentren an ausgewählten Templates können dann von Potentialmethoden übernommen werden.

    Die Ableitung sinnvoller Kostenfunktion für Threading ist eine wesentliche Komponente des gesamten Forschungsgebietes [94]. Zu diesem Zweck werden auch parametrische Alignmentverfahren eingesetzt [67].

    Die Verwertung zusätzlicher experimentell verfügbarer Information über das Protein (Mutationsdaten, interpretierte CD Spektren etc., Teilinformationen aus Röntgendiffraktionsdaten, NMR Daten und elektronenmikroskopischen Experimenten und deren Benutzung bei der Strukturvorhersage ist ein noch nicht weit entwickeltes Gebiet. Hier gibt es sowohl von der Datenbankseite als auch im Bereich der Analysealgorithmen noch viele offene Probleme. Dieser Forschungsbereich leidet auch unter der Situation, daß sich Theoretiker und Experimentatoren heute noch nicht nahe genug stehen. Es gibt jedoch auch in diesem Bereich einzelne Vorarbeiten, auch im Umfeld des Schwerpunktes [95, 96].

    1.1.3.4 Strukturvorhersagen bei anderen Biomolekülen

    Auch die räumlichen Strukturen von DNA und RNA sind relevant. Hier ist die rechnergestützte Vorhersage jedoch etwas anders gelagert. DNA ist strukturell sehr stabil (Doppelhelix), so daß es nur auf der Ebene der Feinstruktur interessante Fragestellungen gibt. Dazu gehört etwa die Erkennung des in der DNA gespeicherten genetischen Codes durch die DNA lesende Enzyme. Die meisten dieser Fragestellungen sind jedoch so schwierig, daß sie zur Zeit eine rechnergestützte Analyse nicht erlauben. Untersuchungen von Biegungen der DNA sind dagegen möglich, jedoch sind uns keine Informatikmethoden bekannt, die hier angewandt werden.

    RNA ist strukturell viel variabler als DNA und spielt daher eine Zwitterrolle, einerseits als Informationsspeicher und andererseits als Stoffwechselmolekül. Damit ist auch die 3D Struktur von RNA interessant. Der experimentell aufgelöste Datenbestand ist hier wesentlich kleiner als bei Proteinen und beschränkt sich fast ausschließlich auf Transfer-RNA. Dreidimensionale Modellierung von RNA ist deshalb auch heute noch kein etabliertes Gebiet. Jedoch wird seit vielen Jahren an rechnergestützten Methoden zur Bestimmung der Sekundärstruktur von RNA gearbeitet. (Dieser Begriff ist nicht mit dem bei Proteinen zu verwechseln. Es handelt sich um grundlegend unterschiedliche Strukturmerkmale, die nur den Namen teilen.)

    Zur Sekundärstrukturvorhersage von RNA gibt es drei Zugänge [97]. Der erste versucht, die Sekundärstruktur von RNA auf der Basis eines Sequenzvergleichs zu ermitteln. Dieser Zugang hat bis heute hohe interaktive Anteile. Der zweite, informatiknähere Zugang, reduziert die Strukturvorhersage auf die Optimierung einer heuristischen Energiefunktion, die jedem Feature einer RNA Sekundärstruktur (Basenpaarung, Loop, Bulge, Hairpin, Multiloop) einen gewissen energetischen Anteil zumißt. Die entsprechenden Algorithmen sind wieder Versionen dynamischer Programmierung [98]. Ein dritter Ansatz beruht auf statistischen Modellen über die Wahrscheinlichkeit der Ausbildung von Strukturfeatures [99, 100].

    Bei RNA Strukturen hat man auch früher als bei Proteinen begonnen, Strukturlandschaften und ihre evolutiven und energetischen Zusammenhänge zu untersuchen. In der Weiterentwicklung von Kimura's "Neutral Theory of Evolution" [101] werden globale Sequenz-Strukturbeziehungen untersucht und große Strukturlandschaften komplett berechnet und analysiert [102]. Ribosomale RNAs und ihre Strukturen sind eine wichtige Basis zur Konstruktion von Phylogenien. Strukturelle Ähnlichkeiten in den UTRs von mRNA gelten derzeit als Schlüssel zur Erklärung von Mechanismen der Genregulation.

    Anders als beim Sequenzvergleich gibt es noch keinen etablierten Ähnlichkeitsbegriff für RNA-Strukturen. Verwendete Modelle sind Basenpaarabstände [98] und (seltener) die tree-edit-distance [103]. Verfahren zum systematischen Vergleich einer großen Anzahl von Strukturen und ihrer Substrukturen (etwa zur Klassifizierung der UTRs eines Genoms und damit der von ihnen regulierten Mechanismen, s.o.) gibt es noch nicht.

    1.1.3.5 Molekulares Docking

    Eine Taxonomie der Probleme beim Docking wurde bereits unter 1.1.2.8 gegeben. Hier soll auf die bioinformatischen Methoden zur Lösung von Dockingproblemen eingegangen werden.

    Protein-Ligand Docking: Beim Docking gibt es im wesentlichen zwei Problembereiche. Der eine behandelt die Vielfalt der Konformationen der beteiligten Moleküle. Der andere umfaßt die Bewertung einer gegebenen Konformation auf der Basis einer heuristischen Energiefunktion.

     

    1. Vielfalt der Konformationen: Hier sind Ansätze erfolgreich, die den Konformationsraum diskretisieren [28]. Sie erlauben im Zusammenhang mit einer geeigneten Energiefunktion die Anwendung von baumorientierter Suche nach energetisch günstigen Komplexen. Die starren Teile der Moleküle werden dabei [104, 105] mit Clique-Algorithmen oder geometrischem Hashing gedockt [25]. Eine Alternative zur diskreten Modellierung, ist, lokale Suche auf einem kontinuierlichen Konformationsraum durchzuführen. Die algorithmische Basis für solche Methoden sind häufig genetische Algorithmen [26] oder lokale Suchverfahren [106]. Diese Methoden sind rechenintensiver als die auf diskreter Modellierung basierenden.
    2. Energiefunktion: Auch hier gibt es eine schnelle und eine ausführliche Variante. Die schnelle Variante [27] berücksichtigt kurzreichweitige nichtkovalente Wechselwirkungen wie H- und Salzbrücken und aromatische Wechselwirkungen, vernächlässigt aber die langreichweitige Coulombkraft. Auch entropische Anteile werden nur grob (Anzahl der drehbaren Bindungen im freien Liganden) bzw. implizit durch die Kalibrierung der Kostenfunktion an bekannten Komplexen berücksichtigt. Komplexere Kostenfunktionen berücksichtigen elektrostatische und entropische Effekte expliziter [106, 107]. Allerdings sind solche Energiefunktionen sehr aufwendig zu berechnen.

       

    Die schnelle Berechnung genauer Energiefunktionen ist zur Zeit der Engpaß für schnelle Dockingmethoden, wie sie bei der Durchmusterung großer Datenbestände benötigt werden.

    Protein-Protein Docking: Beim Protein-Protein Docking werden zwei unterschiedliche Zugänge verwendet. Der eine gründet sich auf eine detaillierte Modellierung der molekularen Flexibilität und benutzt komplexe Energiefunktionen sowie Algorithmen aus dem Bereich der Molekulardynamik oder lokalen Optimierung (Monte Carlo Methoden). Als Beispielreferenz für eine sehr umfangreiche Literatur in diesem Bereich sei [106] angegeben. Der andere Zugang betrachtet beide Proteine als starre Körper und verwendet ähnliche Algorithmen wie beim starren Docken niedermolekularer Liganden. Verwendete Algorithmen gründen sich hier auf Cliquesuche [108], geometrisches Hashing [109] oder Korrelationsberechnungen, die die schnelle Fouriertransformation benutzen [110]. Die ersten Varianten dieser Methoden betrachteten nur die geometrische Komplementarität der beiden Bindungspartner an der Kontaktfläche. Zu diesem Zweck wurden mehrere Vorschläge für effiziente Repräsentationen von molekularen Oberflächen gemacht [111, 112, 113]. Beiträge zur Oberflächendarstellung aus dem Umfeld des Schwerpunktes finden sich in [114]. Für eine erfolgreiche Dockingmethode ist jedoch die Einbeziehung chemischer Informationen notwendig. Aktuelle Resultate in dieser Richtung wurden auch im Umfeld des Schwerpunktes bearbeitet [115,116].

    1.1.3.6 Molekularbiologische Datenbanken

    Es gibt eine recht große Zahl von Datensammlungen molekularbiologischer Daten. Die Gesamtzahl dürfte zwischen 100 und 200 liegen. Dabei umfaßt das Spektrum große Datensätze, deren Aufgabe die globale, aktuelle, vollständige Erfassung biologischer Sequenzen ist ebenso wie private Sammlungen, die nur für Spezialisten von Interesse sind. Zu den großen, institutionalisierten Datenbanken gehören die Datenbanken am NCBI (National Centre for Biotechnology Information, USA) und EBI (European Bioinformatics Institute, Cambridge) für Nukleinsäuresequenzen, die Gruppe PIR-International (NBRF, Washington D.C., MIPS, Martinsried und JIPID, Tokyo) und SwissProt (Genf) für Proteinsequenzen. Das Volumen beträgt bei den Datenbanken für Nukleinsäuresequenzen ca. 750 Millionen Basenpaare, dem stehen ca. 150.000 Proteinsequenzen gegenüber. Diese für die Molekularbiologie lebenswichtigen Datenbanken sind weitgehend institutionalisiert und unterstützen Zugriffsmöglichkeiten über das Internet. Die Protein Database (Brookhaven, USA) ist die wichtigste Ressource für Strukturdaten, vor allem von Proteinstrukturen aus kristallographischen Untersuchungen.

    Zwei grundsätzlich verschiedene Ansätze der Struktur der Datensammlungen sind zu unterscheiden: einerseits verstehen sich die Nukleinsäuredatenbanken als Archive, d.h. Einträge sind weitgehend statisch, können redundant und inkonsistent sein. Ihr Inhalt ist im wesentlichen von den elektronischen Einsendungen von Wissenschaftlern abhängig. Demgegenüber steht der Grundsatz "ein Gen - ein Datenbankeintrag" der von den Proteinsequenzdatenbanken verfolgt wird. Dabei fällt der Datenbank der aufwendige Prozeß der Qualitätskontrolle und der wissenschaftlichen Annotation der Daten zu.

    In Ergänzung zu den Primärdatensammlungen sind besonders die vollständig sequenzierten Modellgenome zu nennen, die meist von den Gruppen gepflegt werden, die an der experimentellen Sequenzierung beteiligt waren. Alle Sammlungen dieser Art sind über das Internet zugänglich. Eine Übersicht gibt Abbildung 5.

    Die wichtigen Datensammlungen stellen sich jährlich in einem Sonderband von Nucleic Acids Research vor, siehe etwa [117]. Die deutsche Beteiligung ist im Vergleich zu den Anstrengungen in USA und Großbritannien eher bescheiden, aber mit der TRANSFAC Sammlung der GBF, der Proteinsequenzdatenbank und der Datenbank des Hefegenoms von MIPS sowie der umfangreichen Enzymdatenbank BRENDA an der Universität Köln wird ein wichtiger Beitrag zu den internationalen Anstrengungen geleistet.

    Mit der großen Zahl von Datensammlungen, ihrer strukturellen Heterogenität und ihrer semantischen und syntaktischen Inkompatibilität sind eine ganze Reihe von Problemen verbunden, die bisher nur unvollkommen gelöst werden konnten. Ansätze zum Zugriff auf heterogene Datensätze durch vernetzte Zeiger waren erfolgreich [118]. Die Methode, Querverweise zwischen den Datenbanken zum Erzeugen gemeinsamer Objekte zu nutzen, kann jedoch nicht die grundsätzlichen Schwierigkeiten heterogener und inkonsistenter Einträge überwinden. Die Entwicklung integrierter Genomdatenbanken führte bisher nicht zu befriedigenden Ergebnissen [119]. Die Verbesserung der Methoden zum Zugriff auf heterogene Datenbanken oder die Generierung homogener, komplexer Genomdatenbanken sollte daher in den Katalog der Aufgaben des Schwerpunkts eingeschlossen werden (siehe auch 1.1.4.3).

    Common DNA and Protein Databases

    EBI - Cambridge UK
    http://www.ebi.ac.uk/ebi_home.html

    NCBI - Bethesda, USA
    http://www.ncbi.nlm.nih.gov/

    PIR-International
    http://www.mips.biochem.mpg.de

    SwissProt (Genf, Schweiz)
    http://expasy.hcuge.ch/

    Genome Sequencing Projects

    Magpie Genome Sequencing Project List
    http://www.mcs.anl.gov/home/gaasterl/magpie.html

    The Sanger Centre (Cambridge, UK)
    http://www.sanger.ac.uk/

    Washington University Department of Genetics (St. Louis, USA)
    http://genome.wustl.edu/

    Vollständige Genome

    The Institute of Genome Research (Rockville, USA)
    http://


    S. cerevisiae Datensammlungen

    Munich Information Centre f. Protein Sequences (MIPS, Martinsried)
    http://www.mips.biochem.mpg.de/mips/yeast/

    Yeast Protein Database (YPD) (Cold Spring Harbor, USA)
    http://quest7.proteome.com/YPDhome.html

    Saccharomyces Genome Database (SGD) (Stanford Univ., USA)
    http://genome-www.stanford.edu/

    Spezielle Datensammlungen Hefe

    Genetic and physical maps of S. cerevisiae (Stanford Univ. USA)
    http://genome-www.stanford.edu/sacchdb/edition12.html

    Related human genes (NIH XREFdb) (NIH, Bethesda, USA)
    http://www.ncbi.nlm.nih.gov/XREFdb/

    NIH Yeast Info page (NIH, Bethesda, USA)
    http://www.ncbi.nlm.nih.gov/Yeast/budding.html

    Schizosaccharomyces pombe by Frans Hochstenbach (Amsterdam, Niederlande)
    http://www2.bio.uva.nl/pombe/

    Candida albicans information
    http://alces.med.umn.edu/Candida.html


    Abbildung 5: Liste einiger Datenbanken für genomische Informationen


    1.1.3.7 Visualisierung

    Die in der Bioinformatik zu bearbeitende Datenfülle erzwingt die Verwendung aller sich bietenden Hilfsmittel für eine leicht und schnell erfaßbare Präsentation

    a) der relevanten Details der infrage stehenden und zu explorierenden Daten und

    b) der Resultate, die im Zuge der Analyse dieser Daten mit den Methoden der Bioinformatik erzielt worden sind.

    Insbesondere sind, wo Texte und Tabellen nicht mehr ausreichen, Methoden der Visualisierung heranzuziehen, wie sie für die computerunterstützte Bearbeitung biologischer Daten schon seit geraumer Zeit in einer ganzen Reihe von Arbeitsgruppen entwickelt worden sind - von der Visualisierung biologischer Verwandtschafts- bzw. Ähnlichkeitsverhältnisse [120, 121, 122, 123] und ähnlichen graphischen Darstellungen über die Visualisierung von Sequenz-Alignierungen [93] oder von RNA-Sekundärstrukturen [124] bis hin zur Analyse der 3D-Struktur von Proteinen und von Faltungs- oder Docking-Prozessen [125, 126, 127, 128. Der geplante DFG-Schwerpunkt wird deswegen diesen Aspekt der Computational Molecular Biology als ein wichtiges integratives Moment explizit berücksichtigen.

     

    1.1.4 Stand der einschlägigen Informatikforschung

    In diesem Abschnitt beschreiben wir, welche innerinformatischen Methoden in die Bioinformatik überführt wurden und dort die Leistungsfähigkeit der entstehenden Werkzeuge begründet haben.

    1.1.4.1 Algorithmenentwicklung

    Es gibt eine Vielzahl von algorithmischen Paradigmen, die in der Bioinformatik von großem Wert sind.

     

    1. Kombinatorische Algorithmen. Molekulare Sequenzen sind kombinatorische Strukturen. Auf sie lassen sich vielfältige kombinatorische Algorithmen anwenden, die die methodische Grundlage für die Assemblierung von DNA-Sequenzfragmenten und die gesamte Sequenzanalyse bilden. Insbesondere die dynamische Programmierung ist hier verbreitet. Sie beruht zwar auf Modellannahmen, die nicht immer realistisch sind. Insbesondere setzt sie die Unabhängigkeit von Sequenzpositionen voraus. Aber die Algorithmen sind sehr schnell und die Parametermenge, auf die sie sich stützen, ist begrenzt und kann daher mit statistischen Methoden auch aus einem begrenzten Datensatz extrahiert werden. Kombinatorische Algorithmen zur Sequenzanalyse werden seit etwa 15 Jahren in der Informatik entwickelt. Die entsprechende Literatur hat eine Fülle erreicht, die auch eine repräsentative Auswahl von Arbeiten den Rahmen dieses Antrages sprengen läßt.

      Gibt man die vereinfachenden Modellannahmen auf, so entstehen bei der Sequenzanalyse komplexere kombinatorische Optimierungsprobleme, die wiederum unter Beteiligung von Informatikern gelöst werden. Hier spielen Branch&Bound Methoden eine Rolle [91], aber auch Schnittebenenverfahren [129] und andere komplexe Optimierungmethoden werden eingesetzt.

      Auch molekulare Strukturen können mit kombinatorischen Methoden analysiert werden. So hat etwa die Berechnung und Analyse molekularer Oberflächen kombinatorische Aspekte [130, 131] und auch die Cliquensuchalgorithmen und das geometrische Hashing sind kombinatorische Verfahren, die von oder unter Beteiligung von Informatikern entstanden sind und verbessert wurden [74, 75, 132].

      Die biologische Anwendung erfordert es, daß kombinatorische Algorithmen eng mit statistischen Modellen und Verfahren verwoben werden. Eine besonders erfolgreiche Ausprägung in diesem Bereich ist das Hidden Markov Modell [89, 133]. Dabei handelt es sich um eine auf stochastischen endlichen Automaten basierende algorithmische Konstruktion, die schnelle Analysen mit hoher Adaptivität verbindet. Ein Hidden Markov Modell ist auf einen gegebenen Datenbestand trainierbar und erkennt nach dem Training Daten ähnlicher Art, erlaubt aber auch, solche Daten weiter zu interpretieren.

      Internationale Foren für kombinatorische Algorithmen für biologische Probleme bieten die Konferenzreihen International Symposium on Combinatorial Pattern Matching (CPM), und International Conference on Computational Molecular Biology (RECOMB). Spezialbände von Informatikzeitschriften widmen sich ebenfalls diesem Thema [135, 136], und es ist ein Schwerpunkt der Zeitschrift Journal of Computational Biology.

    2. Neuronale Netze und genetische Algorithmen: Neuronale Netze sind insbesondere im Bereich der Sekundärstrukturvorhersage bei Proteinen mit größtem Erfolg eingesetzt worden [84]. Auch bei der Analyse von Proteinsequenzen [136] und bei der Genidentifikation [14] finden die neuronalen Netze erfolgreich Anwendung. Genetische Algorithmen finden in einer Reihe von Problemen der Molekularen Bioinformatik Anwendung, vor allem im Bereich des Docking [26].
    3. Maschinelle Lernverfahren, Wissensrepräsentation: Maschinelle Lernverfahren sind automatische Methoden zum Entdecken von Regularitäten in großen Datenmengen. Im Gegensatz zu vielen statistischen Verfahren können sie auch dann eingesetzt werden, wenn Angaben über statistische Verteilungen der Eingabedaten fehlen. Molekularbiologische Daten werden in einer Vielzahl von Datenbanken gespeichert. In vielen Fällen handelt es sich dabei um unstrukturierte Daten, deren begriffliche Zusammenhänge nicht bekannt sind. Zum Aufdecken dieser Zusammenhänge können Begriffslern- und Begriffsbildungsverfahren beitragen [137, 138, 139]. Sequenzmerkmale von Proteinen stehen z.B. in Beziehung zu den zellulären Umgebungen, in denen sie ihre spezifischen Funktionen ausüben. Entsprechende Korrelationen, die die Funktionsvorhersage verbessern, können durch maschinelle Lernverfahren identifiziert werden[140]. Das Finden von geeigneten Repräsentationen für die Ein- und Ausgabedaten von Lernverfahren ist entscheidend für ihre Leistungsfähigkeit. Effiziente Techniken der Wissensrepräsentation sind auch nötig, um biochemische Pathways oder funktionale Hierarchien bei der Vorhersage von Proteinfunktionen einzubeziehen [41].

       

    1.1.4.2 Softwareentwurfstechnik

    Aus Softwartechnischer Sicht unterscheiden wir drei Arbeitsgebiete:

     

    1. Nutzung netzbasierter Technologien: Softwaretechnisch gesehen sind zweifellos WWW und HTML ein herausragender Beitrag der Informatik zum Fortschritt der Molekularbiologie in den letzten Jahren. Sequenzdatenbestände werden an wenigen Orten vorgehalten und ständig aktualisiert; die weltweite Nutzung erfolgt über das Netz. Bioinformatik-Server bieten effiziente Suchverfahren, Strukturberechnung, Visualisierung u.v.a. an. Durch die Verwendung von HTML entstehen komfortable Benutzerschnittstellen mit hohem Wiedererkennungs-Effekt. Beispiele sind Visualisierung von Duplizierungen im Hefegenom [20], die Vielzahl der ACEDB-basierten Datenbanken [141], oder Query-Server für diverse Genome wie Maestro [142]. Das Client-Server Paradigma ist allgegenwärtig; es befreit die Nutzer der Bioinformatik-Werkzeuge von der lokalen Softwareinstallation und -pflege. Es umgeht so auch das Problem inkompatibler oder wechselnder Soft- und Hardware-Plattformen bei Entwickler und Nutzer. Die Nutzung von Java als plattformunabhängige Basis für verteiltes Rechnen fügt dem Client-Server Paradigma eine neue Dimension hinzu, da nun auch Rechenleistung beim Benutzer einbezogen werden kann. Dies wird entscheidenden Einfluß auf die Gestaltung von Werkzeugen nehmen. Im Falle von Screening-Verfahren bedeutet dies u.a. die Visualisierung und interaktive Gestaltung von Resultaten.
    2. Interoperabilität von Werkzeugen: Die Interoperabilität von Werkzeugen leidet unter der Vielzahl der verwendeten Datentypen. Meist werden Textformate verwendet, der Einsatz abstrakter Datentypen oder geeigneter Hierarchien von Objektklassen hat bis jetzt wenig Eingang gefunden. Erste Ansätze zur Verknüpfung von Daten unterschiedlicher Herkunft sind des SEQIO-Paket [143]. GDE ist ein graphischer Sequenzeditor [144], der die Einbindung eigener Analyseprogramme gestattet. Solche Software hilft dem Entwickler, ein Anwender kann heute nicht ohne eigene Programmierarbeit die Ein-und Ausgaben verschiedener Werkzeuge miteinander verknüpfen. Eine Objektbibliothek in Perl entwickelt zur Zeit das BioPerl-Projekt [145]; hier sollen Objekte wie Sequenzen, Aligments und Phylogenien die Kommunikation zwischen Werkzeugen auf eine höhere Abstraktionsstufe heben.
    3. Computergestützte Projektabwicklung für die Analyse genomischer Daten: Mit der weitgehenden Automatisierung der Sequenzierungsmethoden und der Weiterentwicklung von Screening-Verfahren wird man künftig von dem folgenden Szenario ausgehen: Ein Sequenzierzentrum übernimmt den Auftrag der Sequenzierung eines Gesamtgenoms, z.B. für einen industriellen Anwender. Ein solches Projekt reicht von der Erstellung einer initialen Genbank, Klonierung, Sequenzierung, Rekonstruktion bis hin zu Analyse funktionaler Einheiten, Annotation und Visualisierung. Als Ergebnis werden alle Informationen über das untersuchte Genom dem Auftraggeber zur Verfügung gestellt, die mittels weitgehend automatisierter Labortechniken und durch large-scale Screening Verfahren gewonnen werden können. Dabei fällt eine Vielfalt von Daten in unterschiedlichsten Stadien der Verarbeitung an, deren konsistentes Management ein Problem von beträchtlicher Komplexität darstellt. Der Projektfortschritt sollte ausgewiesen und die Einhaltung von Verfahrensregeln überwacht werden. Systematische Ansätze zur Software-Unterstützung der Abwicklung ganzer Genom-Projekte sind uns noch nicht bekannt.

       

    1.1.4.3 Datenbankmethoden

    Wie bereits unter 1.1.3.6 ausgeführt, bereiten die Heterogenität, die Inkompatibilität und die inhomogenen Zugriffsmöglichkeiten auf die biologischen Datenbanken für die Benutzer erhebliche Probleme. Dabei kann zwischen Standardanfragen (z.B. welche verwandten Sequenzen zu einer Gensequenz X sind in GenBank vorhanden?) und komplexen, nicht vorhersehbaren Anfragen (welche Proteine weisen das Sekundärstrukturmuster [alpha][alpha][beta][beta][alpha] auf?) unterschieden werden. Die erste Kategorie von Abfragen kann durch standardisierte Software (z.B. BLAST) oder geeignete Datenstrukturen (Homologiedatenbanken) beantwortet werden, die zweite Kategorie erfordert spezielle Datenstrukturen. Ein Beispiel für eine neuere Entwicklung in diesem Bereich gibt [146].

    Für biologische Datenbanken gibt es Ansätze auf der Basis von Flat Files (PDB), relationale Ansätze (die meisten Sequenzdatenbanken) sowie hiearchische und objektorientierte Ansätze 34. Die Datenbanken werden mit effizienten Zugriffsmethoden versehen. Neben den etablierten Verfahren zur Indizierung von Texten (z.B. invertierte Indizes) sind Positionsbäume (Suffix Bäume) zur schnellen Suche in großen Sequenzdatenbanken geeignet [21].

    Versuche der Vereinheitlichung und semantischen Definition biologischer Datenbanken [147] konnten sich bisher nicht durchsetzen. Die Kopplung biologischer Datenbanken wurde in den letzten Jahren z.T. mit Hilfe aus der Informatik, energisch vorangetrieben, siehe z.B. [34, 118].

    Nach dem Scheitern der Versuche, einheitliche Formatstandards für die biologischen Datenbanken zu definieren wird in letzter Zeit versucht, durch die Definition der Datenverteilschicht eine bessere Kompatibilität zu erreichen. Dabei stehen Bemühungen des EBI (Biostandards Projekt) und der Versuch mit dem Industriestandard CORBA (Common Object Request Broker Architecture) ein Instrument für den transparenten Zugriff von Programmen auf Datenbanken über Weitverkehrsnetze zu ermöglichen im Vordergrund.


    1.2 Wissenschaftliche Ziele und Arbeitsprogramm

    Das Ziel des Antrages ist, einen Akzent in der Entwicklung bioinformatischer Methoden zur Analyse genomischer Datenbestände zu setzen, der einen Ausgleich zur Erzeugung der gewaltigen molekularbiologischen Datenbestände schafft, die in den nächsten Jahren zu erwarten sind. Die Bioinformatik ist ein vielseitiges Gebiet mit Facetten, die von der Rechnerunterstützung bei der Sequenzierung von Nukleinsäuren über die Analyse verschiedenartigster Sequenzdaten bis zu der Vorhersage von molekularen Strukturen und deren Wechselwirkungen reichprechenden Forschergemeinde tun. Daher hat sich die Koordinationsgruppe entschlossen, die Fokussierung in dazu orthogonaler Art und Weise vorzusehen - nämlich durch die verwendeten Methoden.

    Wie schon in der Einführung dargelegt, erfährt die Molekularbiologie durch die in den nächsten Jahren bereitgestellten Genomdaten einen Paradigmenwechsel. Dieser Vorgang kann als nicht weniger als revolutionär betrachtet werden. Eric Lander [148] vergleicht ihn mit der Entdeckung des Periodensystems in der Chemie im letzten Jahrhundert. Die Chemie wurde durch diese Entwicklung von einer Disziplin, die eine unbeschreibliche und schlecht verstandene stoffliche Vielfalt zu erfassen suchte, zu einer Wissenschaft, der es möglich war, diese stoffliche Vielfalt vollständig auf überraschend wenige Grundsubtanzen und Gesetzmäßigkeiten zurückzuführen. Ähnliches steht jetzt der Molekularbiologie bevor. An die Stelle der Untersuchung phänotypischer Phänomene sowie der Erforschung von sehr begrenzten biomolekularen Systemen auf molekularbiologischem Niveau tritt jetzt zum ersten Mal die Möglichkeit, Organismen tatsächlich auf der Basis aller sie definierenden genomischen Daten zu analysieren und so global zu verstehen zu versuchen.

    Wie die Entwicklung des Periodensystems die Chemie revolutioniert hat und auf der einen Seite zur Entwicklung chemischer Industrien geführt, auf der anderen Seite den Grundstein für die Notwendigkeit der Entwicklung der Quantenmechanik gelegt hat, so sind von der Verfügbarkeit genomischer Information weitreichende Konsequenzen für die Molekularbiologie zu erwarten. Die Zusammenhänge zwischen molekularbiologischen Einzelsystemen werden zunehmend in das Zentrum molekularbiologischer Forschung treten. Gegenüber dem exakten Detailwissen über molekulare Einzelsysteme wird die Gewinnung von Übersichten über Organismen sowie deren evolutionäre Verwandtschaftbeziehungen an Bedeutung gewinnen. Dabei muß auch erlaubt sein, molekularbiologische Strukturen und Prozesse in Modelle zu fassen, die einen bisher nicht gekannten Abstraktionsgrad haben, denn auf abstrahierter Ebene sind Zusammenhänge besonders gut faßbar. Der Schwerpunkt setzt sich zum Ziel, Rechnermethoden zu entwickeln, die diese "neue" Molekularbiologie effektiv unterstützen.

    Die ausführlichen Beschreibungen des Standes der Forschung legen implizit die Forschungsziele nahe, nämlich dort einzugreifen, wo sich besondere Defizite im Bereich der rechnerunterstützten Methoden zeigen. Im einzelnen soll hier nochmals eine kurze Auflistung der wesentlichsten Bedarfsgebiete folgen.


    1.2.1 Anwendungsnahe Fragestellungen

    1.2.1.1 Bioinformatische Unterstützung der Genomsequenzierung, Datenbereinigung: Arbeiten auf diesem Gebiet sind insbesondere angesichts der in den letzten Jahren angelaufenen umfangreichen Sequenzierungen auch in Deutschland notwendig. Die Schwerpunkte liegen hier bei der Bewältigung des bei der Sequenzierung anfallenden Datenvolumens (Hybridisierungsdaten), der Interpretation der anfallenden Daten (Base calling, Assemblierungsverfahren).

    Ein oftmals unterschätztes Problem ist das Vorhandensein von Fehlern in molekularen Datenbanken. Diese können die Sequenz selbst betreffen, kommen in zunehmenden Maße auch in der Annotation vor und führen gerade bei funktionellen Angaben zu falschen Schlußfolgerungen und Experimenten. Hier müssen Filter entwickelt werden, die zu einer Reannotation führen.

    Sequenzfehler: Es ist allgemein bekannt, daß ESTs eine hohe Fehlerrate haben. Neben "Verunreinigungen" (Introns, Vektoren etc.) erschweren vor allem Leserahmenverschiebungen die Analyse. Diese können mittels "Codon Usage" und Homologiesuchen zumindest eingeengt werden.

    Annotationsfehler: Trotz verbesserter Verfahren zur Fehlererkennung auf Seiten der Datenbanken werden oftmals Annotationen aus Genomprojekten übernommen, die über Ähnlichkeitssuchen erstellt wurden. Da es sich in den überwiegenden Fällen um Paralogien handelt (andere Mitglieder einer Multigenfamilie) ist das Resultat oftmals eine Überinterpretation. Etwa ist der beste Datenbankhit eine Alkeholdehydrogenase; übertragen werden darf aber nur Dehydrogenase, da die Substratspezifität verschieden ist. Hier müssen Methoden zur Quantifizierung funktioneller Information entwickelt werden.

    1.2.1.2 Identifikation von Genen: Da hier international keine befriedigenden Lösungen vorliegen, muß es das Ziel sein, Methoden zu entwicklen, die für mehrere Spezies gültig sind. Mittels verfügbarer Datenbanken (regulatorische Elemente, Repeats, Codon Usage etc.) sollten komplementäre Signale genutzt werden und eine Abschätzung der Qualität bei Vorhersage erreicht werden. Hier sind Verbindungen zur Erkennung regulatorischer Regionen und auch zu Ähnlichkeitssuchen in Datenbanken sowie Fehlererkennung absehbar.

    1.2.1.3 Auffindung und Charakterisierung regulatorischer Elemente: Hier gilt es vorhandene Datenbanken auszubauen, die Sensitivität existierender Methoden zu verbessern und Methoden zu entwicklen, die die Erkennung neuer Elemente erlauben. Ein Schwerpunkt dabei ist die Ähnlichkeitssuche, Mustererkennung sowie die Erkennung von repetitiven Regionen. Ferner sind Methoden zu entwickeln, die die bisher bekannten Zusammenhänge innerhalb der Transkriptionsmaschinerie effektiv nutzen und dabei auch Kenntnisse über dreidimensionale molekulare Strukturen einbeziehen.

    1.2.1.4 Vergleichende Genomanalyse: Um genetische und evolutionäre Mechanismen zu verstehen, müssen nicht nur die Gene sondern ganze Genome eingehend studiert werden. Neben Aufschlüssen über Stoffwechselfragen können auch regulatorische Regionen erkannt werden (z.B. konservierte nicht-kodierende Bereiche). Die Analyse von Mutations-"hot spots", Operons, "Gene shuffling", Inversionsereignissen etc. erlaubt ein tieferes Verständnis von Genomevolution und damit auch Vorhersagen über funktionelle Einheiten und Genomstabilität. Der Vergleich mit Modellorganismen erlaubt auch ein besseres Verständnis für die Gene selbst; verbesserte Strukturvorhersagen, die Ermittlung von wichtigen konservierten Regionen und auch das Vorhandensein in bestimmten Organismenreichen sind wertvolle Informationen. Hier ist eine systematische Analyse erforderlich.

    1.2.1.5 Expressionsanalysen: Die Analyse der Unterschiede in den Expressionsniveaus zwischen gesunden und gleichartigen kranken Geweben ist ein Ausgangspunkt für die Suche nach neuen Therapien von Krankheiten. Das Gebiet ist neu, da die Daten jetzt erst verfügbar werden.

    1.2.1.6 Funktionsvorhersage und Funktionsspektrum im Proteom: Existierende Softwaresysteme ermöglichen eine grobe Klassifizierung großer Bestandteile eines Proteoms nach der Struktur und Funktion. Die Sensitivität der Methoden muß weiter verfeinert werden, um die Schlußfolgerungen bezüglich der metabolischen Zusammenhänge im untersuchten Organismus zuverlässiger zu machen.

    1.2.1.7 Suche nach krankheitsrelevanten Gegen und Proteinen: Das Screening ganzer Genome im Hinblick auf krankheitsrelevante Information revolutioniert die Pharmaindustrie. Die Suche nach Zielproteinen für den Wirkstoffentwurf ist hier die zentrale Fragestellung. Zu dieser Suche bedarf es empfindlicher Klassifikationsmethoden für Proteine nach deren Struktur bzw. Funktion (1.2.1.6) sowie einer Analyse von Expressionsdaten (1.2.1.5) und die effektiven Modellierung metabolischer Zusammenhänge (1.2.1.9). Das Problem, die Suche nach Zielstrukturen effizient durch Computer zu unterstützen, ist eine große Herausforderung, die sich nur als Summe vieler Einzelleistungen erreichen lassen wird.

    1.2.1.8 Strukturbasierter Wirkstoffentwurf: Bis auf weiteres steht zu erwarten, daß Wirkstoffe niedermolekulare organische Verbindungen sein werden. Bei der Entwicklung solcher Verbindungen steht zum einen das Protein-Ligand Docking Problem im Vordergrund (siehe 1.2.2.4). Will man den Wirkstoff nicht aus einer Datenbank entnehmen, sondern ihn zielgerichtet neu entwerfen (De novo Design), dann spielen vor allem die neuen Entwicklungen im Bereich der kombinatorischen Chemie eine Rolle. Hier gilt es, Docking Methoden im Hinblick auf eine Wirkstoffentwicklung auf der Basis solcher kombinatorischen Bibliotheken zu erweitern. Auf diese Weise läßt sich die Problematik der Toxizität und Bioverfügbarkeit ein wenig abmildern. Diese Aspekte des Wirkstoffentwurfs sind bisher noch ungenügend durch Computermodelle abgedeckt.

    1.2.1.9 Metabolismus und Regulation: Hier werden zum einen die entsprechenden Datenbanken benötigt. Zum anderen braucht man Modelle, die die metabolischen Zusammenhänge wiedergeben und die eine kontinuierliche Modellierung der Reaktionsdynamik und eine diskrete Modellierung des Netzwerkaspektes umfassen. Die Erstellung eines Computermodells eines Organismus ist eine sehr große Herausforderung, die den Zeitrahmen eines DFG Schwerpunktes sprengt. Man wird nur erwarten können, daß hierzu in den nächsten Jahren einzelne begrenzte Beiträge geleistet werden. Eine effiziente Suche nach und Extraktion von Informationen aus molekularbiologischen Datenbanken ist ein leichter zu bewältigender Themenkomplex.


    1.2.2 Methodische Forschung in der Bioinformatik

    1.2.2.1 Sequenzalignment: Obwohl hochentwickelt wird das Gebiet des Sequenzalignment bei der Bewältigung genomischer Datenbestände vor große Herausforderungen gestellt. Zu den Engpässen gehören:

     

    1. ein effizientes und biologisch sensitives multiples Sequenzalignment, das unter anderem auch Aussagen über die Datenqualität und die Signifikanz der Alignmentpositionen enthält und einen konsistenten phylogenetischen Baum mitliefert,
    2. die Behandlung repetitorischer Sequenzanteile in genomischen Sequenzen sowie die gemeinsame Darstellung von Ähnlichkeiten innerhalb und zwischen Sequenzen.
    3. die Analyse und Behandlung von Gapkosten und anderen Alignmentparametern.
    4. die Entwicklung schnellerer und sensitiverer Heuristiken zur Ähnlichkeitssuche.

       

    1.2.2.2 Vergleich und Überlagerung molekularer Strukturen: Das Problem der Überlagerung zweier starrer Proteinstrukturen erscheint aus biologischer Sicht weitgehend gelöst. Die eingesetzten Methoden haben jedoch meist heuristischen Charakter. Offene Probleme in diesem Bereich sind:

     

    1. Es gilt, ein formal faßbares Verständnis für die biologische Relevanz von Strukturähnlichkeitskriterien zu entwickeln, insbesondere im Zusammenhang mit einer strukturellen Clusterung von größeren Mengen von Proteinen.
    2. Die Entwicklung eines Verständnisses von strukturellen "Landschaften" von Proteinen, d.h. von Beziehungen zwischen ähnlichen Proteinsequenzen und deren Strukturen befindet sich gerade im Anfang. Er umfaßt strukturelle, aber auch energetische und evolutionäre Aspekte.
    3. Die Strukturüberlagerung sollte über das Prinzip der starren Überlagerung hinausgehen und Beweglichkeiten in den zu überlagernden Proteinen - wie etwa Scharnierwirkungen in allosterischen Proteinen - berücksichtigen können. Dazu ist es notwendig, nichtdisjunkte Teilstrukturen zu überlagern und die diese Überlagerungen realisierenden Transformationen zueinander in Beziehung zu setzen.
    4. Die biologisch korrekte Clusterung von Proteinstrukturen ist ein wesentlicher Schritt zum Verständnis der Verwandtschaften zwischen verschiedenen Proteinen.

       

    Ähnliche Ziele gelten für RNA Strukturen.

    1.2.2.3 Molekulare Strukturvorhersage bei Proteinen und RNA: In diesem Bereich sind in den letzten Jahren beträchtliche Fortschritte erzielt worden. Allerdings ist die Strukturvorhersage auch ein zentrales Element der Interpretation genomischer Daten. Die Brennpunkte der Forschung liegen in diesem Gebiet in den folgenden Bereichen:

    Proteine

     

    1. Erhöhung der Sensitivität von Threading Verfahren durch verbesserte Algorithmen, Einbeziehung multipler Sequenz- und Strukturalignments und verbesserte Bewertungsfunktionen
    2. Entwicklung von Methoden zur Einbringung diverser aus experimentellen Daten extrahierter struktureller Teilinformationen (z.B. über Sekundärstruktur, Disulfidbrücken, aus Mutationsdaten abgeleitete Informationen) in die Strukturvorhersage
    3. Entwicklung von Bewertungsmaßstäben für die Zuverlässigkeit von Strukturvorhersagen oder Teilstrukturvorhersagen.

       

    RNA

    Zentrale Fragestellungen sind hier:

     

    1. Entwicklung von Methoden zur dreidimensionalen RNA Strukturvorhersage auf der Basis experimenteller Daten und von Sekundärstrukturvorhersagen für RNA,
    2. Techniken zur Berücksichtigung biologischer Kriterien bei der Vorhersage (auch alternativer) Sekundärstrukturen,
    3. Verfahren zum Ähnlichkeitsvergleich von Strukturen und zur Konstruktion von Struktur-Phylogenien.

       

    1.2.2.4 Molekulares Docking: Die Qualität einer Dockingmethode wird bestimmt durch die Genauigkeit der Vorhersagen und durch die Laufzeit der Methode. Molekulare Flexibilität und die richtige Bewertung der freien Energie eines Komplexes stehen dabei bis auf weiteres im Vordergrund. Folgende Probleme sind im einzelnen zu nennen.

    Protein-Ligand Docking

     

    1. Die Behandlung der Flexibilität des Rezeptors in akzeptabler Zeit,
    2. Aspekte der Solvatation; Behandlung des Lösungsmittels,
    3. Schnell berechenbare Energiefunktionen, die insbesondere entropische Beiträge angemessen bewerten.

       

    Allosterische Effekte beim Docking entziehen sich bisher der Modellierbarkeit.

    Protein-Protein Docking

     

    1. Behandlung der molekularen Flexibilität an der Kontaktoberfläche der Bindungspartner,
    2. Angemessene Bewertung der freien Bindungsenergie eines Protein-Protein Komplexes,
    3. Verschnellerung der Dockingmethoden bis zu einem Punkt, bei dem sie für Datenbanksuchen nach Bindungspartnern einsetzbar sind.

       

    1.2.2.5 Molekularbiologische Datenbanken: Im Vordergrund stehen hier die Integration heterogener molekularbiologischer Datenbanken, effiziente und biologisch relevante Zugriffsmethoden auf genomische Information, sowie die Erhöhung der Wartbarkeit der Datenbanken.

    1.2.2.6 Algorithmik/Softwaretechnik: Die Entwicklung von algorithmischen Bibliotheken und anderen benutzerfreundlichen Softwarebausteinen für die Behandlung genomischer Daten ist hier ein wichtiges Forschungsziel.

    1.2.2.7 Visualisierung: Graphik spielt eine wesentliche Rolle bei der Analyse genomischer Datenbestände. Effiziente Werkzeuge für die übersichtliche Darstellung komplexer und unstrukturierter Datenbestände sind hier vonnöten.


    2. Verhältnis zu laufenden Forschungsförderprogrammen

    2.1 Andere Schwerpunktprogramme

    2.1.1 Ausgelaufenes Schwerpunktprogramm

    Das Schwerpunktprogramm

    Konstruktion von Proteinen mit neuen Eigenschaften (Protein Design) (Förderung: von 1989 bis 1995)

    hatte einen Bezug zu den strukturbiologischen Inhalten des hier beantragten Schwerpunktes. Allerdings standen theoretische, das heißt rechnerbasierte Methoden nicht im Vordergrund dieses Schwerpunktes

    2.1.2 Laufende Schwerpunktprogramme

    Es gibt eine ganze Reihe von Schwerpunktprogrammen und Sonderforschungsbereichen, die zumindest zum Teil biomolekulare Themen bearbeiten. Die folgende Liste greift einige Themen heraus, die inhaltlich mit dem Bereich Bioinformatik überlappen:

    285 Molekulare Grundlagen der Evolution bei Pflanzen (Förderung seit 1991)

    290 Genetische Faktoren bei psychiatrischen Erkrankungen (Förderung seit: 1991)

    295 Molekulare Grundlagen der Funktion und enzymatischen Aktivität von Ribonukleinsäuren (RNA Biochemie) (Förderung seit: 1993)

    300 Molekulare Analyse von Regulationsnetzwerken in Bakterien (Förderung seit: 1994)

    312 GTPasen als zentrale Regulatoren zellulärer Funktionen (Förderung seit: 1995)

    1003 Struktur und Funktion ATP-sensitiver und einwärts-gleichrichtender Kaliumkanäle (Förderung seit: 1996)

    Bei der Fülle der Themen ist es nicht verwunderlich, daß eine genaue Analyse dieser Zusammenhänge im Rahmen der Antragstellung nicht möglich war. Der hier beantragte Schwerpunkt bietet sich jedoch den oben genannten Schwerpunkten zum Dialog über deren Fragestellungen und zur möglichen Unterstützung mit rechnergestützten Analysen an.

    Zum Schwerpunkt

    731 Effiziente Algorithmen für diskrete Probleme und ihre Anwendungen (Förderung seit: 1994)

    besteht insofern eine Beziehung, als der Schwerpunkt 731 die Molekularbiologie als ein Anwendungsgebiet (neben vielen anderen) für die dort betriebene Algorithmenentwicklung aufweist. Im Schwerpunkt 731 werden zum Beispiel in einem Projekt Algorithmen zum multiplen Alignment von biologischen Sequenzen und zur Berechnung phylogenetischer Bäume entwickelt. In einem weiteren Projekt des Schwerpunktes 731 geht es um Proteinstrukturvorhersagen. Im Gegensatz zu dem hier beantragten Schwerpunkt, der sich auf die biologische Anwendung konzentriert, stehen im Schwerpunkt 731 die methodischen Querbezüge zwischen unterschiedlichen algorithmischen Anwendungsbereichen im Vordergrund. Die Bezüge zwischen dem Schwerpunkt 731 und dem hier beantragten Schwerpunkt könnten in natürlicher Weise durch an beiden Schwerpunkten beteiligte Personen umgesetzt werden.

    2.1.3 Andere Förderinstrumente der DFG

    Mit Sonderforschungsbereichen und Graduiertenkollegs verhält es sich ähnlich wie mit den Schwerpunktprogrammen. Eine ganze Reihe solcher Verbünde mit biologischen Thematiken haben natürliche Beziehungen zu dem Thema des beantragten Schwerpunktes. Ein anderer durch die DFG geförderter Verbund, der die Rechnermodellierung in den Mittelpunkt rückt, ist uns jedoch nicht bekannt.

    2.2. BMBF

    Der BMBF hat einen wesentlichen Anteil daran, daß sich in Deutschland eine interdisziplinäre Forschergemeinde bilden konnte, die sich auf die bioinformatischen Probleme konzentriert. Das Strategieprogramm Molekulare Bioinformatik förderte zwischen April 1993 und Februar 1997 acht Verbundprojekte, die sich mit Fragen der Analyse molekularer Sequenzen, Strukturen und Wechselwirkungen beschäftigten. Viele der in diesem Antrag zitierten Arbeiten stammen aus diesen Projekten. Ferner gibt es im Rahmen des vom BMBF geförderten Humangenomprojektes begrenzte Aktivitäten zur rechnergestützten Analyse genomischer Daten. Hier ist der Bedarf an grundlegender Informatikunterstützung allerdings bei weitem nicht gedeckt.

    Ein Anschlußprogramm an die Initiative Molekulare Bioinformatik plant der BMBF unseres Wissens nicht. Dem BMBF liegen jedoch zur Zeit einzelne Förderanträge für Projekte vor, die zum Ziel haben, Arbeiten aus dem Strategieprogramm Molekulare Bioinformatik fortzusetzen. Das Ministerium hat bereits zu erkennen gegeben, daß eine Förderung dieser Aktivitäten überhaupt nur in Frage kommt, wenn sich die Industrie zu einem ganz wesentlichen Anteil in den Projekten engagiert. Die Bioinformatik besteht aber zu erheblichen Teilen aus langfristiger Forschung, die die deutsche Industrie dem öffentlichen Sektor zuordnet. Daher muß eine Förderung der Bioinformatik durch Geldgeber für die Grundlagenforschung eines wesentliches Komplement zu den Plänen des BMBF sein.

    Für die Projekte, die der BMBF am Ende fördert, wäre ein direkter Bezug zu dem beantragten Schwerpunkt vorhanden. Die Arbeitsteilung wäre offensichtlich. Aus der Fülle der Grundlagenprobleme, die für eine direkte Industriebeteiligung zu langfristig angelegt sind bzw. einen zu großen Abstand zu den direkt industrierelevanten Themen aufweisen, könnte im beantragten Schwerpunkt eine dringend benötigte Fördermöglichkeit bestehen. Ein organisierter regelmäßiger Meinungsaustausch wäre in diesem Fall definitiv beabsichtigt. Falls der BMBF keine Förderung vornimmt, müßte der Schwerpunkt ohne solche Kooperationen auskommen. Seine Wichtigkeit wäre aber auch in diesem Fall ganz unbestreitbar.

    2.3 HGF und MPG

    Die Bioinformatik ist ein Beispiel dafür, daß die Kooperation zwischen universitären und außeruniversitären Arbeitsgruppen in Deutschland funktionieren kann, und wie notwendig sie ist. Das spiegelt sich auch in der Tatsache wider, daß die Mitglieder der Koordinationsgruppe und die Urheber der Projektvorschläge für diesen Antrag aus allen Bereichen der öffentlich finanzierten Forschung kommen.

    Die Bereitstellung von bioinformatischer Infrastruktur (Datenbanken, Werkzeuge und Services) wird schwerpunktmäßig von außeruniversitären Forschungseinrichtungen übernommen (siehe aber z.B. die Ausnahme BRENDA an der Univ. Köln). Sowohl im außeruniversitären Umfeld als auch in den Universitäten wird bioinformatische Forschung betrieben. In Verbünden zwischen beiden Seiten ist diese offensichtlich besonders erfolgreich. Das beantragte Schwerpunktprogramm soll hier einen besonderen Akzent setzen.

    Im Rahmen der HGF-weiten Umverteilung von Forschungsmitteln wird zur Zeit ein Virtuelles Bioinformatikzentrum (VBZ) konzipiert, in dem die HGF-Gruppen ihre Forschung zusammenführen und mit infrastrukturellen Angeboten an die deutsche Wissenschaftsgemeinde anreichern wollen. Das Ziel ist, ein deutsches verteiltes Analog zum NCBI in den USA zu bilden, das jedoch den besonderen deutschen Bedürfnissen Rechnung trägt. Mit diesem Antrag befinden sich die Bioinformatiker der HGF in HGF-weiter Konkurrenz anderer Forschungsverbünde und -thematiken. Bei Annahme des Antrags für das VBZ würde die Finanzierung dieses Zentrums aus Mitteln des Strategiefonds der HGF erfolgen. Die Konzeption der Verwendung der Mittel dieses Strategiefonds befindet sich erst in den Anfängen.

    Der hier beantragte Schwerpunkt würde die gegenwärtigen Aktivitäten und Konzepte der HGF und MPG ideal ergänzen. Sein Akzent wäre auf Problem- und Methodenvielfalt gerichtet und er wäre ein wesentliches Element einer intensiven Kooperation zwischen universitärer und außeruniversitärer Bioinformatikforschung in Deutschland.

    2.4 EU

    Die Europäische Union fördert bereits seit einer ganzen Reihe von Jahren Projekte in der Bioinformatik in ansehnlichem Umfang und wird dies auch weiter tun. Dabei handelt es sich vorwiegend um Infrastrukturmaflnahmen (z.B. EBI, MIPS) oder transnationale Netzwerke die zu ihrer Durchführung eine integrale Bioinformatikkomponente brauchen (Sequenzierungs- und Funktionsanalyseprojekte, BIOMED Programm). Beispiele für durch die EU geförderte Projekte sind im Bereich der Biotechnologie geförderte Forschungaktivitäten im Datenbankbereich (Projekte IGD, EDR). Desweiteren gibt es einen Förderschwerpunkt "Strukturbiologie", der sich zwar auf experimentelle Techniken konzentriert, aber auch begrenzte Bioinformatikanteile enthält. Im Rahmen des ESPRIT Programms werden Aktivitäten zur Parallelisierung von Bioinformatiksoftware gefördert (EUROPORT, PHASE).

    Eine Förderung des Schwerpunktes Bioinformatik durch die DFG ermöglicht ein Gegengewicht zu dieser Förderung auf der Seite wissenschaftlicher Projekte und mit einer stärkeren Beteiligung von Informatikern. Ferner kann der DFG Schwerpunkt auch kleinere Arbeitsgruppen unterstützen und schafft dadurch eine Zugangsmöglichkeit zu den im Lande verteilten wissenschaftlichen Ressourcen im Bereich der Bioinformatik. Im Gegensatz dazu ist die EU Förderung - wie auch die BMBF Förderung - vornehmlich auf internationale Konsortien ausgerichtet.


     

    3. Internationale Zusammenarbeit

    Es ist selbstverständlich, daß die deutsche Forschergemeinde in der Bioinformatik intensive und lebhafte internationale Kontakte pflegt. Viele der in Abschnitt 5 genannten Wissenschaftler haben Kooperationen mit dem europäischen und außereuropäischen Ausland. Eine vollständige Liste würde hier zu weit führen. Einige der Projektvorschläge geben internationale Kooperationspartner an.

    In der Bioinformatik ergeben sich jedoch internationale Verflechtungen einer ganz neuen Art, und das ist einer der zentralen Aspekte des Gebietes. Dieses rechnerbasierte Forschungsgebiet war eine der ersten wissenschaftlichen Disziplinen, die das Internet als ein Medium nicht nur für wissenschaftlichen Diskurs sondern als das wesentliche infrastrukturelle Rückgrat ihrer Forschung genutzt hat. Viele der Softwarewerkzeuge werden weltweit auf dem Internet angeboten und mit Werkzeugen anderen Forscher im In- und Ausland vernetzt. So ergeben sich auch automatisch Kooperationen zwischen den Forschern, ja, es etablieren sich ganze Forschergemeinden. Ein gutes Beispiel ist die Präsentation des kompletten Hefegenoms auf dem Internet durch MIPS in München. Hier kondensiert sich die Arbeit vieler Molekularbiologen einerseits, die das Genom in neuen Jahren sequenziert haben. Andererseits ist dieser Datenbestand der Ausgangspunkt für eine Fülle von Forschungsarbeiten zur Interpretation der genomischen Information.

    Im folgenden werden kurz einige weitere Marksteine internationaler Verflechtungen von deutschen Bioinformatikern genannt.

     

    Diese Liste ist bei weitem nicht vollständig. Sie soll aber darstellen, daß internationale Zusammenarbeit in besonderem Maße zum Wesen der Bioinformatik gehört.

    Dem wird auch im Schwerpunkt Rechnung getragen werden. Die infrastrukturellen und personellen Möglichkeiten dafür sind, wie oben geschildert, in hervorragender Weise gegeben.


    4. Koordinationsgruppe

    Dr. Peer Bork
    Max-Delbrück-Centrum für molekulare Medizin
    Medizinische Genetik
    Robert-Rössle-Straße 10
    13122 Berlin-Buch<

    EMBL Heidelberg
    Meyerhofstraße 1
    69120 Heidelberg
    Prof. Dr. Robert Giegerich
    Technische Fakultät
    Universität Bielefeld
    Universitätsstraße
    33615 Bielefeld
     
    Prof. Dr. Thomas Lengauer, Ph.D. (Koordinator)
    GMD-SCAI
    Schloß Birlinghoven
    53754 Sankt Augustin

    Institut für Informatik, Universität Bonn
    Römerstraße 164
    53115 Bonn
    Dr. Hans-Werner Mewes
    Max-Planck Institut für Biochemie
    Am Klopferspitz
    82152 Martinsried
     
    Dr. Christian Sander
    EMBL
    Meyerhofstraße 1
    69012 Heidelberg

    European Bioinformatics Institute
    Hinxton Hall
    Cambridge, CB10 1SD, U.K.
    Prof. Dr. Dietmar Schomburg
    Universität zu Köln
    Institut für Biochemie
    Zülpicher Straße 47
    50674 Köln
     
    Dr. Martin Vingron
    Deutsches Krebsforschungszentrum
    Abteilung 0815
    Im Neuenheimer Feld 280
    69120 Heidelberg
     

    5. Literaturhinweise

    (Arbeiten, die im Umfeld des Schwerpunktes entstanden sind, sind mit einem * gekennzeichnet.)

    1 D.E. Bassett Jr., M.S. Boguski, P. Hieter, Yeast genes and human disease, Nature 379 (1996) 589-590

    2 * A. Goffeau et al, Life with 6000 genes, Science 274 (1995) 546-567

    3 http://www.mcs.anl.gov/home/gaasterl/genomes.html

    4 http://www.sanger.ac.uk/bio/mod.orgs.html

    5 * http://mips.biochem.mpg.de/yeast/

    6 * P. Bork, C. Ouzounis, C. Sander, M. Scharf, R. Schneider, E. Sonnhammer, What's in a genome?, Nature 358, 23 July 1992

    7 R.D. Fleischmann et. al., Whole-genome random sequencing and assembly of Haemophilus influenzae Rd, Science 269 (1995) 496-512

    9 * http://www.embl-heidelberg.de/~genequiz/

    10 * G. Casari, C. Ouzounis , A. Valencia, C. Sander, GeneQuiz II: automatic function assignment for genome sequence analysis. In Proceedings of the First Annual Pacific Symposium on Biocomputing, World Scientific (1996) 707-709

    11 http://wild.tigr.org/tdb/tdb.html

    12 * K. Quandt, K. Grote, T. Werner, GenomeInspector: Basic software tools for analysis of spatial correlations between genomic structures within megabase sequences, Genomics 33 (1996) 301-304

    13 M. Burset, R. Guigo, , Evaluation of gene structure prediction programs, Genomics 34 (1996) 353-367

    14 Y. Xu, E.C. Uberbacher, Gene prediction by pattern recognition and homology search, Proceedings of the Foruth International Sigent Systems for Molekcular Biology (ISMB'96) (1996) 241-251

    15 * R. Lavery, K. Zakrzewska, H. Sklenar, Jumna, Junction minimisation of nucleic acids, Comp Phys Comm 91 (1995) 135-158

    16 * H. Karas, R. Knüppel, W. Schulz, H. Sklenar, E. Wingender, Combining structural analysis of DNA with search routines for detection of transcription regulatory elements. Comput Appl Biosci 12 (1996) 441-446

    17 * E. Wingender, A.E. Kel, O.V. Kel, H. Karas, T. Heinemeyer, P. Dietze, R. Knüppel, A.G. Romaschenko, N.A. Kolchanov, TRANSFAC, TRRD and COMPEL: Towards a federated database system on transcriptional regulation, Nuc Acids Res 25 (1997) 265-268.

    18 * K. Frech, R. Brack-Werner, T. Werner, Common modular structure of lentivirus LTRs, Virology 224 (1996) 256-267

    19 A.R. Mushegian, E.V. Koonin, A minimal gene set for cellular life derived by comparison of complete bacterial genomes, Proc Nat Acad Sci USA 93 (1996):10268-10273

    20 * K. Heumann, C. Harris, H.W. Mewes, A top-down approach to whole genome visualization, Proceedings of the Fourth International Conference on Intelligent Systems for Molecular Biology (ISMB'96) (1996)98-108

    21 * K. Heumann, Dissertation, Institut für Informatik, TU München 1997

    22 * R.L. Tatsuov, A.R. Mushegian, P. Bork, N.P. Brown, W.S. Hayes, M. Borodovski, K.E. Rudd, E.V. Koonin, Metabolism and evolution of H.influenzae deduced from a whole genome comparison to E.coli, Curr Biol 6 (1996) 279-291

    23 * E.V. Koonin, A. Mushegian, P. Bork, Non-orthologous gene displacement, Trends Genet 12 (1996) 334-336

    24 G.D. Schuler et al., A gene map of the human genome, Science 274 (1996) 540-546

    25* M. Rarey, B. Kramer, T. Lengauer, G. Klebe, A fast flexible docking method using an incremental construction algorithm, J Mol Biol 261 (1996) 470-489.

    26 G. Jones, P. Willet, R.C. Glen, Molecular recognition of receptor sites using a genetic algorithm with a description of desolvation, J Mol Biol 245 (1995) 43-53.

    27 H.J. Böhm, The development of a simple empirical scoriion to estimate the bindung constant for a protein-ligand complex of known three-dimensional structure, J Comput Aided Mol Des 8 (1994) 243 - 256.

    28* G. Klebe, T. Mietzner, A fast and efficient method to generate biologically relevant conformations, J Comput Aided Mol Des 8 (1994) 583-606.

    29 A.R. Leach, I.D. Kuntz, Conformational analysis of flexible ligands in macromolecular receptor sites, J Comput Chem 13 (1992) 730-748.

    30 B. Sandak, R. Nussinov, H.J. Wolfson, An automated computerd robotics-based technique for 3-D flexible biomolecular docking and matching, Comput Appl Biosci 11 (1995) 87-99.

    31 G. Jones, P. Willet, R.C. Glen. J Comput Aided Mol Des 9 (1995) 532-549.

    32 * T. Lengauer, The Flex Approach - An alternative for receptor-ligand docking and computing crystal conformations. Proceedings of the 11th European Symposium on Quantitative Structure-Activity Relationships: Computer-Assisted Lead Finding and Optimization, Verlag Helvetica Acta, Basel, Schweiz (1996).

    33 * C. Lemmen, T. Lengauer, Time-efficient flexible superposition of medium-sized molecules, submitted for publication (1997).

    34 * K. Hemm, K. Aberer, M. Hendlich, Constituting a receptor-ligand database from quality-enriched data, Proceedings of the International Conference on Intelligent Systems in Molecular Biology 95 (ISMB 95), Cambridge, UK (1995) 170-178

    35 R.A. Lewis, A. Leach, Current methods for site-directed structure generation, J Comput Aided Mol Des 8 (1994) 467-475

    36 P.M. Colman, Structure-based drug design, Curr Opin Struc Biol 4(1994) 868-874

    37 J. K. Scott, G. P. Smith, Searchung for Peptide Ligands with an Epitope Library, Science 249 (1990) 380-390

    38 L. Weber, S. Wallbaum, C. Broger, K. Gubernator, Optimization of the biological activity of combinatorial compound libraries by a genetic algorithm, Angewandte Chemie, International Edition in English, 34,20 (1995)

    39 M. Totrov, R. Abagyan, Detailed ab initio prediction of lysozyme-antibody complex with 1.6 Å accuracy, Struc Biol 1 (1994) 259-263

    40 P. Karp, M. Riley, S. Paley, S., A. Pellegrini-Toole, EcoCyc: Electronic encyclopedia of E. coli genes and metabolism, Nuc Acids Res 25 (1997)

    41 P. Karp, C. Ouzonis, S. Paley, Hincyc: A knowledge base of the complete genome and metabolic pathways of H. influenzae, , Proceedings of the Fourth International Symposium on Intelligent Systems for Molecular Biology (ISMB'96), AAAI Press (1996) 116-124

    42 S. Goto, H. Bono, H. Ogata, W. Fujibuchi, T. Nishioka, K. Sato and M. Kanehisa Organizing and computing metabolic pathway data in terms of binary relations, Electronic Proceedings of the Pacific Symposium on Biocomputing (PSB'97) http://www-smi.stanford.edu/people/altman/psb97/index.html (1997)

    43 D.L. Brutlag, A.R. Galper, D.H. Millis, Knowledge-based simulation of DNA metabolism: prediction of enzyme action, Comp Appl Biosci 7 (1991) 9-19

    44 M.L. Mavrovouniotis, Describing Multiple Levels of Abstraction in Metabolism, Proceedings of the Second International Symposium on Intelligent Systems for Molecular Biology (ISMB'94), AAAI Press (1994) 294-302

    45* W. Wiechert, Algebraic methods for the analysis of redundancy and identifiability in metabolic 13C-labelling systems, In Bioinformatics: From Nucleic Acids and Proteins to Cell Metabolism (D. Schomburg, U. Lessel, eds.) VCH Weinheim (1995) 169-184

    46 * R. Hofestädt, F. Meineke, Interactive Modelling and Simulation of Biochemical Networks, Computers in Biology and Medicine 25 (1995) 321-334

    47 * R. Hofestädt, J. Collado-Vides, M. Löffler, M. Mavrovouniotis, Modelling and Simulation of Metabolic Pathways, Gene Regulation and Cell Differentiation, BioEssays 18 (1996) 333-335

    48 * H. Meinhardt, Pattern-formation in biology - a comparison of models and experiments. Rep Prog Phys 55 (1992) 797-849

    49 * H. Meinhardt, Biological pattern-formation - new observations provide support for theoretical predictions, Bioessays 16 (1994) 627-632

    50 * W.C. Barker, F. Pfeiffer, D.G. George, Superfamily classification in PIR-International Protein Sequence Database, Methods in Enzymology 266 (1996) 59-71

    51 S.B. Needleman und C.D. Wunsch, A general method applicable to the search for similarities in the amino acid sequences of two proteins, J Mol Biol 48 (1970) 443-453

    52 M.S. Waterman, Efficient sequence alignment algorithms, J Theor Biol 108 (1984) 333-337

    53 R.F. Doolittle, M.W. Hunkapillar, L.E. Hood, S.G. Devare, K.C. Robbins, S.A. Aaronson, and H.N. Antoniades, Simian sarcoma virus onc gene, v-sis, is derived from the gene (or genes) encoding a platelet-derived growth factor, Science 221 (1983) 275-277.

    54 J.R. Riordan, J.M. Rommens, B. Kerem, N. Alon, R. Rozmahel, Z. Grzelcak, J. Zielinski, S. Lok, N. Plavsic, J.L. Chou, M.L. Drumm, M.C. Iannuzzi, F.S. Collins and L.C. Tsui, Identification of the cystic fibrosis gene: Cloning and characterisation of complementary DNA, Science 245 (1989) 1066-1073

    55 E.V. Koonin, S.F. Altschul,P. Bork, Functional motifs, Nature Genetics 13 (1996) 266-267

    56 O. Gotoh, Optimal sequence alignment allowing for long gaps., Bull Math Biol 52 (1990) 359-373

    57 X. Guan, and E. Uberbacher, Alignments of DNA and proteins sequences containing frameshift errors, Comp Appl Biosci 12 (1996) 31-40

    58 E. Birney, J.D. Thompson, T.J. Gibson, PairWise and SearchWise: finding the optimal alignment in a simultaneous comparison of a protein profile against all DNA translation frames, Nuc Acids Res 24 (1996) 2730-2739

    59 * U. Tönges, S.W. Perrey, J.Stoye, A.W. Dress, A general method for fast multiple sequence alignment, Gene 172 (1996) GC 33-GC 41

    60 * M. Vingron, A. von Haeseler, Towards Integration of Multiple Alignment and Phylogenetic Tree Construction, J Comp Biol 4 (1997) 23-34

    61 * B. Schwikowski, M. Vingron, Attacking generalized tree alignment by a deferred path heuristic, Proceedings of First Annual International Conference on Computational Molecular Biology (RECOMB'97) (1997) 257-266.

    62 * B. Morgenstern, A.W.M. Dress, T. Werner, Multiple DNA and protein sequence alignment based on segment-to-segment comparison, Proc Nat Acad Sci USA 93 (1996) 12098-21103

    63 * J.-W. Wägele. First principles of phylogenetic systematics, a basis for numerical methods used for morphological and molecular characters, Vie Milieu 46 (1996) 125-138

    64 D. Naor, D.L. Brutlag, On near-optimal alignments of biological sequences, J Comp Biol 4 (1994) 349-366

    65 * H.-T. Mevissen, M. Vingron, Quantifying the local reliability of a sequence alignment, Prot Eng 9 (1996) 127-132

    66 * M. Vingron, M. Waterman, Parametric sequences alignments and penalty choice, J Mol Biol 235 (1994) 1-12

    67 * R. Zimmer, T. Lengauer, Fast and numerically stable parametric alignmentof biosequences. Proceedings of the First Annual Conference on Research in Computational Molecular Biology (RECOMB'97) (1997) 344-353

    68 * M.S. Waterman, M. Vingron, Rapid and accurate estimates of statistical significance for sequence data base searches, Proc Nat Acad Sci USA 91 (1994) 4625-4628

    69 W. Kabsch, A solution for the best rotation to relate two sets of vectors, Acta Cryst A 32 (1976) 922-923

    70 W. Kabsch, A discussion of the solution for the best rotation to relate two sets of vectors, Acta Cryst A 34 (1978) 827-828

    71 R. Diamond, A note on the rotational superposition problem, Acta Cryst A 44 (1988) 211-216

    72 C. A. Orengo, N. P. Brown, W. R. Taylor, Fast structure alignment for database searching, Proteins 14 (1992) 139-167

    73 N. N. Alexandrov, D. Fischer, Analysis of topological and nontopological structural similarities in the PDB: new examples with old structures, Proteins 25 (1996) 354--365

    74 * I. Koch, T. Lengauer, E. Wanke, An Algorithm for finding maximal common subtopologies in a set of protein structures, J Comp Biol 3 (1996) 289-306

    75 R. Nussinov, H. Wolfson, Efficient detection of three-dimensional structural motifs in biological macromolecules by computer vision techniques, Proc Nat Acad Sci USA 88 (1991) 10495-10499

    76 * L. Holm, C. Sander, Protein structure comparison by alignment of Distance matrices, J Mol Biol 233 (1993) 123-138

    77 * U. Lessel; D. Schomburg, Comparison, assessment and classification of protein 3D structures, Theochem 336 (1995) 261-267

    78 * U. Lessel; D. Schomburg, Similarities between Protein Structures, Prot Eng 7 (1994) 1175-1187

    79 C.A. Orengo, T.P. Flores, W.R. Taylor, J.M. Thornton, Identification and classification of protein fold families, Prot Eng 6 (1993) 485-500

    80 N.N. Alexandrov, SARFing the PDB, Prot Eng 9 (1996) 727-732

    81 D. Fischer, C-J. Tsai, R. Nussinov, H. Wolfson, A 3D sequence-independent representation of the protein data bank, Prot Eng 8 (1995) 981-997

    82 * L. Holm, C. Sander, Mapping the protein universe, Science 273 (1996) 595-602

    83 http://www.mrc-cpe.cam.ac.uk/casp2/

    84 * B. Rost, C. Sander, Prediction of protein secondary structure at better than 70% accuracy, J Mol Biol 232 (1993) 584--599

    85 * D. Frishman, P. Argos, 75% accuracy in protein secondary structure prediction. Proteins 27 (1997) 329-335

    86 J.U. Bowie, R. Lüthy, D. Eisenberg, A method to identify protein sequences that fold into a known three-dimensional structure, Science 253 (1991) 164-170

    87 C. Ouzonis, C. Sander, M. Scharf, R. Schneider, Prediction of protein structure by evaluation of sequence-structure fitness, J Mol Biol 232 (1992) 805-825

    88 N.N. Alexandrov, R.N. Nussinov, R.M. Zimmer, Fast protein fold recognition via sequence to structure alignment and contact capacity potentials, In Proceedings of the Pacific Symposium on Biocomputing'96, Hrsg. Lawrence Hunter and Teri E. Klein, World Scientific Publishing, Singapore (1996) 53-72

    89 A. Krogh, M. Brown, I.S. Mian, K. Sjölander, D. Haussler, Hidden Markov Models in computational biology, J Mol Biol 235 (1994) 1501-1531

    90 R.H. Lathrop, The protein threading problem with sequence amino acid interaction preferences is NP-complete, Prot Eng 7 (1994) 1059-1068

    91 R.H. Lathrop, T.F. Smith, Global optimum protein threading with gapped alignment and empirical pair score functions, J Mol Biol 255 (1996) 641-655

    92 M. Sippl, Calculation of conformational ensembles from potentials of mean force: An approach to knowledge-based prediction of local structures in globular proteins, J Mol Biol 213 (1990) 859-883

    93 * R. Thiele, R. Zimmer, T. Lengauer, Recursive dynamic programming for adaptive sequence and structure alignment, Proceedings of the Third International Conference on Intelligent Systems for Molecular Biology (ISMB'95), C. Rawlings et al., Hrsg., AAAI Press (1995) 384-392

    94 D.T. Jones, J.M. Thornton, Potential energy functions for threading, Curr Opin Struc Biol 6 (1996) 210-216

    95 * T. Dandekar,M. Leippe, Molecular Modeling of amoebapore and NK-lysin: a four-alpha-helix bundle motif of cytolytic peptides from distantly related organisms, Folding and Design 2 (1997) 47-52.

    96 * P. Saxena, I. Whang, Y. Voziyanov, C. Harkey, P. Argos, M. Jayaram, T. Dandekar, Probing Flp: a new approach to analyze the structure of a DNA recognizing protein by combining the genetic algorithm, mutagenesis and non-canonical DNA target sites, Biochim Biophys Acta (1997) in press

    97 M. Zuker, D. Sankoff, RNA Secondary structures and their prediction, Bull Math Biol 46 (1984) 591-621.

    98 M. Zuker, On Finding All suboptimal foldings of an RNA molecule, Science 244 (1989) 48-52.

    99 F. Lefebvre, An optimized algorithm well suited to RNA folding, Proc. of the Third International Symposium on Intelligent Systems for Molecular Biology (ISMB'95) (1995) 222-230

    100 Y.Y. Sakakibara, M. Brown, R. Hughey, S. Mian, K. Sjölander, R.Underwood, D. Haussler, Stochastic Context-free Grammars for tRNA Modeling, Nucl Acids Res 22,23 (1994) 5112--5120

    101 M. Kimura, The neutral theory of evolution, Cambridge University Press, 1983.

    102 * W. Grüner, R. Giegerich, D. Strothmann, Algorithmic representation of large RNA folding landscapes, In D. Schomburg, U.Lessel (Eds.), Bioinformatics: From Nucleic acids to Proteins to cell matabolisms,VCH Weinheim (1995) 59-71

    103 B. Shapiro, K.Zhang, Comparing multiple RNA structures using tree comparisons. Comp Appl Biosci 6 (1990) 309-318

    104 F.S. Kuhl, G.M. Crippen,D.K. Friesen, A combinatorial algorithm for calculating ligand binding, J Comp Chem 5 (1994) 24-34

    105 * M. Rarey, S. Wefing, T. Lengauer, Placement of medium-sized molecular fragments into active sites of proteins. J Comp Aided Mol Des 10 (1996) 41-54.

    106 R. Abagyan, M. Totrov, D. Kuznetsov, ICM - A new method for protein modeling and design: applications to docking and structure prediction from the distorted native conformation, J Comp Chem 15 (1994) 488-506.

    107 P.J. Goodford, A computational procedure for determining energetically favorable binding sites on biological macromolecules, J Med Chem 28(1985) 849-857

    108 B.K. Shoichet, I.D. Kuntz, Protein docking and complementarity, J Mol Biol 221 (1991) 327-346.

    109 D. Fischer, S.L. Lin, H.L. Wolfson, R. Nussinov, A geometry-based suite of molecular docking processes, J Mol Biol 248 (1995) 459-477

    110 E. Katchalski-Katzir et al., Molecular surface recognition: determination of geometric fit between proteins and their ligands by correlation techniques, Proc Nat Acad Sci USA 89 (1992) 2195-2199

    111 M.L. Connolly, Shape complementarity at the hemoglobin a1/[beta]1 subunit interface, Biopolymers 25 (1986) 1229-1247

    112 L.S. Lin, R. Nussinov, D. Fischer,H. Wolfson, Molecular surface representation by sparse critical points, Proteins 18 (1994) 94-101

    113 * T. Seidl , H.-P. Kriegel, Solvent accessible surface representation in a database system for protein docking, Proceedings of the Third International Symposium on Intelligent Systems for Molecular Biology (ISMB'95), Cambridge, England (1995) 350-358.

    114 * R.R. Gabdoulline, R.C. Wade, Analytically defined surfaces to analyze molecular interaction properties, J Mol Graph (1997) in press

    115 * H.-P. Lenhof, New contact measures for the protein docking problem, Proceedings of the First Annual International Conference on Computational Molecular Biology (RECOMB'97) (1997) 182-191.

    116 * M. Meyer, P. Wilson, D. Schomburg, Hydrogen bonding and molecular surface shape complementarity as a basis for protein docking, J Mol Biol 264 (1996) 199-210.

    117 Nucl Acids Res 25,1 (1997)

    118 * T. Etzold, P. Argos, SRS-an indexing and retrieval tool for flat file data libraries, Comput Appl Biosci 9 (1993) 49-56

    119 * O. Ritter, S. Suhai, Gigabytes über Gigabasen - Informationsintegration in der Genomforschung, it+ti 38,5 (1996) 16-19

    120 * A.W.M. Dress, D. Huson, V. Moulton, Analyzing and visualizing sequence and distance data using SPLITSTREE, Disc Appl Math 71 (1996) 95 - 109

    121 Colour interactive editor for multiple alignments, URL: http://www.biochem.ucl.ac.uk/bsm/dbbrowser/CINEMA/

    122 Pretty printing and shading of multiple-alignment files, URL: http://ulrec3.unil.ch/software/BOX_form.html

    123 AMAS - Analyse multiply aligned sequences , URL: http://geoff.biop.ox.ac.uk/servers/amas_server.html

    124 * D. Evers: Animation von RNA-Sekundärstrukturen: RNA-Movies, Diplomarbeit,Universtität Bielefeld (1996)

    125 * D. Schomburg, J. Reichelt, BRAGI: A comprehensive protein modeling program system, Journal of Molecular Graphics 6 (1988) 161-165, 144-145.

    126 * G. Vriend, WHAT IF: A molecular modeling and drug design program, J Mol Graph 8 (1990) 52-56

    127 * J. Brickmann, H. Vollhardt, Virtual reality on the World Wide Web: A paradigm shift in molecular modeling, Trends in Biotechnology 14 (1996) 167-172

    128 B.S. Duncan, A.J. Olson, Approximation and visualization of large-scale motion of protein surfaces, J Mol Graph 13,4 (1995).

    129 * K. Reinert, H.-P. Lenhof, P. Mutzel, K. Mehlhorn, J.D. Kececioglu, A branch-and-cut algorithm for multipe sequence alignment, Proceedings of the First Annual International Conference on Computational Molecular Biology (RECOMB'97) (1997) 241-250.

    130 H. Edelsbrunner, N.R. Shah, Three-dimensional alpha shapes, ACM Trans Graphics 13 (1994) 43-72

    131 * K.P. Peters, J. Fauck, C. Frömmel, The automatic search for ligand binding sites in proteins of known three-dimensional structure using only geometric criteria, J Mol Biol 256 (1996) 201-213

    132 C. Bron, J. Kerbosch, Algorithm 457 - finding all cliques of an undirected graph, Commun ACM 16 (1973) 575-577

    133 L.R. Rabiner, A tutorial on Hidden Markov Models and selected applications in speech recognition, Proc. IEEE 77 (1989) 257-286

    134 Algorithmica 13,1/2, January/February 1995

    135 Discrete Applied Mathematics 71,1-3,5, December 1996

    136 * J. Hanke, G. Beckmann, P. Bork, J.G. Reich, Self-organizing hierarchic networks for pattern recognition in protein sequence, Prot Sci 5 (1996) 72-82

    137 J.C. Schlimmer, P. Langley, Machine learning, in: S.C. Shapiro, ed., Encyclopedia of Artifical Intelligence, Second Edition, Vol. 1, John Wiley & Sons, New York (1993) 785-801

    138 M.J.E. Sternberg, R.D. King, R.A. Lewis, S. Muggleton, Application of machine learning to structural molecular biology, Phil Trans R Soc Lond B 344 (1994) 365-371

    139 T.-M. Yi, E.S. Lander, Protein secondary structure prediction using nearest-neighbor methods, J Mol Biol 232 (1993) 1117-1129

    140 C. Ouzounis, N. Kyrpides, The emergence of major cellular processes in evolution, FEBS Letters 390 (1996) 119-123.

    141 ACEDB Conference and Workshop Proceedings (1995), URL: http://probe.nalusda.gov:8000/acedocs/ace95/index.html

    142 http://www.ncgr.org/gsdb/maestro/

    143 J. Knight, SEQIO, A package for reading and writing sequence files, URL: http://wwwcsif.cs.ucdavis.edu/~knight/

    144 S.W. Smith et al, The genetic data environment: An expandable GUI for multiple sequence analysis, Comp Appl Biosci 10 (1994) 671-675

    145 * G. Füllen et al., BioPerl-Projekt, URL: http://www.techfak.uni-bielefeld.de/bcd/Perl/Bio/welcome.html

    146 * S. Berchtold, C, Böhm, B. Braunmüller, D.A. Keim, H.-P. Kriegel, Fast Parallel Similarity Search in Multimedia Databases, Proc. Int. Conf. on Management of Data, Tuscon, AZ (1997)

    147 * D.G. George, B.C. Orcutt , H.W. Mewes, A. Tsugita, An object-oriented sequence database definition language (SDDL), Prot & Seq Data Anal 5 (1993) 357-399

    148 E.S. Lander, The new genomics: Global views of biology, Science 274 (1996) 536-539




    Homepage des DFG-Schwerpunkts
    "Informatikmethoden zur Analyse und Interpretation
    großer genomischer Datenmengen"

    20. August 1997, WebEditor