Die umfangreichen Aktivitäten bei der Sequenzierung der Genome ganzer Organismen revolutionieren die Molekularbiologie und Biotechnologie. Bereits über zehn Mikroorganismen sind vollständig sequenziert (Stand März 1997). Sieben Genome sind öffentlich zugänglich, darunter der Eukaryont Hefe mit rund 12 Mio Basenpaaren. Die Sequenzierung des menschlichen Genoms soll bis spätestens zum Jahre 2005 abgeschlossen sein. Das Ergebnis der Sequenzierungen ist eine Datenfülle, die mit herkömmlichen Methoden der Datenanalyse und Modellierung nicht mehr bewältigt werden kann. Hefe, deren Sequenzierung vor kurzem abgeschlossen wurde, hat ca. 6000 Gene. Bereits die Aufgabe, eine Übersicht über diese Datenmenge zu bekommen, erfordert neuartige Methoden der Datenanalyse. Es reicht nicht mehr aus, sich auf die Betrachtung von Sequenzmustern, Strukturen und Funktionen einzelner Gene, RNA-Moleküle oder Proteine zu konzentrieren. Vielmehr bedarf es neuer Verfahren, um große genomische Datensätze gezielt zu durchsuchen und aufzuarbeiten. Solche Verfahren bezeichnen wir als "Screening Methoden". Hier spielen die Aufklärung evolutionärer, struktureller und funktioneller Ähnlichkeiten eine besondere Rolle. Die Methoden für solche Analysen kommen aus der Informatik und Mathematik. Aus diesen Gründen mißt der Technologierat des Bundeskanzlers in seinen Empfehlungen zur Biotechnologie in Deutschland der Bioinformatik einen zentralen Stellenwert bei und empfiehlt, sie mit Nachdruck voranzutreiben. Wir reagieren auf diese Empfehlung mit dem vorliegenden Vorschlag für ein Schwerpunktprogramm der DFG.
Der Schwerpunkt richtet sich an die interdisziplinäre Forschergemeinde aus Informatikern und Mathematikern einerseits und Molekularbiologen und Biochemikern andererseits, die sich in Deutschland durch die in den letzten Jahren verstärkt durchgeführten Bioinformatikaktivitäten gebildet und international etabliert hat. Mit den sequenzierten Genomen stehen jetzt Datensätze zur Verfügung, die alle relevanten Informationen einer Spezies enthalten. Eine detaillierte Zuordnung der Funktionen der genetischen Elemente kann jedoch bisher nur unvollständig vorgenommen werden. Mindestens ein Drittel aller Gene der sequenzierten Organismen sind nicht oder nur unzureichend charakterisiert. Die Aufgabe des Schwerpunkts soll daher die Exploration großer genomischer Datensätze mit den Methoden der Informatik sein. Diese systematischen Vergleiche von Sequenzmustern sowie Modellierungen von molekularen Strukturen und Wechselwirkungen erlauben es, Beziehungen zwischen Struktur und Funktion aufzuklären und so zelluläre Komponenten in metabolische oder regulatorische Netzwerke einzuordnen. Durch die Identifikation von orthologen Proteinen in Modellgenomen können menschliche Erbkrankheiten funktionell zugeordnet [1], Pathogenität von Mikroorganismen aufgeklärt oder Ansätze zur Medikamentenentwicklung gefunden werden. Diese Methoden haben weitreichende Bedeutung für die biologische Grundlagenforschung. Mit der schnell wachsenden Zahl vergleichbarer Genome ist die Bioinformatik zunehmend gefordert, wenn es um die eindeutige Identifikation von Genen geht, die als Kandidaten für die aufwendige experimentelle Funktionsanalyse ausgewählt werden sollen. Diese Problematik ist vor allem im Kontext der von der DFG in Erwägung gezogenen Sequenzierung einzelliger Organismen in der Größe von 20-40 Megabasen zu sehen.
Auf der methodischen Seite spielt die geeignete Modellierung komplexer biologischer Interaktionen sowie die Entwicklung effizienter Algorithmen für den geforderten Datendurchsatz eine Rolle, aber auch Datenhaltungs- und Zugriffsfragen sowie Fragen der visuellen Präsentation komplexer Analysedaten sind wichtig. Schließlich bestehen Screeningsysteme aus vielen Softwarekomponenten, deren Durchgängigkeit und Bedienbarkeit gewährleistet sein muß.
Dieser Zielsetzung ordnen sich folgende Problembereiche unter.
In allen diesen Bereichen liegt der Fokus innerhalb des Schwerpunktes auf Methoden, die einen ausreichend hohen Datendurchsatz gewährleisten, um große genomische Datensätze auch komplexen Analysen zu unterziehen
Projekte, die in dem Schwerpunkt gefördert werden, sollen auf der methodischen Seite durch Inhalte aus der Informatik und/oder der Mathematik gekennzeichnet sein und gleichzeitig eine direkt nachvollziehbare Relevanz für wichtige molekularbiologische Fragestellungen haben. Dazu ist es notwendig, die methodische Seite durch qualifizierte Informatik und/oder Mathematik abzusichern und gleichzeitig zu zeigen, daß die angestrebten Ziele für die Genomforschung relevant sind. Antragsteller aus den Gebieten Bioinformatik, Informatik und Mathematik sollten angesprochen werden, die Förderung interdisziplinärer Kooperationen ist besonders wünschenswert.
Die Begutachtung sollte fachübergreifend erfolgen, wobei besonders Gutachter ausgewählt werden sollten, die Qualifikationen nachweisen können, die über fachspezifische Kompetenzen hinausgehen. Die Ergebnisse des Schwerpunktprogramms sollen direkt der Praxis der biologischen Forschung zugänglich gemacht werden. Daher sollte die Validierung von Werkzeugen an realen biologischen Daten vorausgesetzt und die Implementierung in nutzbarer Form gefordert werden. Regelmäßige Kolloquien sollen die Arbeit aus dem Schwerpunkt vorstellen und den direkten Austausch mit den Biowissenschaften fördern. Eine entsprechende Präsentation des Schwerpunktes durch das WWW ist integraler Teil des Programms.
Zur Zeit vollzieht sich international eine Entwicklung in der Genomforschung, die die Biowissenschaften, vor allem die Medizin und die Biotechnologie, wie wir sie heute kennen, völlig verändern wird. Die DNA Sequenz für ein breites Spektrum von Organismen aus den verschiedensten Bereichen der Taxonomie, vom Prokaryonten bis zum zelldifferenzierenden höheren Eukaryonten, wird in naher Zukunft aufgeschlüsselt sein. Mit der Verfügbarkeit der vollständigen genetischen Information geht ein schon jetzt spürbarer Paradigmenwechsel von beschreibenden, phänomenologisch orientierten Beobachtungen zur systematischen Aufklärung der molekularen Mechanismen komplexer Lebensvorgänge einher. Die Effizienz der Informationsgewinnung ist durch die Entwicklung geeigneter Technologien mit hohem Durchsatz um Größenordnungen gewachsen; die Möglichkeiten der breiten wissenschaftlichen und wirtschaftlichen Exploration genomischer Daten macht die Genomforschung zur Schlüsseltechnologie.
Genomforschung ist quantitativ, datenorientiert. Daher spielt die Bioinformatik als Bindeglied zur Bearbeitung, Analyse und Interpretation großer Datenmengen eine zentrale Rolle. In Zukunft wird die Beschreibung der funktionellen Interaktionen von Biomolekülen in den Mittelpunkt rücken und die Beschreibung der homologiebasierten Sequenzanalyse ergänzen. Die Grundlagenforschung wird in der Lage sein, die Informationsmenge zu nutzen, um zu verstehen, warum Organismen ein fast unbegrenztes Spektrum an Phänotypen ausbilden können, welche Mechanismen ihrer Genexpression es erlauben, sich den unterschiedlichsten Lebensbedingungen anzupassen und welche Signalketten wirksam sind, den zellulären Informationsfluß zu bewirken. Die Bioinformatik stellt dabei die Werkzeuge bereit, die Voraussetzung sind, immer komplexer werdende Fragestellungen zu erforschen. Schon jetzt sind Genomforschung, experimentelle Biochemie, Molekularbiologie, molekulare Medizin und Pharmakologie von den Ergebnissen der Bioinformatik abhängig, in Zukunft wird dieser Einfluß weiter an Bedeutung gewinnen. Darüber hinaus hat die Bioinformatik eine große Bedeutung für die innovative Entwicklung bedeutender Wirtschaftsbereiche wie der Pharmaentwicklung, der Medizin, der Landwirtschaft, der Lebensmittel- und Biotechnologie.
Das Verstehen biologischer Information hat weitreichende wissenschaftliche Konsequenzen, die große ökonomische und auch gesellschaftliche Bedeutung haben:
Die hier genannte kleine Auswahl von Beispielen macht deutlich, welch zentrale Bedeutung die Interpretation der Genominformation mit Hilfe der Bioinformatik - im Konzert mit experimentellen Techniken - hat. Bioinformatische Methoden können und müssen dabei auf den verschiedensten Ebenen eingesetzt werden. Diese reichen von der Fehlersuche in genomischen Datenbeständen über die Erkennung von Genen bis zur Interpretation von Struktur und Funktion der codierten Proteine, der Analyse der molekularen Wechselwirkungen sowie der Aufklärung der Rolle der nichtcodierenden Abschnitte im Genom. Das Fernziel ist die Schaffung eines Detailbildes der funktionalen Zusammenhänge im Organismus auf molekularer Ebene.
1.1.1 Stand der Genomsequenzierungen
Die Bioinformatik muß im Zusammenhang mit Kernbereichen der biotechnologischen Forschung gesehen werden, die Daten in bisher nicht gekanntem Umfang generieren. Im Vordergrund steht hier die Genomforschung, die durch Automatisierung und dramatische Verbesserung der Qualität der DNA Sequenzierung neue Dimensionen erreicht hat. Heutige Datensammlungen umfassen etwa 200 000 Proteinsequenzen und 750 Millionen Basen aus Nukleinsäuresequenzierungen. Diese Datenmengen werden sich im Zeitraum von nur 3 Jahren verdoppeln. Die ersten beiden mikrobiellen Genome wurde bereits 1995 entschlüsselt, bis heute sind es mehr als 10 (siehe Tabelle 1). Mit der kompletten Genomsequenz der 16 Chromosomen von S. cerevisiae wurde ein Meilenstein in der eukaryontischen Genomforschung gelegt [2]. Darüberhinaus gibt es eine größere Anzahl von komplett sequenzierten eukaryontischen Organellen mit Längen von bis zu knapp 200 kbp, vor allem Mitochondrien. Eine aktuelle Übersicht über den Stand der Genomsequenzierungsaktivitäten findet sich unter [3]. Die vollständige Sequenz der 3 Milliarden Basen des menschlichen Genoms wird bereits für das Jahr 2002 bis spätestens 2005 erwartet. Das Vorliegen der Genpools verschiedener Organismen eröffnet völlig neue Zugänge zur vergleichenden Identifizierung funktioneller Eigenschaften.
Wesentliche Anteile der Genomdaten sind auf dem Internet verfügbar. Es gibt eine ganze Anzahl von Datenbanken, die den Genomen einzelner Organismen oder Spezies gewidmet sind (für eine Teilübersicht siehe [4]). Die Websites beinhalten nicht nur die Genomdaten selbst sondern auch Möglichkeiten, Anfragen auch komplexer Natur an die Datenbanken zu stellen. Am Münchner Informationszentrum für Proteinsequenzen (MIPS) in Martinsried sind z.B. alle Hefegenomdaten auf diese Art und Weise abrufbar [5].
|
Organismus |
Länge des Genoms (in kbp) | Bisher sequenzierter Anteil (in %) | Datum der Fertigstellung |
| Bakterien | |||
| M. genitalium | 760 | 100% | 1995 |
| M. pneumoniae | 800 | 100% | 9/1996 |
| M. janaschii | 1660 | 100% | 8/1996 |
| H. influenzae | 1830 | 100% | 7/1995 |
| Synechocystis sp. | 3570 | 100% | 4/1996 |
| E. coli | 4640 | 100% | 1/1997 |
| Eukaryonten | |||
| S. cerevisiae | 12060 | 100% | 4/1996 |
| S. pombe | 16000 | <10% | 1998 |
| A. thaliana | 70000 | <3% | 200+ |
| C. elegans | 100000 | 60% | 1998 |
| D. melanogaster | 165000 | <3% | 200+ |
| H. sapiens | 2900000 | 1% | 2002-2005 |
Eine Übersicht über das Genom des Organismus H. influenzae Abbildung 1. Die Beschriftungen identifizieren Gene im Genom und die Schattierungen beschreiben unterschiedliche Funktionsklassen der entsprechenden Proteine. Neben den Genomdaten selbst ist besonders die Gesamtheit der im Genom codierten Proteine, das sogenannte Proteom von Interesse. Der Grund dafür ist, daß das Proteom der wesentliche Träger des Stoffwechsels und der biologischen Prozesse im Organismus ist. Liegen die gesamten Genomdaten vor, so ist die erste Aufgabe, alle Elemente des Proteoms zu identifizieren und eine Klassifikation der Proteine nach ihren erwarteten Struktur- und Funktionsklassen vorzunehmen. Eine Übersicht über den Wissensstand über das Proteom von H. influenzae enthält Abbildung 2. Wie aus der Abbildung ersichtlich, gibt es für knapp ein Drittel der Proteine dieses Organismus noch keine funktionelle Zuordnung. Durch derartige Analysen gewinnt man einen Überblick über den gesamten Organismus [6,7,8]. Systeme, die diese Aufgabe angehen, gibt es bereits. Die Systeme GeneQuiz [9, 10] und TIGR [11] konzentrieren sich auf das Proteom, in [12] wird über Software zur Analyse nichtcodierender Regionen berichtet. Die Qualität der Vorhersagen muß allerdings noch deutlich verbessert werden. Auf diesen Grundanalysen setzen eine Vielzahl von Detailfragen auf. Diese Fragen mit bioinformatischen Methoden einer Antwort näher zu bringen, steht im Zentrum des Schwerpunktes.


1.1.2 Problembereiche, die Screening Methoden erfordern
In diesem Abschnitt beschreiben wir relevante Arten der Analyse großer genomischer Datenbestände. Im folgenden Abschnitt 1.1.3 wird dann diskutiert, mit welchen Methoden die Bioinformatik derzeit diese Analysen bewältigt. In Abschnitt 1.1.4 wird zusammengefaßt, welche Informatikmethoden dazu eingesetzt werden.
1.1.2.1 Genomsequenzierung und Kartierung
Die Technologie zur DNA Sequenzierung im großen Stil bedarf der Unterstützung durch Computer. International und auch in Deutschland - speziell im Zusammenhang des Deutschen Genomprojekts - wurden und werden Programme zur Datenverwaltung, zur Sequenzassemblierung und zur Kartierung entwickelt. Durch den steten Wandel der zugrunde liegenden Technologien sind auch immer neue Computeralgorithmen nötig. So wird etwa an neuen Verfahren zur Sequenzierung und Kartierung unter Verwendung von Hybridisationsdaten mit Oligonukleotiden oder Oligonukleotidarrays gearbeitet. Derartige Methoden versprechen auch für diagnostische Zwecke von erheblichem Nutzen zu sein.
Die Bioinformatikmethoden, welche in diesem Bereich zum Einsatz kommen, sind vielfältig. Im Bereich der Datenverwaltung sind Datenbanken gefragt, die den Arbeitsablauf in einem Labor widerspiegeln, Qualitätskontrolle unterstützen und mit den öffentlichen Sequenzdatenbanken integrierbar sind. Im Bereich der Sequenzierung fallen Aufgaben wie das Design von PCR Primern oder die Assemblierung von Fragmenten an. Im Zusammenhang der physikalischen Kartierung werden kombinatorische Optimierungsverfahren eingesetzt. Schließlich führen diese Verfahren wieder zu Problemen der Integration verschiedener Karten und allgemein zu den Fragen des Abgleichs heterogener Informationsquellen. Es ist aber für die Genomsequenzierung heute kennzeichnend, daß schon die Datenproduktion ohne intelligenten Einsatz von Computerverfahren nicht mehr denkbar ist.
1.1.2.2 Identifikation von Genen
Mit der großangelegten genomischen Sequenzierung einiger multizellulären Eukaryonten (z.B. C. elegans, A. thaliana, H. sapiens) fallen große Datenmengen an, von denen nur ein geringer Teil für Proteine kodiert (C. elegans 15%, H. sapiens 3%). Die kodierenden Regionen eines Gens der genomischen DNA (Exons) sind in höheren Organismen fast immer von nicht-kodierenden Einschüben (Introns) unterbrochen, die nach der Transkription zur Vorläufer-RNA an spezialisierten Partikeln (Splicosomen) im Zellkern entfernt werden. Es gibt bisher keine perfekten Methoden, Gene korrekt zu modellieren, d.h. alle Splicestellen richtig vorherzusagen. Besonders erschwert wird die Situation durch das in höheren Eukaryonten zu beobachtende "alternative Splicing", wobei externe Bedingungen bestimmen, welche Kombination von Exons derselben genomischen Sequenz bzw. Vorläufer RNA zum Protein translatiert wird. Schwierigkeiten bereitet auch die Interpretation von Pseudogenen, die zwar in hypothetische Proteinsequenzen übersetzt werden können, für die aber keine Translationsprodukte gefunden werden. Hier ist wahrscheinlich die Analyse der nichtkodierenden Umgebung der Schlüssel für eine bessere Unterscheidung von Genen und Pseudogenen. Andere natürlich vorkommende Phänomene wie RNA-editing, Inteine oder verschachtelte Gene (Gene in Introns) komplizieren die Vorhersagen weiter.
Der Schwerpunkt in der Methodenentwicklung liegt derzeit bei der Identifizierung menschlicher Gene. Da jedoch erst ca. 1% des menschlichen Genoms sequenziert ist und die vorhandenen Daten unzureichend für ein eingehendes Verständnis der Struktur menschlicher Gene sind, sind die bekannten Methoden stark, sind existierende Methoden stark verbesserungsbedürftig. Viele der Signale sind speziesabhängig, so daß eine sehr differenzierte Herangehensweise erforderlich ist. Trotz besser lautender Thesen in den Originalveröffentlichungen, konnte kürzlich in einem fairen Vergleich aller verfügbaren Methoden gezeigt werden [13], daß die Vorhersagegüte bei unbekannten Sequenzen 60% nicht übersteigt (Anzahl der absolut korrekt vorhergesagten Gene). Derzeitige Methoden versuchen, verschiedene Signale zu integrieren. Durch die Heterogenität der verfügbaren Information ist dies jedoch äußerst schwierig. Ausgenutzte Signale sind z.B. "codon usage", "start/stop und splice Stellen", Promotoren, Homologieinformation etc. Jedes dieser Signale ist für sich sehr schwach. Insgesamt werden viele Expertenregeln benötigt. Einige der publizierten Methoden sind nicht oder nur kommerziell verfügbar.
Die bekannteste und eine der besten Methoden zur Genidentifikation ist die GRAIL Programmfamilie [14]. Sie basiert auf neuronalen Netzen und berücksichtigt Signale wie Codon Usage, Splice Sites, GC Content und Sequenzähnlichkeiten. Die derzeit beste Methode scheint GeneID+ [13] zu sein, die Homologieverfahren besser nutzt und auch andere Signale wie Hexamerzusammensetzung einbezieht. Die Durchschnittswerte über die Zuverlässigkeit von Genidentifikationen geben allerdings nur wenig Aussagen für den praktischen Gebrauch, da bestimmte Stärken (z.B. wissen um eine höhere Güte bei der Vorhersage innerer Exons) von den Sequenziergruppen gezielt ausgenutzt werden. Von den Sequenziergruppen werden heute mehrere Verfahren miteinander verglichen und zusätzlich externe Daten (z.B. Exon Trapping) herangezogen.
1.1.2.3 Klassifizierung und Interpretation nichtcodierender Regionen
Die Packungsdichte, das Verhältnis von kodierender zu nicht kodierender Sequenz, variiert zwischen stark den einfach strukturierten prokaryontischen und den komplexen eukaryontischen Genomen. Während bei Gendichten von einem Gen/1000 Basen in E. coli nur wenig Raum für nichtkodierende Regionen bleibt, ist der weit überwiegende Teil des menschlichen Genoms nichtkodierend. Die Identifizierung von definierten genetischen Einheiten wie Introns, Promotoren, Terminatoren, Enhancer, Silencer, tRNAs, rRNAs, LTRs etc. in höheren Eukaryonten bereitet immer noch große Probleme und ist auch im Fall niederer Eukaryonten nicht immer befriedigend gelöst. Viele Faktoren der Transkriptionsmaschinerie binden an bestimmte regulatorische Stellen; hier fehlen oftmals noch die generellen Zusammenhänge, um den Ablauf zu verstehen. Räumliches Verhalten von DNA spielt eine Rolle, wenig Wissen ist zur globalen DNA-Faltung vorhanden und auch lokal sind bindungsbeeinflussende Faktoren wie z.B. sich an die DNA anlagernde Proteine noch wenig berücksichtigt (für Vorarbeiten in diesem Bereich siehe [15, 16]). Die Bedeutung vieler repetitiver Elemente ist unbekannt. Statistische Analysen konnten bisher nur an relativ kleinen Datensätzen durchgeführt werden.
In zunehmenden Maße finden regulatorische Elemente Eingang in Datenbanken wo sie mittels Konsensus- oder Matrixmethoden mit nicht-annotierten Genomsequenzen verglichen werden. Oftmals sind die Signale zu schwach, und so haben sich auch neuronale Netze bewährt, die die lokale Umgebung mit einbeziehen. Andere Verfahren benutzen Standardsequenzähnlichkeitssuchen, um bekannte repetitive Elemente (z.B. Alu) zu annotieren. Spezielle Methoden wurden zum Auffinden invertierter Repeats entwickelt. Auch statistische Verfahren werden für bestimmte Elemente (CpG Inseln ) herangezogen.
Im Umfeld des Schwerpunktes wurden drei Datenbanken mit Informationen über transkriptionelle Regulierung entwickelt [17], die Transkriptionsfaktoren und die sie regulierenden DNA Segmente enthält. Die Datenbank TRANSFAC enthält Transkriptionsfaktoren und ihre DNA Bindungsstellen. Die Datenbank TRRD sammelt Informationen über vollständige regulatorische Abschnitte, ihre regulatorischen Eigenschaften und ihre Architektur. COMPEL ist eine Datenbank, die Informationen über zusammengesetzte regulatorische Elemente enthält. Die Datenbanken werden zur Zeit gekoppelt. In die Klassifikation regulatorischer Elemente wurden auch Aspekte der dreidimensionalen molekularen Struktur einbezogen [16]. Zusammenhänge zwischen verschiedenen Promotoren werden ebenfalls bereits analysiert [18].
1.1.2.4 Vergleichende Genomanalyse
Die mehrfach erwähnten Möglichkeiten der intergenomischen Sequenzvergleiche erlauben es, die Frage nach den essentiellen Elementen eines Organismus zu untersuchen [19]. Interessant in bezug auf das menschliche Genom ist vor allem die Suche nach orthologen, also funktionell und strukturell äquivalenten Genen in Modellorganismen. Praktisch alle menschlichen Gene haben Äquivalente in anderen Organismen, selbst in einfachen, einzelligen Eukaryonten lassen sich diese Verwandtschaften leicht nachweisen. So weisen eine überraschend hohe Zahl von Hefegenen signifikante Homologien mit humanen Genen auf, von denen eine ganze Reihe als Loci menschlicher Erbkrankheiten identifiziert werden konnten. Die Deletion dieser Gene im Modellorganismus und die Komplementierung ihrer Funktion durch Rekombination mit dem orthologen menschlichen Gen erlaubt die funktionelle Untersuchung in der Umgebung eines stark vereinfachten Testsystems, die mit effizienten molekularbiologischen Methoden durchgeführt werden kann. Damit stehen Wege zur Entwicklung von diagnostischer Kits (PCR, Hybridisierung) zur Analyse genetischer Risiken, vor allem zur Prävention bei Risikogruppen offen (z.B. Mucoviszidose).
Bisher beruhen die Methoden zur intragenomischen Sequenzanalyse meist auf der Auswertung paarweiser Vergleiche. Es gibt jedoch bereits Ansätze zur Analyse im Megabasenbereich, die auf systematischen, vollständigen Sequenzvergleichen beruhen. Dazu sind bei n Genfragmenten eines Genoms n2 Sequenzvergleiche erforderlich. So konnten im Fall des Hefegenoms 300 Millionen Vergleiche durch die Anwendung leistungsfähiger Informatikwerkzeug in weniger als 24 Stunden auf einer UNIX-Workstation durchgeführt werden [20, 21]. Beim Vergleich aller 16 Hefechromosomen wurde eine sehr hohe Zahl von Sequenzähnlichkeiten gefunden, die als Indizien für intragenomische Evolution verstanden werden können. Daraus ergeben sich zentrale Aussagen zur genomischen Organisation, wie der Verteilung von Genfamilien oder die Anordnung collinearer Gencluster. Bisher ist nicht bekannt, ob die Topologie der Genomanordnung zwischen Organismen erhalten bleibt (dies kann bei bakteriellen Operons erwartet werden). Informatikmethoden müssen entwickelt werden, um aus der Fülle der Relationen mit Hilfe geeigneter Filter dedizierte Aussagen machen zu können. Damit sind Ansätze zum Verständnis evolutionärer Entwicklungsstrategien gegeben, über die bisher nur sehr wenig bekannt ist.
Von erheblichem praktischen Interesse sind Genomvergleiche von nah verwandten Organismen, wie z.B. Hefestämmen. Die genomische Sequenzierung von S. cerevisiae wurde an einem reinen Laborstamm durchgeführt, der sich in seinen Eigenschaften deutlich von Wildtyp-Stämmen unterscheidet. Genomvergleiche zwischen Stämmen können aufklären, welche Differenzen Ursache für bestimmte Eigenschaften sind und damit auch zur Verbesserung wünschenswerter Charakteristika führen.
1.1.2.5 Expressionsanalysen
Während die genomische Sequenzierung bereits Datenmengen im Gigabytebereich generiert, ist von Expressionsanalysen ein Vielfaches dieses Volumens zu erwarten. Damit stellt sich umso mehr die Frage nach einer effizienten Verarbeitung und Darstellung der Daten. Die Analyse von Expressionsmustern erlaubt im Gegensatz zur statischen Analyse der Zellkomponenten eine Momentaufnahme der Syntheserate der Menge aller Gene. Da die Syntheseraten von einer großen Zahl externer und interner Parameter abhängen und in vielen Fällen zusätzlich der zeitliche Verlauf zu beobachten ist, ist die Zahl der durchführbaren Experimente praktisch unbegrenzt. Für menschliche Zellen werden ca. 80-100.000 Gene geschätzt, jede einzelne Momentaufnahme wird Daten dieser Größenordnung liefern.
Das Spektrum der Anwendbarkeit von Expressionanalysen kann hier nur skizziert werden. Sie erlauben z.B. Rückschlüsse auf die funktionellen Eigenschaften eines Transkriptionsfaktors durch seine Deletion und die anschließende Analyse des Expressionsmusters. Da Transkriptionsfaktoren Teile von Signalübertragungswegen sind, müssen die experimentellen Parameter im Einzelfall variiert werden, bis Bedingungen zur Auslösung des Signals gefunden sind.
Expressionsanalysen werden für die Untersuchung von Wirkstoffen eine kaum zu überschätzende Bedeutung gewinnen. Wenn im Idealfall das Proteom einer Zelle und die Interaktionen der Komponenten bekannt sind, können Expressionsanalysen detaillierte Auskunft über die Transkriptionsraten jedes einzelnen Proteins geben. Rückschlüsse auf direkte und indirekte Wirkungen in Stoffwechsel oder Zellzyklusnetzwerken können gezogen werden. Die Zellbiologie wird auf eine völlig neue Grundlage gestellt. Vor allem die Wirkungen von Pharamaka auf die Elemente des Zellstoffwechsels können im Detail erfaßt werden. Damit kann die Entwicklung spezifischer, sicherer Pharamaka unterstützt werden. Die Bioinformatik muß zunächst Daten aus Transkriptionsanalysen organisieren, analysieren und mit Hilfe intelligenter Werkzeuge interpretieren.
1.1.2.6 Funktionsvorhersagen und Funktionsspektrum im Proteom
Nach der Identifizierung von Genen in genomischen Sequenzen oder direkt aus cDNAs oder EST Daten werden derzeit vielfältigste Datenbanksuchmethoden angewandt um über Homologieaussagen zu Datenbankproteinen Rückschlüsse auf die Funktion ziehen zu können. Die aus solchen Homologievergleichen abgeleiteten Annotationen vermischen jedoch oft molekulare, zelluläre und phänotypische Funktionen. Probleme sind zum einen immer noch Sensitivität und Geschwindigkeit der Suchen, aber in zunehmenden Maße auch die Art und Weise der Funktionsübertragung: in vielen Fällen geben Homologien keine direkten Rückschlüsse auf Funktionen, was dann bei automatischer Abarbeitung in großen Datenmengen auch zu falschen Annotationen führen kann. Eine relativ neue Richtung ist die Gruppierung von Funktionen, die erste Aufschlüsse über die Organisation von Organismen bringt. Hier müssen prinzipiell neue Methoden zur automatischen Extraktion und Klassifikation funktioneller Information entwickelt werden.
Die meisten bakteriellen Genome, die sequenziert werden, stammen von Organismen die biochemisch kaum untersucht sind (z.B. waren nur drei Proteine des Genoms von M. janaschii experimentell charakterisiert; alle anderen Genfunktionen wurden mittels Datenbanksuchen vorhergesagt). Zumindest mit dem Wissen über E. coli und B. subtilis können durch gezielte Genomvergleiche Rückschlüsse über Stoffwechselvorgänge gezogen werden [22], aber auch auf evolutionäre Phänomene, die solche Vorhersagen erschweren [19], 23]. Ein Zusammenspiel von Homologiesuchen und Stoffwechselmodellierungen im Zusammenhang mit den Nährstoffanforderungen ist bis jetzt nur in Einzelfällen erfolgt [22] und noch nicht algorithmisch aufgearbeitet.
1.1.2.7 Suche nach krankheitsrelevanten Genen und Proteinen
Fortschritte in der Genomanalyse erlauben immer häufiger die Einengung von Krankheitsgenen im Genom und schließlich ihre Sequenzierung. Auf dem Wege dahin werden bioinformatische Schritte von "linkage" über Kartierung bis hin zur Einengung von Kandidatengenen in einem größeren Satz von Genen benötigt. Derzeit werden überwiegend Gene für monogene Krankheiten kloniert, da das Zusammenspiel in multifaktoriell bedingten Krankheiten noch kaum durchdrungen ist. Hier müssen völlig neue Ansätze entwickelt werden, um entsprechende phänotypische Beobachtungen in Modelle umsetzen zu können, die dann Vorhersagen über Kausalitäten erlauben.
In einer Kandidatenregion werden zur Zeit potentielle Krankheitsgene weitgehend manuell durchsucht. Hier gilt es, die vielfältigsten und sehr heterogenen Datenbanken mit für Krankheitsgene relevanten Informationen (z.B. Kartierungen inkl. solcher in anderen Organismen, Phänotypdatenbanken, Mutationsdatenbanken, Expressionsmusterdaten) algorithmisch zu erschließen. Kartierungsdatenbanken (z.B. [24]) sind jedoch verbesserungsbedürftig.
Seit Anfang der 90er Jahre ermöglichte die schnell wachsende Zahl verfügbarer Genominformationen darüber hinaus die Identifizierung relevanter "Targets", d.h. wirkstoff-sensitiver Proteine. Damit setzte ein intensiver Wettbewerb auf der Seite der Sequenzanalytik zum Aufspüren geeigneter Ziele wie Ionenkanäle oder Transkriptionsfaktoren ein. Diese Bemühungen wurden durch die Konkurrenz der Pharmaindustrie bei der Entwicklung geeigneter, target-bindender Wirkstoffe, gefördert. Die Suche nach Zielproteinen führt viele bioinformatische Methoden zusammen, so etwa Sequenzvergleiche, Strukturvorhersagen, Funktionsvorhersagen und die Modellierung metabolischer Zusammenhänge.
1.1.2.8 Strukturbasierte Wirkstoffsuche
Wirkstoffe sind Substanzen, die in den Organismus eingeführt werden und dort an Biomoleküle, meistens Enzyme, binden. In dieser Eigenschaft bezeichnet man das Wirkstoffmolekül auch als "Ligand" des Enzyms. Wirkstoffe können kleine organische Moleküle (mit bis zu einigen Dutzend Atomen) sein oder große Biopolymere, wie Proteine, DNA oder RNA. Von pharmazeutischem Interesse sind vornehmlich die niedermolekularen Wirkstoffe, da die Biopolymere Probleme bei der Bioverfügbarkeit und Haltbarkeit aufweisen.
Protein-Ligand Docking: In diesem Fall ist der Ligand niedermolekular. Es gibt grundsätzlich mehrere Anwendungsszenarien für das Durchmustern von derartigen Liganddatenbanken auf der Suche nach interessanten Leitstrukturen für neue Wirkstoffe.

Alle bisher beschriebenen Zugänge gehen von der Existenz großer Mengen bereits bekannter und vorliegender Liganden aus. Ein alternativer Zugang ist, ein noch nicht bekanntes Ligandmolekül neu in der Rezeptortasche maßzuschneidern. Dieser Zugang wird als De Novo Design bezeichnet [35, 36]. Eine aktuelle Variante des De Novo Design versucht, Familien neuartiger Liganden auf sogenannten "kombinatorischen Bibliotheken" aufzubauen. Das sind Bibliotheken molekularer Bausteine, aus denen nach einem durchgängigen Bauprinzip Liganden gefertigt werden können, deren wirtschaftliche Synthese gewährleistet werden kann und deren Bioverfügbarkeit und Toxizität in erhöhtem Maße abschätzbar sind. Die ersten kombinatorischen Bibliotheken hatten (natürliche oder künstliche) Aminosäuren als Bausteine und basierten auf dem Bauprinzip der Peptidbindung [37]. Gubernator et al. [38] haben eine kombinatorische Bibliothek vorgeschlagen, die auf der Ugi-Reaktion oder geeigneten organischen Bausteinen basiert.
Protein-Protein Docking: Das Problem beim Protein-Protein Docking, also wenn der Ligand ebenfalls ein Protein ist, ist etwas anders gelagert. Hier sind beide Bindungspartner zunächst im Großen und Ganzen starr und haben eine recht große Kontaktoberfläche (zwischen mehreren hundert und wenigen tausend Å2). Das Problem hat also in erster Näherung die Qualität einer rigiden Strukturüberlagerung (eines Proteins mit dem "Negativabdruck" des anderen Proteins). Allerdings finden beim Bindungsprozeß subtile Konformationsänderungen an den Kontaktoberflächen statt (induced fit), die manchmal sogar die Gesamtkonformation eines oder beider Bindungspartner nachhaltig verändern. Solche Flexibilitäten können bis heute nur mit größtem Zeitaufwand, wenn überhaupt, berechnet werden [39]. Meistens wird Induced Fit dadurch berücksichtigt, daß die sterischen Anforderungen an die Nicht-Überlappung der beiden Bindungspartner weich gehalten werden. Damit werden Dockingprobleme gelöst, bei denen sich die konformationellen Änderungen der Bindungspartner in engen Grenzen halten.
Andere Dockingprobleme: Dockingprobleme mit DNA und RNA als Bindungspartner beinhalten häufig Desolvatationseffekte sowie sehr subtile Oberflächenerkennung, z.B. in der DNA-Furche. Solche Dockingprobleme werden heute nicht sehr häufig, und wenn, dann ausschließlich mit rechenintensiven Methoden bearbeitet, die zum Screening nicht geeignet sind.
1.1.2.9 Modellierung von metabolischen und regulatorischen Netzwerken
Molekulare Wechselwirkungen sind nur einzelne Bausteine in komplexen Netzwerken, die die Grundlage für die regulatorischen und metabolischen Prozesse in lebenden Organismen sind. Abbildung 4 zeigt einen Ausschnitt aus dem metabolischen Netzwerk von E. coli.
Nur auf der Basis metabolischer Netzwerke können Wirkungen des Wirkstoffs, die in vivo zu verzeichnen sind und über die in vitro zu beobachtenden Effekte hinausgehen, verstanden werden. Heute ist der einzig gangbare Weg zum Wirkstoffentwurf der, einzelne Wechselwirkungen, also Kanten im metabolischen Netzwerk, ganz auszuschalten und damit gezielt Stoffwechselkreisläufe zu brechen. Dazu benötigt man sogenannte "Inhibitoren", also Moleküle, die fest an Enzyme binden und ihre katalytische Wirkung blockieren. Schon die Identifikation solcher Wechselwirkungen kann auf der Basis umfassenden Wissens über einen Organismus und mit Rechnerhilfe gezielter geschehen als dies heute der Fall ist. Deshalb sind metabolische Netzwerke und ihre Analyse auch ein wichtiges Element der Zielstruktursuche (siehe auch 1.1.2.7).
Seit ganz wenigen Jahren ist man im Begriff, die metabolischen Zusammenhänge on-line in Datenbanken zusammenzufassen [40, 41, 42]. Ferner gibt es erste Ansätze zur Modellierung metabolischer Zusammenhänge, die über die klassischen Methoden partieller Differentialgleichungen hinausgehen und Informatikmethoden benutzen [43, 44]. Eine deratige Methode, die auf Computeralgebramethoden zurückgreift, stammt aus dem Umfeld des Schwerpunktes [45]. Auch im Bereich der interkativen Simulation metabolischer Netzwerke wurden im Umfeld des Schwerpunktes Vorarbeiten geleistet [46, 47].

Detailliertes Wissen über das Genom eines Organismus kann letztlich helfen, Prozesse der Zelldifferenzierung und Entwicklung des Organismus aufzuklären. Im Umfeld des Schwerpunktes wurden bereits Arbeiten durchgeführt, die molekulare Grundlagen für diese Prozesse mit Hilfe von Rechnermodellierungen aufgedeckt haben. [48, 49]
1.1.3 Stand der Bioinformatikmethoden
Die Bioinformatik hat eine beachtliche Geschichte, was die Entwicklung von Methoden betrifft, die der Analyse kleinerer genomischer Datenbestände dienen, etwa einzelner Gene und Proteine oder homologer Familien davon, siehe z.B. [50]. Erst seit wenigen Jahren, seit ganze längere Genome zur Verfügung stehen, haben die Methoden der Bioinformatik eine neue Zielrichtung bekommen, die sich daraus ergibt, daß keine Zeit mehr dafür vorhanden ist, jedes einzelne Gen oder Protein mit rechenintensiven Methoden zu analysieren. Dadurch ergeben sich hohe Anforderungen an die Effizienz der Bioinformatikmethoden. Die verwendeten Modelle müssen von zu großem Detail abstrahieren und den wesentlichen biologischen Sachverhalt widerspiegeln.
In diesem Abschnitt beschreiben wir, wie sich in jüngster Zeit die Bioinformatik auf diese Herausforderungen einzustellen beginnt. Insbesondere wird auch auf Arbeiten eingegangen, die auf potentielle Teilnehmer in dem hier beantragten Schwerpunkt zurückgehen.
1.1.3.1 Alignment von genomischen und Proteinsequenzen
Der Vergleich zweier ähnlicher Sequenzen wird im sogenannten Alignment dargestellt. Das Alignment schreibt zwei (oder im Falle des multiplen Alignments mehrere) Sequenzen unter Einführung von Lücken so übereinander, daß einander entsprechende Reste miteinander gepaart werden. Die klassische Methode zum Sequenzalignment ist ein dynamisches Programmierungsverfahren, welches die Anzahl bzw. Qualität der in einem Alignment einander zugeordneten Residuenpaare bei gleichzeitiger Bestrafung eingeführter Lücken maximiert [51, 52]. Dieses Verfahren hat sich als ausgesprochen erfolgreich bei der Identifikation homologer Proteine erwiesen. Auch liegt es den meisten praktischen Verfahren zum multiplen Alignment zugrunde.
Sequenzalignment ist die Grundlage aller Analogieschlüsse, die bekannten Eigenschaften einer Sequenz, wie etwa Struktur oder Funktion, auf eine ähnliche übertragen. Zur Erfolgsgeschichte des Sequenzalignment gehören:
Durch die Ansprüche der Genomanalyse hat sich das Schwergewicht der Weiterentwicklung der Alignmentverfahren verschoben. Zum einen gibt es spezielle Anforderungen im Alignment von genomischer DNA. Hier muß die Existenz von Introns berücksichtigt werden, was zur Zulassung einer speziellen Kategorie extrem langer Lücken führt [56]. In anderem Zusammenhang, etwa bei der Analyse von ESTs, sind Sequenzierungsfehler mit einzukalkulieren, welche dann das Leseraster stören. In der Folge wurden Varianten des klassischen Algorithmus entwickelt, die diesen Aspekten Rechnung tragen [57, 58]. Ein weiterer wesentlicher Einsatzbereich der weiterentwickelten Methode liegt in der Genvorhersage. Statistische Methoden der Intron/Exon-Erkennung werden heute durch Vergleiche zu bekannten Proteinen dramatisch verbessert.
Das Problem des multiplen Alignments hat eine hohe Berechnungskomplexität. Es hat im Zusammenhang der Genomsequenzierung auch verstärkt an Bedeutung gewonnen. Durch die Analyse der Genome verschiedener Modellorganismen sind zu vielen Proteinen heute homologe Familien bekannt. Diese müssen zum Zwecke der weiteren Analyse multipel aligniert werden. Ein wesentlicher deutscher Beitrag hierzu aus den letzten Jahren ist die divide-and-conquer Methode [59]. Auf diesem Algorithmus beruht das zur Zeit schnellste Verfahren, welches zudem in der Lage ist, das optimale Alignment mit einer Abweichung unter 1% anzunähern. Schwache Signale verlängern die Rechenzeit, verschlechtern aber nicht die Qualität der Approximation. Aus evolutionsbiologischer Sicht ist die gängige Praxis der Rekonstruktion von Phylogenien aus multiplen Alignments problematisiert worden. Ansätze wie das globale integrierte Baum-Alignment [60, 61] oder das segmentbasierte Alignment [62], um Positionen, die ein phylogenetisches Signal tragen, zu identifizieren [63], wurden in letzter Zeit von deutschen Gruppen verstärkt bearbeitet.
Nicht allein die Qualität der Optimierung des Alignments ist ausschlaggebend. Das global optimale Alignment kann aufgrund fehlerhafter Daten oder von Ungenauigkeiten in der Kostenfunktion biologisch falsch sein. Daher ist es notwendig, neben einem optimalen Alignment auch die fast optimalen Alignments zu bestimmen [64]. Nur wo sich die meisten von ihnen ähneln, kann man dem Alignment trauen. Auf dieser Basis läßt sich jeder Alignmentposition eine "Signifikanz" zuweisen. [65].
Die Wahl der Koeffizienten in der Kostenfunktion für das Alignment ist schwierig. In letzter Zeit wurden Algorithmen entwickelt, die zur Optimierung dieser Parameter dienen. Diese Algorithmen halten die fraglichen Parameter variabel und berechnen den Einfluß der Änderung solcher Parameter auf die Menge der optimalen Alignments [66, 67].
Ein fundamentales Problem in der Analyse von Sequenzähnlichkeit vor dem Hintergrund der ständig wachsenden Datenmengen ist das Ansteigen der nur auf Grund zufälliger Ähnlichkeit zu erwartenden Qualität eines Alignments. Auch über diese statistischen Probleme wird in Heidelberg gearbeitet [68].
1.1.3.2 Überlagerung von Proteinstrukturen
Der effiziente und biologisch sinnvolle Strukturvergleich von Proteinen ist eine wesentliche Komponente von Genomanalysesystemen. Die strukturelle Clusterung von Proteinfamilien, die einen Teil der Strukturierung genomischer Information darstellt, basiert auf dem Strukturvergleich von Proteinen. Ferner werden Strukturvergleiche zur Eichung und Validierung von Proteinstrukturvorhersagemethoden benötigt. Insbesondere sind Strukturvergleiche die algorithmische Basis von Datenbanken von Proteinteilstrukturen (Fragmenten) und strukturellen Alignments von Proteinen.
Die Überlagerung zweier Proteinstrukturen geschieht in zwei Schritten. Im ersten Schritt werden Atome der beiden Proteine, die sich strukturell entsprechen, einander zugeordnet. Im zweiten Schritt wird dann auf der Basis dieser Zuordnungen eine Transformation des einen Proteins auf das andere berechnet, das die Abweichungen der Koordinaten der einander zugeordneten Atome minimiert. Der zweite Schritt ist gut verstanden und kann schnell durchgeführt werden [69, 70, 71]. Der erste Schritt ist der schwierige. Hier beschränkt man sich häufig auf kritische Atome in den Proteinen, etwa Ca- oder C[beta]-Atome.
Bei der Strukturüberlagerung werden verschiedene Arten von struktureller Ähnlichkeit unterschieden:
Bei der Strukturüberlagerung von Proteinen gibt es zwei sich entgegenstehende Gütekriterien. Das eine ist die Anzahl der Paare einander zugeordneter Atome. Das andere ist die strukturelle Abweichung zwischen den beiden Proteinen. Offenbar ist es umso einfacher, eine geringe strukturelle Abweichung zu erzielen, je weniger Atompaare man betrachtet. Auf der anderen Seite möchte man so große Anteile der beiden Proteine wie möglich einander strukturell zuordnen. Häufig sucht man nach maximalen identischen Teilstrukturen in den beiden zu vergleichenden Proteinen.
Die algorithmischen Ansätze zur Strukturüberlagerung wurden zum Teil auch im Umfeld des Schwerpunktes entwickelt und umfassen:
Alle hier genannten Verfahren wurden auch eingesetzt, um die gesamte Proteinstrukturdatenbank zu clustern oder wesentliche Teile von ganzen Proteomen strukturell zu klassifizieren [79, 80, 81, 82]. Dennoch ist die Verfeinerung im Hinblick auf rechnerische Effizienz und biologische Signifikanz eine wichtige Anforderung an die weitere Forschung. Verschiedene Methoden ergeben bis heute noch oft unterschiedliche, ja zum Teil sogar nicht vergleichbare Resultate.
1.1.3.3 Faltungserkennung und Threading bei Proteinen
Wir unterscheiden folgende Arten der Proteinstrukturvorhersage
Ein gutes Threading in ein strukturell hochähnliches Template-Protein ermöglicht gegebenenfalls auch bei Proteinen ohne hochähnliche Vorbilder in der PDB die Modellierung des aktiven Zentrums oder anderer wesentlicher Teile des Proteins.
In dem weltweiten Experiment CASP-2 (Second Meeting on the Critical Assessment of Techniques for Protein Structure Prediction [83]) wurden alle drei Strukturvorhersageklassen (und Docking) einer genauen Prüfung dahingehend unterzogen, wie effektiv sie bei tatsächlichen Vorhersagen in Unkenntnis der Struktur sind. Dabei hat sich herausgestellt, daß insbesondere im Threading Bereich in den letzten Jahren große Fortschritte erzielt wurden.
Für großangelegte Durchmusterungen von Genomen kommt nur die Problemklasse 2 (Threading) in Frage. Comparative Modeling ist bis auf weiteres zu rechenintensiv und erfordert eine explizite Einzelbehandlung jedes Proteins. Die Erfolge in ab initio Bereich sind bisher weit von dem entfernt, was man als biologisch nützlich bezeichnen kann. Allerdings hat sich ein Teilbereich der ab initio Strukturvorhersage, nämlich die Vorhersage von Sekundärstrukturen, vor allem als unterstützendes Element für Threading Methoden, etabliert. Hier gibt es neue Methoden, die auf neuronalen Netzen basieren und neben den Sequenzdaten auch evolutionäre Information berücksichtigen. Im Umfeld des Schwerpunktes sind zwei der weltbesten Methoden zur Sekundärstrukturvorhersagen entstanden [84, 85].
Threading ist die wesentliche strukturbasierte Methode zur Durchmusterung von Proteomen mit dem Ziel der Strukturklassifikation aller Proteine.
Es gibt weltweit bereits eine Vielzahl von Threadingmethoden, die sich auf unterschiedlichste Algorithmen und Eingangsinformationen stützen. Die natürlichste Unterscheidung findet sich zwischen Verfahren, die davon ausgehen, daß das chemische Strukturprofil zwischen Template und Target identisch ist (Profilmethoden) und solchen Verfahren, die berücksichtigen, daß Aminosäureaustausche auch dieses Profil verändern können, und deshalb Wechselwirkungen zwischen Aminosäurepaaren (oder sogar mehr Aminosäuren) bewerten (Potentialmethoden).
Eine Spezialklasse der Profilmethoden benutzt überhaupt keine Strukturinformation. Die erfolgreichste Variante dieser Methoden basiert auf dem Hidden Markov Modell [89]. Es ist überraschend, wie zutreffend die Ergebnisse dieser Methoden sind, erwartet man doch, daß eine explizite Berücksichtigung von Strukturinformation zusätzliche Genauigkeit liefert. Ein genauer Vergleich der beiden Methodenklassen steht noch aus.
Aktuelle Erfahrungen zeigen, daß eine Kombination beider Zugänge zum Threading am erfolgversprechendsten ist. Die globale Architektur kann mit Profilmethoden bestimmt werden. Genauere Modellierungen von aktiven Zentren an ausgewählten Templates können dann von Potentialmethoden übernommen werden.
Die Ableitung sinnvoller Kostenfunktion für Threading ist eine wesentliche Komponente des gesamten Forschungsgebietes [94]. Zu diesem Zweck werden auch parametrische Alignmentverfahren eingesetzt [67].
Die Verwertung zusätzlicher experimentell verfügbarer Information über das Protein (Mutationsdaten, interpretierte CD Spektren etc., Teilinformationen aus Röntgendiffraktionsdaten, NMR Daten und elektronenmikroskopischen Experimenten und deren Benutzung bei der Strukturvorhersage ist ein noch nicht weit entwickeltes Gebiet. Hier gibt es sowohl von der Datenbankseite als auch im Bereich der Analysealgorithmen noch viele offene Probleme. Dieser Forschungsbereich leidet auch unter der Situation, daß sich Theoretiker und Experimentatoren heute noch nicht nahe genug stehen. Es gibt jedoch auch in diesem Bereich einzelne Vorarbeiten, auch im Umfeld des Schwerpunktes [95, 96].
1.1.3.4 Strukturvorhersagen bei anderen Biomolekülen
Auch die räumlichen Strukturen von DNA und RNA sind relevant. Hier ist die rechnergestützte Vorhersage jedoch etwas anders gelagert. DNA ist strukturell sehr stabil (Doppelhelix), so daß es nur auf der Ebene der Feinstruktur interessante Fragestellungen gibt. Dazu gehört etwa die Erkennung des in der DNA gespeicherten genetischen Codes durch die DNA lesende Enzyme. Die meisten dieser Fragestellungen sind jedoch so schwierig, daß sie zur Zeit eine rechnergestützte Analyse nicht erlauben. Untersuchungen von Biegungen der DNA sind dagegen möglich, jedoch sind uns keine Informatikmethoden bekannt, die hier angewandt werden.
RNA ist strukturell viel variabler als DNA und spielt daher eine Zwitterrolle, einerseits als Informationsspeicher und andererseits als Stoffwechselmolekül. Damit ist auch die 3D Struktur von RNA interessant. Der experimentell aufgelöste Datenbestand ist hier wesentlich kleiner als bei Proteinen und beschränkt sich fast ausschließlich auf Transfer-RNA. Dreidimensionale Modellierung von RNA ist deshalb auch heute noch kein etabliertes Gebiet. Jedoch wird seit vielen Jahren an rechnergestützten Methoden zur Bestimmung der Sekundärstruktur von RNA gearbeitet. (Dieser Begriff ist nicht mit dem bei Proteinen zu verwechseln. Es handelt sich um grundlegend unterschiedliche Strukturmerkmale, die nur den Namen teilen.)
Zur Sekundärstrukturvorhersage von RNA gibt es drei Zugänge [97]. Der erste versucht, die Sekundärstruktur von RNA auf der Basis eines Sequenzvergleichs zu ermitteln. Dieser Zugang hat bis heute hohe interaktive Anteile. Der zweite, informatiknähere Zugang, reduziert die Strukturvorhersage auf die Optimierung einer heuristischen Energiefunktion, die jedem Feature einer RNA Sekundärstruktur (Basenpaarung, Loop, Bulge, Hairpin, Multiloop) einen gewissen energetischen Anteil zumißt. Die entsprechenden Algorithmen sind wieder Versionen dynamischer Programmierung [98]. Ein dritter Ansatz beruht auf statistischen Modellen über die Wahrscheinlichkeit der Ausbildung von Strukturfeatures [99, 100].
Bei RNA Strukturen hat man auch früher als bei Proteinen begonnen, Strukturlandschaften und ihre evolutiven und energetischen Zusammenhänge zu untersuchen. In der Weiterentwicklung von Kimura's "Neutral Theory of Evolution" [101] werden globale Sequenz-Strukturbeziehungen untersucht und große Strukturlandschaften komplett berechnet und analysiert [102]. Ribosomale RNAs und ihre Strukturen sind eine wichtige Basis zur Konstruktion von Phylogenien. Strukturelle Ähnlichkeiten in den UTRs von mRNA gelten derzeit als Schlüssel zur Erklärung von Mechanismen der Genregulation.
Anders als beim Sequenzvergleich gibt es noch keinen etablierten Ähnlichkeitsbegriff für RNA-Strukturen. Verwendete Modelle sind Basenpaarabstände [98] und (seltener) die tree-edit-distance [103]. Verfahren zum systematischen Vergleich einer großen Anzahl von Strukturen und ihrer Substrukturen (etwa zur Klassifizierung der UTRs eines Genoms und damit der von ihnen regulierten Mechanismen, s.o.) gibt es noch nicht.
1.1.3.5 Molekulares Docking
Eine Taxonomie der Probleme beim Docking wurde bereits unter 1.1.2.8 gegeben. Hier soll auf die bioinformatischen Methoden zur Lösung von Dockingproblemen eingegangen werden.
Protein-Ligand Docking: Beim Docking gibt es im wesentlichen zwei Problembereiche. Der eine behandelt die Vielfalt der Konformationen der beteiligten Moleküle. Der andere umfaßt die Bewertung einer gegebenen Konformation auf der Basis einer heuristischen Energiefunktion.
Die schnelle Berechnung genauer Energiefunktionen ist zur Zeit der Engpaß für schnelle Dockingmethoden, wie sie bei der Durchmusterung großer Datenbestände benötigt werden.
Protein-Protein Docking: Beim Protein-Protein Docking werden zwei unterschiedliche Zugänge verwendet. Der eine gründet sich auf eine detaillierte Modellierung der molekularen Flexibilität und benutzt komplexe Energiefunktionen sowie Algorithmen aus dem Bereich der Molekulardynamik oder lokalen Optimierung (Monte Carlo Methoden). Als Beispielreferenz für eine sehr umfangreiche Literatur in diesem Bereich sei [106] angegeben. Der andere Zugang betrachtet beide Proteine als starre Körper und verwendet ähnliche Algorithmen wie beim starren Docken niedermolekularer Liganden. Verwendete Algorithmen gründen sich hier auf Cliquesuche [108], geometrisches Hashing [109] oder Korrelationsberechnungen, die die schnelle Fouriertransformation benutzen [110]. Die ersten Varianten dieser Methoden betrachteten nur die geometrische Komplementarität der beiden Bindungspartner an der Kontaktfläche. Zu diesem Zweck wurden mehrere Vorschläge für effiziente Repräsentationen von molekularen Oberflächen gemacht [111, 112, 113]. Beiträge zur Oberflächendarstellung aus dem Umfeld des Schwerpunktes finden sich in [114]. Für eine erfolgreiche Dockingmethode ist jedoch die Einbeziehung chemischer Informationen notwendig. Aktuelle Resultate in dieser Richtung wurden auch im Umfeld des Schwerpunktes bearbeitet [115,116].
1.1.3.6 Molekularbiologische Datenbanken
Es gibt eine recht große Zahl von Datensammlungen molekularbiologischer Daten. Die Gesamtzahl dürfte zwischen 100 und 200 liegen. Dabei umfaßt das Spektrum große Datensätze, deren Aufgabe die globale, aktuelle, vollständige Erfassung biologischer Sequenzen ist ebenso wie private Sammlungen, die nur für Spezialisten von Interesse sind. Zu den großen, institutionalisierten Datenbanken gehören die Datenbanken am NCBI (National Centre for Biotechnology Information, USA) und EBI (European Bioinformatics Institute, Cambridge) für Nukleinsäuresequenzen, die Gruppe PIR-International (NBRF, Washington D.C., MIPS, Martinsried und JIPID, Tokyo) und SwissProt (Genf) für Proteinsequenzen. Das Volumen beträgt bei den Datenbanken für Nukleinsäuresequenzen ca. 750 Millionen Basenpaare, dem stehen ca. 150.000 Proteinsequenzen gegenüber. Diese für die Molekularbiologie lebenswichtigen Datenbanken sind weitgehend institutionalisiert und unterstützen Zugriffsmöglichkeiten über das Internet. Die Protein Database (Brookhaven, USA) ist die wichtigste Ressource für Strukturdaten, vor allem von Proteinstrukturen aus kristallographischen Untersuchungen.
Zwei grundsätzlich verschiedene Ansätze der Struktur der Datensammlungen sind zu unterscheiden: einerseits verstehen sich die Nukleinsäuredatenbanken als Archive, d.h. Einträge sind weitgehend statisch, können redundant und inkonsistent sein. Ihr Inhalt ist im wesentlichen von den elektronischen Einsendungen von Wissenschaftlern abhängig. Demgegenüber steht der Grundsatz "ein Gen - ein Datenbankeintrag" der von den Proteinsequenzdatenbanken verfolgt wird. Dabei fällt der Datenbank der aufwendige Prozeß der Qualitätskontrolle und der wissenschaftlichen Annotation der Daten zu.
In Ergänzung zu den Primärdatensammlungen sind besonders die vollständig sequenzierten Modellgenome zu nennen, die meist von den Gruppen gepflegt werden, die an der experimentellen Sequenzierung beteiligt waren. Alle Sammlungen dieser Art sind über das Internet zugänglich. Eine Übersicht gibt Abbildung 5.
Die wichtigen Datensammlungen stellen sich jährlich in einem Sonderband von Nucleic Acids Research vor, siehe etwa [117]. Die deutsche Beteiligung ist im Vergleich zu den Anstrengungen in USA und Großbritannien eher bescheiden, aber mit der TRANSFAC Sammlung der GBF, der Proteinsequenzdatenbank und der Datenbank des Hefegenoms von MIPS sowie der umfangreichen Enzymdatenbank BRENDA an der Universität Köln wird ein wichtiger Beitrag zu den internationalen Anstrengungen geleistet.
Mit der großen Zahl von Datensammlungen, ihrer strukturellen Heterogenität und ihrer semantischen und syntaktischen Inkompatibilität sind eine ganze Reihe von Problemen verbunden, die bisher nur unvollkommen gelöst werden konnten. Ansätze zum Zugriff auf heterogene Datensätze durch vernetzte Zeiger waren erfolgreich [118]. Die Methode, Querverweise zwischen den Datenbanken zum Erzeugen gemeinsamer Objekte zu nutzen, kann jedoch nicht die grundsätzlichen Schwierigkeiten heterogener und inkonsistenter Einträge überwinden. Die Entwicklung integrierter Genomdatenbanken führte bisher nicht zu befriedigenden Ergebnissen [119]. Die Verbesserung der Methoden zum Zugriff auf heterogene Datenbanken oder die Generierung homogener, komplexer Genomdatenbanken sollte daher in den Katalog der Aufgaben des Schwerpunkts eingeschlossen werden (siehe auch 1.1.4.3).
|
Common DNA and Protein Databases EBI - Cambridge UK NCBI - Bethesda, USA PIR-International SwissProt (Genf, Schweiz) |
Genome Sequencing Projects Magpie Genome Sequencing Project List The Sanger Centre (Cambridge, UK) Washington University Department of Genetics (St. Louis, USA) |
|
Vollständige Genome The Institute of Genome Research (Rockville, USA)
Munich Information Centre f. Protein Sequences (MIPS, Martinsried) Yeast Protein Database (YPD) (Cold Spring Harbor, USA) Saccharomyces Genome Database (SGD) (Stanford Univ., USA) |
Spezielle Datensammlungen Hefe Genetic and physical maps of S. cerevisiae (Stanford Univ. USA) Related human genes (NIH XREFdb) (NIH, Bethesda, USA) NIH Yeast Info page (NIH, Bethesda, USA) Schizosaccharomyces pombe by Frans Hochstenbach (Amsterdam, Niederlande) Candida albicans information |
1.1.3.7 Visualisierung
Die in der Bioinformatik zu bearbeitende Datenfülle erzwingt die Verwendung aller sich bietenden Hilfsmittel für eine leicht und schnell erfaßbare Präsentation
a) der relevanten Details der infrage stehenden und zu explorierenden Daten und
b) der Resultate, die im Zuge der Analyse dieser Daten mit den Methoden der Bioinformatik erzielt worden sind.
Insbesondere sind, wo Texte und Tabellen nicht mehr ausreichen, Methoden der Visualisierung heranzuziehen, wie sie für die computerunterstützte Bearbeitung biologischer Daten schon seit geraumer Zeit in einer ganzen Reihe von Arbeitsgruppen entwickelt worden sind - von der Visualisierung biologischer Verwandtschafts- bzw. Ähnlichkeitsverhältnisse [120, 121, 122, 123] und ähnlichen graphischen Darstellungen über die Visualisierung von Sequenz-Alignierungen [93] oder von RNA-Sekundärstrukturen [124] bis hin zur Analyse der 3D-Struktur von Proteinen und von Faltungs- oder Docking-Prozessen [125, 126, 127, 128. Der geplante DFG-Schwerpunkt wird deswegen diesen Aspekt der Computational Molecular Biology als ein wichtiges integratives Moment explizit berücksichtigen.
1.1.4 Stand der einschlägigen Informatikforschung
In diesem Abschnitt beschreiben wir, welche innerinformatischen Methoden in die Bioinformatik überführt wurden und dort die Leistungsfähigkeit der entstehenden Werkzeuge begründet haben.
1.1.4.1 Algorithmenentwicklung
Es gibt eine Vielzahl von algorithmischen Paradigmen, die in der Bioinformatik von großem Wert sind.
Gibt man die vereinfachenden Modellannahmen auf, so entstehen bei der Sequenzanalyse komplexere kombinatorische Optimierungsprobleme, die wiederum unter Beteiligung von Informatikern gelöst werden. Hier spielen Branch&Bound Methoden eine Rolle [91], aber auch Schnittebenenverfahren [129] und andere komplexe Optimierungmethoden werden eingesetzt.
Auch molekulare Strukturen können mit kombinatorischen Methoden analysiert werden. So hat etwa die Berechnung und Analyse molekularer Oberflächen kombinatorische Aspekte [130, 131] und auch die Cliquensuchalgorithmen und das geometrische Hashing sind kombinatorische Verfahren, die von oder unter Beteiligung von Informatikern entstanden sind und verbessert wurden [74, 75, 132].
Die biologische Anwendung erfordert es, daß kombinatorische Algorithmen eng mit statistischen Modellen und Verfahren verwoben werden. Eine besonders erfolgreiche Ausprägung in diesem Bereich ist das Hidden Markov Modell [89, 133]. Dabei handelt es sich um eine auf stochastischen endlichen Automaten basierende algorithmische Konstruktion, die schnelle Analysen mit hoher Adaptivität verbindet. Ein Hidden Markov Modell ist auf einen gegebenen Datenbestand trainierbar und erkennt nach dem Training Daten ähnlicher Art, erlaubt aber auch, solche Daten weiter zu interpretieren.
Internationale Foren für kombinatorische Algorithmen für biologische Probleme bieten die Konferenzreihen International Symposium on Combinatorial Pattern Matching (CPM), und International Conference on Computational Molecular Biology (RECOMB). Spezialbände von Informatikzeitschriften widmen sich ebenfalls diesem Thema [135, 136], und es ist ein Schwerpunkt der Zeitschrift Journal of Computational Biology.
1.1.4.2 Softwareentwurfstechnik
Aus Softwartechnischer Sicht unterscheiden wir drei Arbeitsgebiete:
1.1.4.3 Datenbankmethoden
Wie bereits unter 1.1.3.6 ausgeführt, bereiten die Heterogenität, die Inkompatibilität und die inhomogenen Zugriffsmöglichkeiten auf die biologischen Datenbanken für die Benutzer erhebliche Probleme. Dabei kann zwischen Standardanfragen (z.B. welche verwandten Sequenzen zu einer Gensequenz X sind in GenBank vorhanden?) und komplexen, nicht vorhersehbaren Anfragen (welche Proteine weisen das Sekundärstrukturmuster [alpha][alpha][beta][beta][alpha] auf?) unterschieden werden. Die erste Kategorie von Abfragen kann durch standardisierte Software (z.B. BLAST) oder geeignete Datenstrukturen (Homologiedatenbanken) beantwortet werden, die zweite Kategorie erfordert spezielle Datenstrukturen. Ein Beispiel für eine neuere Entwicklung in diesem Bereich gibt [146].
Für biologische Datenbanken gibt es Ansätze auf der Basis von Flat Files (PDB), relationale Ansätze (die meisten Sequenzdatenbanken) sowie hiearchische und objektorientierte Ansätze 34. Die Datenbanken werden mit effizienten Zugriffsmethoden versehen. Neben den etablierten Verfahren zur Indizierung von Texten (z.B. invertierte Indizes) sind Positionsbäume (Suffix Bäume) zur schnellen Suche in großen Sequenzdatenbanken geeignet [21].
Versuche der Vereinheitlichung und semantischen Definition biologischer Datenbanken [147] konnten sich bisher nicht durchsetzen. Die Kopplung biologischer Datenbanken wurde in den letzten Jahren z.T. mit Hilfe aus der Informatik, energisch vorangetrieben, siehe z.B. [34, 118].
Nach dem Scheitern der Versuche, einheitliche Formatstandards für die biologischen Datenbanken zu definieren wird in letzter Zeit versucht, durch die Definition der Datenverteilschicht eine bessere Kompatibilität zu erreichen. Dabei stehen Bemühungen des EBI (Biostandards Projekt) und der Versuch mit dem Industriestandard CORBA (Common Object Request Broker Architecture) ein Instrument für den transparenten Zugriff von Programmen auf Datenbanken über Weitverkehrsnetze zu ermöglichen im Vordergrund.
Das Ziel des Antrages ist, einen Akzent in der Entwicklung bioinformatischer Methoden zur Analyse genomischer Datenbestände zu setzen, der einen Ausgleich zur Erzeugung der gewaltigen molekularbiologischen Datenbestände schafft, die in den nächsten Jahren zu erwarten sind. Die Bioinformatik ist ein vielseitiges Gebiet mit Facetten, die von der Rechnerunterstützung bei der Sequenzierung von Nukleinsäuren über die Analyse verschiedenartigster Sequenzdaten bis zu der Vorhersage von molekularen Strukturen und deren Wechselwirkungen reichprechenden Forschergemeinde tun. Daher hat sich die Koordinationsgruppe entschlossen, die Fokussierung in dazu orthogonaler Art und Weise vorzusehen - nämlich durch die verwendeten Methoden.
Wie schon in der Einführung dargelegt, erfährt die Molekularbiologie durch die in den nächsten Jahren bereitgestellten Genomdaten einen Paradigmenwechsel. Dieser Vorgang kann als nicht weniger als revolutionär betrachtet werden. Eric Lander [148] vergleicht ihn mit der Entdeckung des Periodensystems in der Chemie im letzten Jahrhundert. Die Chemie wurde durch diese Entwicklung von einer Disziplin, die eine unbeschreibliche und schlecht verstandene stoffliche Vielfalt zu erfassen suchte, zu einer Wissenschaft, der es möglich war, diese stoffliche Vielfalt vollständig auf überraschend wenige Grundsubtanzen und Gesetzmäßigkeiten zurückzuführen. Ähnliches steht jetzt der Molekularbiologie bevor. An die Stelle der Untersuchung phänotypischer Phänomene sowie der Erforschung von sehr begrenzten biomolekularen Systemen auf molekularbiologischem Niveau tritt jetzt zum ersten Mal die Möglichkeit, Organismen tatsächlich auf der Basis aller sie definierenden genomischen Daten zu analysieren und so global zu verstehen zu versuchen.
Wie die Entwicklung des Periodensystems die Chemie revolutioniert hat und auf der einen Seite zur Entwicklung chemischer Industrien geführt, auf der anderen Seite den Grundstein für die Notwendigkeit der Entwicklung der Quantenmechanik gelegt hat, so sind von der Verfügbarkeit genomischer Information weitreichende Konsequenzen für die Molekularbiologie zu erwarten. Die Zusammenhänge zwischen molekularbiologischen Einzelsystemen werden zunehmend in das Zentrum molekularbiologischer Forschung treten. Gegenüber dem exakten Detailwissen über molekulare Einzelsysteme wird die Gewinnung von Übersichten über Organismen sowie deren evolutionäre Verwandtschaftbeziehungen an Bedeutung gewinnen. Dabei muß auch erlaubt sein, molekularbiologische Strukturen und Prozesse in Modelle zu fassen, die einen bisher nicht gekannten Abstraktionsgrad haben, denn auf abstrahierter Ebene sind Zusammenhänge besonders gut faßbar. Der Schwerpunkt setzt sich zum Ziel, Rechnermethoden zu entwickeln, die diese "neue" Molekularbiologie effektiv unterstützen.
Die ausführlichen Beschreibungen des Standes der Forschung legen implizit die Forschungsziele nahe, nämlich dort einzugreifen, wo sich besondere Defizite im Bereich der rechnerunterstützten Methoden zeigen. Im einzelnen soll hier nochmals eine kurze Auflistung der wesentlichsten Bedarfsgebiete folgen.
1.2.1 Anwendungsnahe Fragestellungen
1.2.1.1 Bioinformatische Unterstützung der Genomsequenzierung, Datenbereinigung: Arbeiten auf diesem Gebiet sind insbesondere angesichts der in den letzten Jahren angelaufenen umfangreichen Sequenzierungen auch in Deutschland notwendig. Die Schwerpunkte liegen hier bei der Bewältigung des bei der Sequenzierung anfallenden Datenvolumens (Hybridisierungsdaten), der Interpretation der anfallenden Daten (Base calling, Assemblierungsverfahren).
Ein oftmals unterschätztes Problem ist das Vorhandensein von Fehlern in molekularen Datenbanken. Diese können die Sequenz selbst betreffen, kommen in zunehmenden Maße auch in der Annotation vor und führen gerade bei funktionellen Angaben zu falschen Schlußfolgerungen und Experimenten. Hier müssen Filter entwickelt werden, die zu einer Reannotation führen.
Sequenzfehler: Es ist allgemein bekannt, daß ESTs eine hohe Fehlerrate haben. Neben "Verunreinigungen" (Introns, Vektoren etc.) erschweren vor allem Leserahmenverschiebungen die Analyse. Diese können mittels "Codon Usage" und Homologiesuchen zumindest eingeengt werden.
Annotationsfehler: Trotz verbesserter Verfahren zur Fehlererkennung auf Seiten der Datenbanken werden oftmals Annotationen aus Genomprojekten übernommen, die über Ähnlichkeitssuchen erstellt wurden. Da es sich in den überwiegenden Fällen um Paralogien handelt (andere Mitglieder einer Multigenfamilie) ist das Resultat oftmals eine Überinterpretation. Etwa ist der beste Datenbankhit eine Alkeholdehydrogenase; übertragen werden darf aber nur Dehydrogenase, da die Substratspezifität verschieden ist. Hier müssen Methoden zur Quantifizierung funktioneller Information entwickelt werden.
1.2.1.2 Identifikation von Genen: Da hier international keine befriedigenden Lösungen vorliegen, muß es das Ziel sein, Methoden zu entwicklen, die für mehrere Spezies gültig sind. Mittels verfügbarer Datenbanken (regulatorische Elemente, Repeats, Codon Usage etc.) sollten komplementäre Signale genutzt werden und eine Abschätzung der Qualität bei Vorhersage erreicht werden. Hier sind Verbindungen zur Erkennung regulatorischer Regionen und auch zu Ähnlichkeitssuchen in Datenbanken sowie Fehlererkennung absehbar.
1.2.1.3 Auffindung und Charakterisierung regulatorischer Elemente: Hier gilt es vorhandene Datenbanken auszubauen, die Sensitivität existierender Methoden zu verbessern und Methoden zu entwicklen, die die Erkennung neuer Elemente erlauben. Ein Schwerpunkt dabei ist die Ähnlichkeitssuche, Mustererkennung sowie die Erkennung von repetitiven Regionen. Ferner sind Methoden zu entwickeln, die die bisher bekannten Zusammenhänge innerhalb der Transkriptionsmaschinerie effektiv nutzen und dabei auch Kenntnisse über dreidimensionale molekulare Strukturen einbeziehen.
1.2.1.4 Vergleichende Genomanalyse: Um genetische und evolutionäre Mechanismen zu verstehen, müssen nicht nur die Gene sondern ganze Genome eingehend studiert werden. Neben Aufschlüssen über Stoffwechselfragen können auch regulatorische Regionen erkannt werden (z.B. konservierte nicht-kodierende Bereiche). Die Analyse von Mutations-"hot spots", Operons, "Gene shuffling", Inversionsereignissen etc. erlaubt ein tieferes Verständnis von Genomevolution und damit auch Vorhersagen über funktionelle Einheiten und Genomstabilität. Der Vergleich mit Modellorganismen erlaubt auch ein besseres Verständnis für die Gene selbst; verbesserte Strukturvorhersagen, die Ermittlung von wichtigen konservierten Regionen und auch das Vorhandensein in bestimmten Organismenreichen sind wertvolle Informationen. Hier ist eine systematische Analyse erforderlich.
1.2.1.5 Expressionsanalysen: Die Analyse der Unterschiede in den Expressionsniveaus zwischen gesunden und gleichartigen kranken Geweben ist ein Ausgangspunkt für die Suche nach neuen Therapien von Krankheiten. Das Gebiet ist neu, da die Daten jetzt erst verfügbar werden.
1.2.1.6 Funktionsvorhersage und Funktionsspektrum im Proteom: Existierende Softwaresysteme ermöglichen eine grobe Klassifizierung großer Bestandteile eines Proteoms nach der Struktur und Funktion. Die Sensitivität der Methoden muß weiter verfeinert werden, um die Schlußfolgerungen bezüglich der metabolischen Zusammenhänge im untersuchten Organismus zuverlässiger zu machen.
1.2.1.7 Suche nach krankheitsrelevanten Gegen und Proteinen: Das Screening ganzer Genome im Hinblick auf krankheitsrelevante Information revolutioniert die Pharmaindustrie. Die Suche nach Zielproteinen für den Wirkstoffentwurf ist hier die zentrale Fragestellung. Zu dieser Suche bedarf es empfindlicher Klassifikationsmethoden für Proteine nach deren Struktur bzw. Funktion (1.2.1.6) sowie einer Analyse von Expressionsdaten (1.2.1.5) und die effektiven Modellierung metabolischer Zusammenhänge (1.2.1.9). Das Problem, die Suche nach Zielstrukturen effizient durch Computer zu unterstützen, ist eine große Herausforderung, die sich nur als Summe vieler Einzelleistungen erreichen lassen wird.
1.2.1.8 Strukturbasierter Wirkstoffentwurf: Bis auf weiteres steht zu erwarten, daß Wirkstoffe niedermolekulare organische Verbindungen sein werden. Bei der Entwicklung solcher Verbindungen steht zum einen das Protein-Ligand Docking Problem im Vordergrund (siehe 1.2.2.4). Will man den Wirkstoff nicht aus einer Datenbank entnehmen, sondern ihn zielgerichtet neu entwerfen (De novo Design), dann spielen vor allem die neuen Entwicklungen im Bereich der kombinatorischen Chemie eine Rolle. Hier gilt es, Docking Methoden im Hinblick auf eine Wirkstoffentwicklung auf der Basis solcher kombinatorischen Bibliotheken zu erweitern. Auf diese Weise läßt sich die Problematik der Toxizität und Bioverfügbarkeit ein wenig abmildern. Diese Aspekte des Wirkstoffentwurfs sind bisher noch ungenügend durch Computermodelle abgedeckt.
1.2.1.9 Metabolismus und Regulation: Hier werden zum einen die entsprechenden Datenbanken benötigt. Zum anderen braucht man Modelle, die die metabolischen Zusammenhänge wiedergeben und die eine kontinuierliche Modellierung der Reaktionsdynamik und eine diskrete Modellierung des Netzwerkaspektes umfassen. Die Erstellung eines Computermodells eines Organismus ist eine sehr große Herausforderung, die den Zeitrahmen eines DFG Schwerpunktes sprengt. Man wird nur erwarten können, daß hierzu in den nächsten Jahren einzelne begrenzte Beiträge geleistet werden. Eine effiziente Suche nach und Extraktion von Informationen aus molekularbiologischen Datenbanken ist ein leichter zu bewältigender Themenkomplex.
1.2.2 Methodische Forschung in der Bioinformatik
1.2.2.1 Sequenzalignment: Obwohl hochentwickelt wird das Gebiet des Sequenzalignment bei der Bewältigung genomischer Datenbestände vor große Herausforderungen gestellt. Zu den Engpässen gehören:
1.2.2.2 Vergleich und Überlagerung molekularer Strukturen: Das Problem der Überlagerung zweier starrer Proteinstrukturen erscheint aus biologischer Sicht weitgehend gelöst. Die eingesetzten Methoden haben jedoch meist heuristischen Charakter. Offene Probleme in diesem Bereich sind:
Ähnliche Ziele gelten für RNA Strukturen.
1.2.2.3 Molekulare Strukturvorhersage bei Proteinen und RNA: In diesem Bereich sind in den letzten Jahren beträchtliche Fortschritte erzielt worden. Allerdings ist die Strukturvorhersage auch ein zentrales Element der Interpretation genomischer Daten. Die Brennpunkte der Forschung liegen in diesem Gebiet in den folgenden Bereichen:
Proteine
RNA
Zentrale Fragestellungen sind hier:
1.2.2.4 Molekulares Docking: Die Qualität einer Dockingmethode wird bestimmt durch die Genauigkeit der Vorhersagen und durch die Laufzeit der Methode. Molekulare Flexibilität und die richtige Bewertung der freien Energie eines Komplexes stehen dabei bis auf weiteres im Vordergrund. Folgende Probleme sind im einzelnen zu nennen.
Protein-Ligand Docking
Allosterische Effekte beim Docking entziehen sich bisher der Modellierbarkeit.
Protein-Protein Docking
1.2.2.5 Molekularbiologische Datenbanken: Im Vordergrund stehen hier die Integration heterogener molekularbiologischer Datenbanken, effiziente und biologisch relevante Zugriffsmethoden auf genomische Information, sowie die Erhöhung der Wartbarkeit der Datenbanken.
1.2.2.6 Algorithmik/Softwaretechnik: Die Entwicklung von algorithmischen Bibliotheken und anderen benutzerfreundlichen Softwarebausteinen für die Behandlung genomischer Daten ist hier ein wichtiges Forschungsziel.
1.2.2.7 Visualisierung: Graphik spielt eine wesentliche Rolle bei der Analyse genomischer Datenbestände. Effiziente Werkzeuge für die übersichtliche Darstellung komplexer und unstrukturierter Datenbestände sind hier vonnöten.
2.1 Andere Schwerpunktprogramme
2.1.1 Ausgelaufenes Schwerpunktprogramm
Das Schwerpunktprogramm
Konstruktion von Proteinen mit neuen Eigenschaften (Protein Design) (Förderung: von 1989 bis 1995)
hatte einen Bezug zu den strukturbiologischen Inhalten des hier beantragten Schwerpunktes. Allerdings standen theoretische, das heißt rechnerbasierte Methoden nicht im Vordergrund dieses Schwerpunktes
2.1.2 Laufende Schwerpunktprogramme
Es gibt eine ganze Reihe von Schwerpunktprogrammen und Sonderforschungsbereichen, die zumindest zum Teil biomolekulare Themen bearbeiten. Die folgende Liste greift einige Themen heraus, die inhaltlich mit dem Bereich Bioinformatik überlappen:
285 Molekulare Grundlagen der Evolution bei Pflanzen (Förderung seit 1991)
290 Genetische Faktoren bei psychiatrischen Erkrankungen (Förderung seit: 1991)
295 Molekulare Grundlagen der Funktion und enzymatischen Aktivität von Ribonukleinsäuren (RNA Biochemie) (Förderung seit: 1993)
300 Molekulare Analyse von Regulationsnetzwerken in Bakterien (Förderung seit: 1994)
312 GTPasen als zentrale Regulatoren zellulärer Funktionen (Förderung seit: 1995)
1003 Struktur und Funktion ATP-sensitiver und einwärts-gleichrichtender Kaliumkanäle (Förderung seit: 1996)
Bei der Fülle der Themen ist es nicht verwunderlich, daß eine genaue Analyse dieser Zusammenhänge im Rahmen der Antragstellung nicht möglich war. Der hier beantragte Schwerpunkt bietet sich jedoch den oben genannten Schwerpunkten zum Dialog über deren Fragestellungen und zur möglichen Unterstützung mit rechnergestützten Analysen an.
Zum Schwerpunkt
731 Effiziente Algorithmen für diskrete Probleme und ihre Anwendungen (Förderung seit: 1994)
besteht insofern eine Beziehung, als der Schwerpunkt 731 die Molekularbiologie als ein Anwendungsgebiet (neben vielen anderen) für die dort betriebene Algorithmenentwicklung aufweist. Im Schwerpunkt 731 werden zum Beispiel in einem Projekt Algorithmen zum multiplen Alignment von biologischen Sequenzen und zur Berechnung phylogenetischer Bäume entwickelt. In einem weiteren Projekt des Schwerpunktes 731 geht es um Proteinstrukturvorhersagen. Im Gegensatz zu dem hier beantragten Schwerpunkt, der sich auf die biologische Anwendung konzentriert, stehen im Schwerpunkt 731 die methodischen Querbezüge zwischen unterschiedlichen algorithmischen Anwendungsbereichen im Vordergrund. Die Bezüge zwischen dem Schwerpunkt 731 und dem hier beantragten Schwerpunkt könnten in natürlicher Weise durch an beiden Schwerpunkten beteiligte Personen umgesetzt werden.
2.1.3 Andere Förderinstrumente der DFG
Mit Sonderforschungsbereichen und Graduiertenkollegs verhält es sich ähnlich wie mit den Schwerpunktprogrammen. Eine ganze Reihe solcher Verbünde mit biologischen Thematiken haben natürliche Beziehungen zu dem Thema des beantragten Schwerpunktes. Ein anderer durch die DFG geförderter Verbund, der die Rechnermodellierung in den Mittelpunkt rückt, ist uns jedoch nicht bekannt.
2.2. BMBF
Der BMBF hat einen wesentlichen Anteil daran, daß sich in Deutschland eine interdisziplinäre Forschergemeinde bilden konnte, die sich auf die bioinformatischen Probleme konzentriert. Das Strategieprogramm Molekulare Bioinformatik förderte zwischen April 1993 und Februar 1997 acht Verbundprojekte, die sich mit Fragen der Analyse molekularer Sequenzen, Strukturen und Wechselwirkungen beschäftigten. Viele der in diesem Antrag zitierten Arbeiten stammen aus diesen Projekten. Ferner gibt es im Rahmen des vom BMBF geförderten Humangenomprojektes begrenzte Aktivitäten zur rechnergestützten Analyse genomischer Daten. Hier ist der Bedarf an grundlegender Informatikunterstützung allerdings bei weitem nicht gedeckt.
Ein Anschlußprogramm an die Initiative Molekulare Bioinformatik plant der BMBF unseres Wissens nicht. Dem BMBF liegen jedoch zur Zeit einzelne Förderanträge für Projekte vor, die zum Ziel haben, Arbeiten aus dem Strategieprogramm Molekulare Bioinformatik fortzusetzen. Das Ministerium hat bereits zu erkennen gegeben, daß eine Förderung dieser Aktivitäten überhaupt nur in Frage kommt, wenn sich die Industrie zu einem ganz wesentlichen Anteil in den Projekten engagiert. Die Bioinformatik besteht aber zu erheblichen Teilen aus langfristiger Forschung, die die deutsche Industrie dem öffentlichen Sektor zuordnet. Daher muß eine Förderung der Bioinformatik durch Geldgeber für die Grundlagenforschung eines wesentliches Komplement zu den Plänen des BMBF sein.
Für die Projekte, die der BMBF am Ende fördert, wäre ein direkter Bezug zu dem beantragten Schwerpunkt vorhanden. Die Arbeitsteilung wäre offensichtlich. Aus der Fülle der Grundlagenprobleme, die für eine direkte Industriebeteiligung zu langfristig angelegt sind bzw. einen zu großen Abstand zu den direkt industrierelevanten Themen aufweisen, könnte im beantragten Schwerpunkt eine dringend benötigte Fördermöglichkeit bestehen. Ein organisierter regelmäßiger Meinungsaustausch wäre in diesem Fall definitiv beabsichtigt. Falls der BMBF keine Förderung vornimmt, müßte der Schwerpunkt ohne solche Kooperationen auskommen. Seine Wichtigkeit wäre aber auch in diesem Fall ganz unbestreitbar.
2.3 HGF und MPG
Die Bioinformatik ist ein Beispiel dafür, daß die Kooperation zwischen universitären und außeruniversitären Arbeitsgruppen in Deutschland funktionieren kann, und wie notwendig sie ist. Das spiegelt sich auch in der Tatsache wider, daß die Mitglieder der Koordinationsgruppe und die Urheber der Projektvorschläge für diesen Antrag aus allen Bereichen der öffentlich finanzierten Forschung kommen.
Die Bereitstellung von bioinformatischer Infrastruktur (Datenbanken, Werkzeuge und Services) wird schwerpunktmäßig von außeruniversitären Forschungseinrichtungen übernommen (siehe aber z.B. die Ausnahme BRENDA an der Univ. Köln). Sowohl im außeruniversitären Umfeld als auch in den Universitäten wird bioinformatische Forschung betrieben. In Verbünden zwischen beiden Seiten ist diese offensichtlich besonders erfolgreich. Das beantragte Schwerpunktprogramm soll hier einen besonderen Akzent setzen.
Im Rahmen der HGF-weiten Umverteilung von Forschungsmitteln wird zur Zeit ein Virtuelles Bioinformatikzentrum (VBZ) konzipiert, in dem die HGF-Gruppen ihre Forschung zusammenführen und mit infrastrukturellen Angeboten an die deutsche Wissenschaftsgemeinde anreichern wollen. Das Ziel ist, ein deutsches verteiltes Analog zum NCBI in den USA zu bilden, das jedoch den besonderen deutschen Bedürfnissen Rechnung trägt. Mit diesem Antrag befinden sich die Bioinformatiker der HGF in HGF-weiter Konkurrenz anderer Forschungsverbünde und -thematiken. Bei Annahme des Antrags für das VBZ würde die Finanzierung dieses Zentrums aus Mitteln des Strategiefonds der HGF erfolgen. Die Konzeption der Verwendung der Mittel dieses Strategiefonds befindet sich erst in den Anfängen.
Der hier beantragte Schwerpunkt würde die gegenwärtigen Aktivitäten und Konzepte der HGF und MPG ideal ergänzen. Sein Akzent wäre auf Problem- und Methodenvielfalt gerichtet und er wäre ein wesentliches Element einer intensiven Kooperation zwischen universitärer und außeruniversitärer Bioinformatikforschung in Deutschland.
2.4 EU
Die Europäische Union fördert bereits seit einer ganzen Reihe von Jahren Projekte in der Bioinformatik in ansehnlichem Umfang und wird dies auch weiter tun. Dabei handelt es sich vorwiegend um Infrastrukturmaflnahmen (z.B. EBI, MIPS) oder transnationale Netzwerke die zu ihrer Durchführung eine integrale Bioinformatikkomponente brauchen (Sequenzierungs- und Funktionsanalyseprojekte, BIOMED Programm). Beispiele für durch die EU geförderte Projekte sind im Bereich der Biotechnologie geförderte Forschungaktivitäten im Datenbankbereich (Projekte IGD, EDR). Desweiteren gibt es einen Förderschwerpunkt "Strukturbiologie", der sich zwar auf experimentelle Techniken konzentriert, aber auch begrenzte Bioinformatikanteile enthält. Im Rahmen des ESPRIT Programms werden Aktivitäten zur Parallelisierung von Bioinformatiksoftware gefördert (EUROPORT, PHASE).
Eine Förderung des Schwerpunktes Bioinformatik durch die DFG ermöglicht ein Gegengewicht zu dieser Förderung auf der Seite wissenschaftlicher Projekte und mit einer stärkeren Beteiligung von Informatikern. Ferner kann der DFG Schwerpunkt auch kleinere Arbeitsgruppen unterstützen und schafft dadurch eine Zugangsmöglichkeit zu den im Lande verteilten wissenschaftlichen Ressourcen im Bereich der Bioinformatik. Im Gegensatz dazu ist die EU Förderung - wie auch die BMBF Förderung - vornehmlich auf internationale Konsortien ausgerichtet.
Es ist selbstverständlich, daß die deutsche Forschergemeinde in der Bioinformatik intensive und lebhafte internationale Kontakte pflegt. Viele der in Abschnitt 5 genannten Wissenschaftler haben Kooperationen mit dem europäischen und außereuropäischen Ausland. Eine vollständige Liste würde hier zu weit führen. Einige der Projektvorschläge geben internationale Kooperationspartner an.
In der Bioinformatik ergeben sich jedoch internationale Verflechtungen einer ganz neuen Art, und das ist einer der zentralen Aspekte des Gebietes. Dieses rechnerbasierte Forschungsgebiet war eine der ersten wissenschaftlichen Disziplinen, die das Internet als ein Medium nicht nur für wissenschaftlichen Diskurs sondern als das wesentliche infrastrukturelle Rückgrat ihrer Forschung genutzt hat. Viele der Softwarewerkzeuge werden weltweit auf dem Internet angeboten und mit Werkzeugen anderen Forscher im In- und Ausland vernetzt. So ergeben sich auch automatisch Kooperationen zwischen den Forschern, ja, es etablieren sich ganze Forschergemeinden. Ein gutes Beispiel ist die Präsentation des kompletten Hefegenoms auf dem Internet durch MIPS in München. Hier kondensiert sich die Arbeit vieler Molekularbiologen einerseits, die das Genom in neuen Jahren sequenziert haben. Andererseits ist dieser Datenbestand der Ausgangspunkt für eine Fülle von Forschungsarbeiten zur Interpretation der genomischen Information.
Im folgenden werden kurz einige weitere Marksteine internationaler Verflechtungen von deutschen Bioinformatikern genannt.
Diese Liste ist bei weitem nicht vollständig. Sie soll aber darstellen, daß internationale Zusammenarbeit in besonderem Maße zum Wesen der Bioinformatik gehört.
Dem wird auch im Schwerpunkt Rechnung getragen werden. Die infrastrukturellen und personellen Möglichkeiten dafür sind, wie oben geschildert, in hervorragender Weise gegeben.
| Dr. Peer Bork Max-Delbrück-Centrum für molekulare Medizin Medizinische Genetik Robert-Rössle-Straße 10 13122 Berlin-Buch< |
EMBL Heidelberg Meyerhofstraße 1 69120 Heidelberg |
| Prof. Dr. Robert Giegerich Technische Fakultät Universität Bielefeld Universitätsstraße 33615 Bielefeld |
|
| Prof. Dr. Thomas Lengauer, Ph.D. (Koordinator) GMD-SCAI Schloß Birlinghoven 53754 Sankt Augustin |
Institut für Informatik, Universität Bonn Römerstraße 164 53115 Bonn |
| Dr. Hans-Werner Mewes Max-Planck Institut für Biochemie Am Klopferspitz 82152 Martinsried |
|
| Dr. Christian Sander EMBL Meyerhofstraße 1 69012 Heidelberg |
European Bioinformatics Institute Hinxton Hall Cambridge, CB10 1SD, U.K. |
| Prof. Dr. Dietmar Schomburg Universität zu Köln Institut für Biochemie Zülpicher Straße 47 50674 Köln |
|
| Dr. Martin Vingron Deutsches Krebsforschungszentrum Abteilung 0815 Im Neuenheimer Feld 280 69120 Heidelberg |
(Arbeiten, die im Umfeld des Schwerpunktes entstanden sind, sind mit einem * gekennzeichnet.)
1 D.E. Bassett Jr., M.S. Boguski, P. Hieter, Yeast genes and human disease, Nature 379 (1996) 589-590
2 * A. Goffeau et al, Life with 6000 genes, Science 274 (1995) 546-567
3 http://www.mcs.anl.gov/home/gaasterl/genomes.html
4 http://www.sanger.ac.uk/bio/mod.orgs.html
5 * http://mips.biochem.mpg.de/yeast/
6 * P. Bork, C. Ouzounis, C. Sander, M. Scharf, R. Schneider, E. Sonnhammer, What's in a genome?, Nature 358, 23 July 1992
7 R.D. Fleischmann et. al., Whole-genome random sequencing and assembly of Haemophilus influenzae Rd, Science 269 (1995) 496-512
9 * http://www.embl-heidelberg.de/~genequiz/
10 * G. Casari, C. Ouzounis , A. Valencia, C. Sander, GeneQuiz II: automatic function assignment for genome sequence analysis. In Proceedings of the First Annual Pacific Symposium on Biocomputing, World Scientific (1996) 707-709
11 http://wild.tigr.org/tdb/tdb.html
12 * K. Quandt, K. Grote, T. Werner, GenomeInspector: Basic software tools for analysis of spatial correlations between genomic structures within megabase sequences, Genomics 33 (1996) 301-304
13 M. Burset, R. Guigo, , Evaluation of gene structure prediction programs, Genomics 34 (1996) 353-367
14 Y. Xu, E.C. Uberbacher, Gene prediction by pattern recognition and homology search, Proceedings of the Foruth International Sigent Systems for Molekcular Biology (ISMB'96) (1996) 241-251
15 * R. Lavery, K. Zakrzewska, H. Sklenar, Jumna, Junction minimisation of nucleic acids, Comp Phys Comm 91 (1995) 135-158
16 * H. Karas, R. Knüppel, W. Schulz, H. Sklenar, E. Wingender, Combining structural analysis of DNA with search routines for detection of transcription regulatory elements. Comput Appl Biosci 12 (1996) 441-446
17 * E. Wingender, A.E. Kel, O.V. Kel, H. Karas, T. Heinemeyer, P. Dietze, R. Knüppel, A.G. Romaschenko, N.A. Kolchanov, TRANSFAC, TRRD and COMPEL: Towards a federated database system on transcriptional regulation, Nuc Acids Res 25 (1997) 265-268.
18 * K. Frech, R. Brack-Werner, T. Werner, Common modular structure of lentivirus LTRs, Virology 224 (1996) 256-267
19 A.R. Mushegian, E.V. Koonin, A minimal gene set for cellular life derived by comparison of complete bacterial genomes, Proc Nat Acad Sci USA 93 (1996):10268-10273
20 * K. Heumann, C. Harris, H.W. Mewes, A top-down approach to whole genome visualization, Proceedings of the Fourth International Conference on Intelligent Systems for Molecular Biology (ISMB'96) (1996)98-108
21 * K. Heumann, Dissertation, Institut für Informatik, TU München 1997
22 * R.L. Tatsuov, A.R. Mushegian, P. Bork, N.P. Brown, W.S. Hayes, M. Borodovski, K.E. Rudd, E.V. Koonin, Metabolism and evolution of H.influenzae deduced from a whole genome comparison to E.coli, Curr Biol 6 (1996) 279-291
23 * E.V. Koonin, A. Mushegian, P. Bork, Non-orthologous gene displacement, Trends Genet 12 (1996) 334-336
24 G.D. Schuler et al., A gene map of the human genome, Science 274 (1996) 540-546
25* M. Rarey, B. Kramer, T. Lengauer, G. Klebe, A fast flexible docking method using an incremental construction algorithm, J Mol Biol 261 (1996) 470-489.
26 G. Jones, P. Willet, R.C. Glen, Molecular recognition of receptor sites using a genetic algorithm with a description of desolvation, J Mol Biol 245 (1995) 43-53.
27 H.J. Böhm, The development of a simple empirical scoriion to estimate the bindung constant for a protein-ligand complex of known three-dimensional structure, J Comput Aided Mol Des 8 (1994) 243 - 256.
28* G. Klebe, T. Mietzner, A fast and efficient method to generate biologically relevant conformations, J Comput Aided Mol Des 8 (1994) 583-606.
29 A.R. Leach, I.D. Kuntz, Conformational analysis of flexible ligands in macromolecular receptor sites, J Comput Chem 13 (1992) 730-748.
30 B. Sandak, R. Nussinov, H.J. Wolfson, An automated computerd robotics-based technique for 3-D flexible biomolecular docking and matching, Comput Appl Biosci 11 (1995) 87-99.
31 G. Jones, P. Willet, R.C. Glen. J Comput Aided Mol Des 9 (1995) 532-549.
32 * T. Lengauer, The Flex Approach - An alternative for receptor-ligand docking and computing crystal conformations. Proceedings of the 11th European Symposium on Quantitative Structure-Activity Relationships: Computer-Assisted Lead Finding and Optimization, Verlag Helvetica Acta, Basel, Schweiz (1996).
33 * C. Lemmen, T. Lengauer, Time-efficient flexible superposition of medium-sized molecules, submitted for publication (1997).
34 * K. Hemm, K. Aberer, M. Hendlich, Constituting a receptor-ligand database from quality-enriched data, Proceedings of the International Conference on Intelligent Systems in Molecular Biology 95 (ISMB 95), Cambridge, UK (1995) 170-178
35 R.A. Lewis, A. Leach, Current methods for site-directed structure generation, J Comput Aided Mol Des 8 (1994) 467-475
36 P.M. Colman, Structure-based drug design, Curr Opin Struc Biol 4(1994) 868-874
37 J. K. Scott, G. P. Smith, Searchung for Peptide Ligands with an Epitope Library, Science 249 (1990) 380-390
38 L. Weber, S. Wallbaum, C. Broger, K. Gubernator, Optimization of the biological activity of combinatorial compound libraries by a genetic algorithm, Angewandte Chemie, International Edition in English, 34,20 (1995)
39 M. Totrov, R. Abagyan, Detailed ab initio prediction of lysozyme-antibody complex with 1.6 Å accuracy, Struc Biol 1 (1994) 259-263
40 P. Karp, M. Riley, S. Paley, S., A. Pellegrini-Toole, EcoCyc: Electronic encyclopedia of E. coli genes and metabolism, Nuc Acids Res 25 (1997)
41 P. Karp, C. Ouzonis, S. Paley, Hincyc: A knowledge base of the complete genome and metabolic pathways of H. influenzae, , Proceedings of the Fourth International Symposium on Intelligent Systems for Molecular Biology (ISMB'96), AAAI Press (1996) 116-124
42 S. Goto, H. Bono, H. Ogata, W. Fujibuchi, T. Nishioka, K. Sato and M. Kanehisa Organizing and computing metabolic pathway data in terms of binary relations, Electronic Proceedings of the Pacific Symposium on Biocomputing (PSB'97) http://www-smi.stanford.edu/people/altman/psb97/index.html (1997)
43 D.L. Brutlag, A.R. Galper, D.H. Millis, Knowledge-based simulation of DNA metabolism: prediction of enzyme action, Comp Appl Biosci 7 (1991) 9-19
44 M.L. Mavrovouniotis, Describing Multiple Levels of Abstraction in Metabolism, Proceedings of the Second International Symposium on Intelligent Systems for Molecular Biology (ISMB'94), AAAI Press (1994) 294-302
45* W. Wiechert, Algebraic methods for the analysis of redundancy and identifiability in metabolic 13C-labelling systems, In Bioinformatics: From Nucleic Acids and Proteins to Cell Metabolism (D. Schomburg, U. Lessel, eds.) VCH Weinheim (1995) 169-184
46 * R. Hofestädt, F. Meineke, Interactive Modelling and Simulation of Biochemical Networks, Computers in Biology and Medicine 25 (1995) 321-334
47 * R. Hofestädt, J. Collado-Vides, M. Löffler, M. Mavrovouniotis, Modelling and Simulation of Metabolic Pathways, Gene Regulation and Cell Differentiation, BioEssays 18 (1996) 333-335
48 * H. Meinhardt, Pattern-formation in biology - a comparison of models and experiments. Rep Prog Phys 55 (1992) 797-849
49 * H. Meinhardt, Biological pattern-formation - new observations provide support for theoretical predictions, Bioessays 16 (1994) 627-632
50 * W.C. Barker, F. Pfeiffer, D.G. George, Superfamily classification in PIR-International Protein Sequence Database, Methods in Enzymology 266 (1996) 59-71
51 S.B. Needleman und C.D. Wunsch, A general method applicable to the search for similarities in the amino acid sequences of two proteins, J Mol Biol 48 (1970) 443-453
52 M.S. Waterman, Efficient sequence alignment algorithms, J Theor Biol 108 (1984) 333-337
53 R.F. Doolittle, M.W. Hunkapillar, L.E. Hood, S.G. Devare, K.C. Robbins, S.A. Aaronson, and H.N. Antoniades, Simian sarcoma virus onc gene, v-sis, is derived from the gene (or genes) encoding a platelet-derived growth factor, Science 221 (1983) 275-277.
54 J.R. Riordan, J.M. Rommens, B. Kerem, N. Alon, R. Rozmahel, Z. Grzelcak, J. Zielinski, S. Lok, N. Plavsic, J.L. Chou, M.L. Drumm, M.C. Iannuzzi, F.S. Collins and L.C. Tsui, Identification of the cystic fibrosis gene: Cloning and characterisation of complementary DNA, Science 245 (1989) 1066-1073
55 E.V. Koonin, S.F. Altschul,P. Bork, Functional motifs, Nature Genetics 13 (1996) 266-267
56 O. Gotoh, Optimal sequence alignment allowing for long gaps., Bull Math Biol 52 (1990) 359-373
57 X. Guan, and E. Uberbacher, Alignments of DNA and proteins sequences containing frameshift errors, Comp Appl Biosci 12 (1996) 31-40
58 E. Birney, J.D. Thompson, T.J. Gibson, PairWise and SearchWise: finding the optimal alignment in a simultaneous comparison of a protein profile against all DNA translation frames, Nuc Acids Res 24 (1996) 2730-2739
59 * U. Tönges, S.W. Perrey, J.Stoye, A.W. Dress, A general method for fast multiple sequence alignment, Gene 172 (1996) GC 33-GC 41
60 * M. Vingron, A. von Haeseler, Towards Integration of Multiple Alignment and Phylogenetic Tree Construction, J Comp Biol 4 (1997) 23-34
61 * B. Schwikowski, M. Vingron, Attacking generalized tree alignment by a deferred path heuristic, Proceedings of First Annual International Conference on Computational Molecular Biology (RECOMB'97) (1997) 257-266.
62 * B. Morgenstern, A.W.M. Dress, T. Werner, Multiple DNA and protein sequence alignment based on segment-to-segment comparison, Proc Nat Acad Sci USA 93 (1996) 12098-21103
63 * J.-W. Wägele. First principles of phylogenetic systematics, a basis for numerical methods used for morphological and molecular characters, Vie Milieu 46 (1996) 125-138
64 D. Naor, D.L. Brutlag, On near-optimal alignments of biological sequences, J Comp Biol 4 (1994) 349-366
65 * H.-T. Mevissen, M. Vingron, Quantifying the local reliability of a sequence alignment, Prot Eng 9 (1996) 127-132
66 * M. Vingron, M. Waterman, Parametric sequences alignments and penalty choice, J Mol Biol 235 (1994) 1-12
67 * R. Zimmer, T. Lengauer, Fast and numerically stable parametric alignmentof biosequences. Proceedings of the First Annual Conference on Research in Computational Molecular Biology (RECOMB'97) (1997) 344-353
68 * M.S. Waterman, M. Vingron, Rapid and accurate estimates of statistical significance for sequence data base searches, Proc Nat Acad Sci USA 91 (1994) 4625-4628
69 W. Kabsch, A solution for the best rotation to relate two sets of vectors, Acta Cryst A 32 (1976) 922-923
70 W. Kabsch, A discussion of the solution for the best rotation to relate two sets of vectors, Acta Cryst A 34 (1978) 827-828
71 R. Diamond, A note on the rotational superposition problem, Acta Cryst A 44 (1988) 211-216
72 C. A. Orengo, N. P. Brown, W. R. Taylor, Fast structure alignment for database searching, Proteins 14 (1992) 139-167
73 N. N. Alexandrov, D. Fischer, Analysis of topological and nontopological structural similarities in the PDB: new examples with old structures, Proteins 25 (1996) 354--365
74 * I. Koch, T. Lengauer, E. Wanke, An Algorithm for finding maximal common subtopologies in a set of protein structures, J Comp Biol 3 (1996) 289-306
75 R. Nussinov, H. Wolfson, Efficient detection of three-dimensional structural motifs in biological macromolecules by computer vision techniques, Proc Nat Acad Sci USA 88 (1991) 10495-10499
76 * L. Holm, C. Sander, Protein structure comparison by alignment of Distance matrices, J Mol Biol 233 (1993) 123-138
77 * U. Lessel; D. Schomburg, Comparison, assessment and classification of protein 3D structures, Theochem 336 (1995) 261-267
78 * U. Lessel; D. Schomburg, Similarities between Protein Structures, Prot Eng 7 (1994) 1175-1187
79 C.A. Orengo, T.P. Flores, W.R. Taylor, J.M. Thornton, Identification and classification of protein fold families, Prot Eng 6 (1993) 485-500
80 N.N. Alexandrov, SARFing the PDB, Prot Eng 9 (1996) 727-732
81 D. Fischer, C-J. Tsai, R. Nussinov, H. Wolfson, A 3D sequence-independent representation of the protein data bank, Prot Eng 8 (1995) 981-997
82 * L. Holm, C. Sander, Mapping the protein universe, Science 273 (1996) 595-602
83 http://www.mrc-cpe.cam.ac.uk/casp2/
84 * B. Rost, C. Sander, Prediction of protein secondary structure at better than 70% accuracy, J Mol Biol 232 (1993) 584--599
85 * D. Frishman, P. Argos, 75% accuracy in protein secondary structure prediction. Proteins 27 (1997) 329-335
86 J.U. Bowie, R. Lüthy, D. Eisenberg, A method to identify protein sequences that fold into a known three-dimensional structure, Science 253 (1991) 164-170
87 C. Ouzonis, C. Sander, M. Scharf, R. Schneider, Prediction of protein structure by evaluation of sequence-structure fitness, J Mol Biol 232 (1992) 805-825
88 N.N. Alexandrov, R.N. Nussinov, R.M. Zimmer, Fast protein fold recognition via sequence to structure alignment and contact capacity potentials, In Proceedings of the Pacific Symposium on Biocomputing'96, Hrsg. Lawrence Hunter and Teri E. Klein, World Scientific Publishing, Singapore (1996) 53-72
89 A. Krogh, M. Brown, I.S. Mian, K. Sjölander, D. Haussler, Hidden Markov Models in computational biology, J Mol Biol 235 (1994) 1501-1531
90 R.H. Lathrop, The protein threading problem with sequence amino acid interaction preferences is NP-complete, Prot Eng 7 (1994) 1059-1068
91 R.H. Lathrop, T.F. Smith, Global optimum protein threading with gapped alignment and empirical pair score functions, J Mol Biol 255 (1996) 641-655
92 M. Sippl, Calculation of conformational ensembles from potentials of mean force: An approach to knowledge-based prediction of local structures in globular proteins, J Mol Biol 213 (1990) 859-883
93 * R. Thiele, R. Zimmer, T. Lengauer, Recursive dynamic programming for adaptive sequence and structure alignment, Proceedings of the Third International Conference on Intelligent Systems for Molecular Biology (ISMB'95), C. Rawlings et al., Hrsg., AAAI Press (1995) 384-392
94 D.T. Jones, J.M. Thornton, Potential energy functions for threading, Curr Opin Struc Biol 6 (1996) 210-216
95 * T. Dandekar,M. Leippe, Molecular Modeling of amoebapore and NK-lysin: a four-alpha-helix bundle motif of cytolytic peptides from distantly related organisms, Folding and Design 2 (1997) 47-52.
96 * P. Saxena, I. Whang, Y. Voziyanov, C. Harkey, P. Argos, M. Jayaram, T. Dandekar, Probing Flp: a new approach to analyze the structure of a DNA recognizing protein by combining the genetic algorithm, mutagenesis and non-canonical DNA target sites, Biochim Biophys Acta (1997) in press
97 M. Zuker, D. Sankoff, RNA Secondary structures and their prediction, Bull Math Biol 46 (1984) 591-621.
98 M. Zuker, On Finding All suboptimal foldings of an RNA molecule, Science 244 (1989) 48-52.
99 F. Lefebvre, An optimized algorithm well suited to RNA folding, Proc. of the Third International Symposium on Intelligent Systems for Molecular Biology (ISMB'95) (1995) 222-230
100 Y.Y. Sakakibara, M. Brown, R. Hughey, S. Mian, K. Sjölander, R.Underwood, D. Haussler, Stochastic Context-free Grammars for tRNA Modeling, Nucl Acids Res 22,23 (1994) 5112--5120
101 M. Kimura, The neutral theory of evolution, Cambridge University Press, 1983.
102 * W. Grüner, R. Giegerich, D. Strothmann, Algorithmic representation of large RNA folding landscapes, In D. Schomburg, U.Lessel (Eds.), Bioinformatics: From Nucleic acids to Proteins to cell matabolisms,VCH Weinheim (1995) 59-71
103 B. Shapiro, K.Zhang, Comparing multiple RNA structures using tree comparisons. Comp Appl Biosci 6 (1990) 309-318
104 F.S. Kuhl, G.M. Crippen,D.K. Friesen, A combinatorial algorithm for calculating ligand binding, J Comp Chem 5 (1994) 24-34
105 * M. Rarey, S. Wefing, T. Lengauer, Placement of medium-sized molecular fragments into active sites of proteins. J Comp Aided Mol Des 10 (1996) 41-54.
106 R. Abagyan, M. Totrov, D. Kuznetsov, ICM - A new method for protein modeling and design: applications to docking and structure prediction from the distorted native conformation, J Comp Chem 15 (1994) 488-506.
107 P.J. Goodford, A computational procedure for determining energetically favorable binding sites on biological macromolecules, J Med Chem 28(1985) 849-857
108 B.K. Shoichet, I.D. Kuntz, Protein docking and complementarity, J Mol Biol 221 (1991) 327-346.
109 D. Fischer, S.L. Lin, H.L. Wolfson, R. Nussinov, A geometry-based suite of molecular docking processes, J Mol Biol 248 (1995) 459-477
110 E. Katchalski-Katzir et al., Molecular surface recognition: determination of geometric fit between proteins and their ligands by correlation techniques, Proc Nat Acad Sci USA 89 (1992) 2195-2199
111 M.L. Connolly, Shape complementarity at the hemoglobin a1/[beta]1 subunit interface, Biopolymers 25 (1986) 1229-1247
112 L.S. Lin, R. Nussinov, D. Fischer,H. Wolfson, Molecular surface representation by sparse critical points, Proteins 18 (1994) 94-101
113 * T. Seidl , H.-P. Kriegel, Solvent accessible surface representation in a database system for protein docking, Proceedings of the Third International Symposium on Intelligent Systems for Molecular Biology (ISMB'95), Cambridge, England (1995) 350-358.
114 * R.R. Gabdoulline, R.C. Wade, Analytically defined surfaces to analyze molecular interaction properties, J Mol Graph (1997) in press
115 * H.-P. Lenhof, New contact measures for the protein docking problem, Proceedings of the First Annual International Conference on Computational Molecular Biology (RECOMB'97) (1997) 182-191.
116 * M. Meyer, P. Wilson, D. Schomburg, Hydrogen bonding and molecular surface shape complementarity as a basis for protein docking, J Mol Biol 264 (1996) 199-210.
117 Nucl Acids Res 25,1 (1997)
118 * T. Etzold, P. Argos, SRS-an indexing and retrieval tool for flat file data libraries, Comput Appl Biosci 9 (1993) 49-56
119 * O. Ritter, S. Suhai, Gigabytes über Gigabasen - Informationsintegration in der Genomforschung, it+ti 38,5 (1996) 16-19
120 * A.W.M. Dress, D. Huson, V. Moulton, Analyzing and visualizing sequence and distance data using SPLITSTREE, Disc Appl Math 71 (1996) 95 - 109
121 Colour interactive editor for multiple alignments, URL: http://www.biochem.ucl.ac.uk/bsm/dbbrowser/CINEMA/
122 Pretty printing and shading of multiple-alignment files, URL: http://ulrec3.unil.ch/software/BOX_form.html
123 AMAS - Analyse multiply aligned sequences , URL: http://geoff.biop.ox.ac.uk/servers/amas_server.html
124 * D. Evers: Animation von RNA-Sekundärstrukturen: RNA-Movies, Diplomarbeit,Universtität Bielefeld (1996)
125 * D. Schomburg, J. Reichelt, BRAGI: A comprehensive protein modeling program system, Journal of Molecular Graphics 6 (1988) 161-165, 144-145.
126 * G. Vriend, WHAT IF: A molecular modeling and drug design program, J Mol Graph 8 (1990) 52-56
127 * J. Brickmann, H. Vollhardt, Virtual reality on the World Wide Web: A paradigm shift in molecular modeling, Trends in Biotechnology 14 (1996) 167-172
128 B.S. Duncan, A.J. Olson, Approximation and visualization of large-scale motion of protein surfaces, J Mol Graph 13,4 (1995).
129 * K. Reinert, H.-P. Lenhof, P. Mutzel, K. Mehlhorn, J.D. Kececioglu, A branch-and-cut algorithm for multipe sequence alignment, Proceedings of the First Annual International Conference on Computational Molecular Biology (RECOMB'97) (1997) 241-250.
130 H. Edelsbrunner, N.R. Shah, Three-dimensional alpha shapes, ACM Trans Graphics 13 (1994) 43-72
131 * K.P. Peters, J. Fauck, C. Frömmel, The automatic search for ligand binding sites in proteins of known three-dimensional structure using only geometric criteria, J Mol Biol 256 (1996) 201-213
132 C. Bron, J. Kerbosch, Algorithm 457 - finding all cliques of an undirected graph, Commun ACM 16 (1973) 575-577
133 L.R. Rabiner, A tutorial on Hidden Markov Models and selected applications in speech recognition, Proc. IEEE 77 (1989) 257-286
134 Algorithmica 13,1/2, January/February 1995
135 Discrete Applied Mathematics 71,1-3,5, December 1996
136 * J. Hanke, G. Beckmann, P. Bork, J.G. Reich, Self-organizing hierarchic networks for pattern recognition in protein sequence, Prot Sci 5 (1996) 72-82
137 J.C. Schlimmer, P. Langley, Machine learning, in: S.C. Shapiro, ed., Encyclopedia of Artifical Intelligence, Second Edition, Vol. 1, John Wiley & Sons, New York (1993) 785-801
138 M.J.E. Sternberg, R.D. King, R.A. Lewis, S. Muggleton, Application of machine learning to structural molecular biology, Phil Trans R Soc Lond B 344 (1994) 365-371
139 T.-M. Yi, E.S. Lander, Protein secondary structure prediction using nearest-neighbor methods, J Mol Biol 232 (1993) 1117-1129
140 C. Ouzounis, N. Kyrpides, The emergence of major cellular processes in evolution, FEBS Letters 390 (1996) 119-123.
141 ACEDB Conference and Workshop Proceedings (1995), URL: http://probe.nalusda.gov:8000/acedocs/ace95/index.html
142 http://www.ncgr.org/gsdb/maestro/
143 J. Knight, SEQIO, A package for reading and writing sequence files, URL: http://wwwcsif.cs.ucdavis.edu/~knight/
144 S.W. Smith et al, The genetic data environment: An expandable GUI for multiple sequence analysis, Comp Appl Biosci 10 (1994) 671-675
145 * G. Füllen et al., BioPerl-Projekt, URL: http://www.techfak.uni-bielefeld.de/bcd/Perl/Bio/welcome.html
146 * S. Berchtold, C, Böhm, B. Braunmüller, D.A. Keim, H.-P. Kriegel, Fast Parallel Similarity Search in Multimedia Databases, Proc. Int. Conf. on Management of Data, Tuscon, AZ (1997)
147 * D.G. George, B.C. Orcutt , H.W. Mewes, A. Tsugita, An object-oriented sequence database definition language (SDDL), Prot & Seq Data Anal 5 (1993) 357-399
148 E.S. Lander, The new genomics: Global views of biology, Science 274 (1996) 536-539

20. August 1997, WebEditor