Wir betrachten nun das folgende Problem: Gegeben eine Zahl n von Clones des Chromosoms und
eine Zahl m von Markern. Bestimme die Reihenfolge der Marker auf dem Chromosom. Kennt man
die Reihenfolge, so kann man mit Hilfe spezifischer Experimente die Abstände zwischen den
Markern bestimmen.
In einer ersten Serie von chemischen Experimenten (PCR-Tests) bestimmen wir zunächst,
welcher Clone welche Marker enthält. Hierfür führen wir PCR-Tests mit jedem Clone
und der Anfangs- und Endsequenz (Primersequenzen) aller Marker durch.
Das Resultat aller Experimente können wir in Form einer Matrix zusammenfassen (siehe Abb. 3.4).
Die Spalten der Matrix repräsentieren die Marker. Die Zeilen repräsentieren die Clones. Falls ein Marker in einem Clone enthalten ist, steht in der entspechenden Matrixkomponente eine 1 andernfalls eine 0. In dieser Matrix ist die Reihenfolge der Spalten (Marker) beliebig. Es gilt nun, die Spalten so zu sortieren (permutieren), daß die Reihenfolge der Matrixspalten der Reihenfolge der Marker auf dem Chromosom entspricht. Falls die Eingabe fehlerfrei ist, gilt die folgende Aussage: Die Spalten liegen genau dann in der richtigen Reihenfolge vor, wenn die Matrix die Consecutive-Ones-Property besitzt, d.h., in jeder Zeile bilden die Einsen der Matrix einen zusammenhängenden Block (siehe Abb. 3.4). In diesem Fall können wir die Ordnung der Marker mit Hilfe eines Algorithmus zur Berechnung einer Spaltenpermutation mit der Consecutive-Ones-Property berechnen. Booth und Luecker haben 1976 einen Algorithmus mit Laufzeit O(m) vorgestellt (siehe [BL76]).
In der Regel sind die Daten jedoch nicht fehlerfrei. Wir werden nun ein Verfahren kennenlernen, das in der Praxis eingesetzt wird. Wir transformieren unser Sortierproblem in ein Graphenproblem. Jeder Knoten des Graphen repräsentiert eine Spalte der Matrix. Zwei Knoten vi, vj sind über eine Kante eij miteinander verbunden. Das Gewicht der Kante eij ist gleich der Hamming-Distanz der von vi und vj repräsentierten Spalten. Eine kleine Hamming-Distanz bedeutet, daß die entsprechenden Spalten sehr ähnlich sind und daher in der zu bestimmenden Reihenfolge der Spalten nicht weit voneinander entfernt sein sollten. Man veranschauliche sich hierzu, was es bedeutet, wenn zwei Spalten sich in einer Zeile unterscheiden: Der Clone enthält also einen der beiden Marker und den anderen nicht.
Wir können nun unser Sortierproblem als TSP-Problem (Traveling-Salesman-Problem) definieren: Berechne eine Traveling-Salesman-Tour mit minimalem Gewicht. Das Gewicht einer Tour ist die Summe ihrer Kantengewichte. Eine TSP-Tour besucht jeden Knoten genau einmal. Obwohl das TSP-Problem NP-hard ist, kann man heute Problem-Instanzen mit bis zu 1000 Knoten mit Hilfe von Verfahren der kombinatorischen Optimierung lösen (siehe [JRR97]). Es existiert noch eine Reihe anderer Formulierungen für das Physical-Mapping-Problem (für einen Überblick siehe [Gus97]).