Stochastische Texte



von Theo Lutz (23.7.1932 - 31.1.2010)


Wenn auch die programmgesteuerten, elektronischen Rechenanlagen ursprünglich entwickelt wurden für die Bedürfnisse der praktischen Mathematik und der rechnenden Technik, so war man sich schon frühzeitig darüber im Klaren, daß eine Anwendung dieser Anlagen weit über diese Grenzen hinaus möglich sein müßte. Heute scheint die Vielfalt der Anwendungsmöglichkeiten unbegrenzt. Allerdings sind viele Wissenschaftler noch immer dem Irrtum verhaftet, daß die Benutzung elektronischer Rechenanlagen gebunden ist an die Verwendung von Zahlen. Eine Vielzahl von Programmen hat jedoch gezeigt, daß eine solche Einstellung falsch ist.

So haben amerikanische Wissenschaftler auf der jüngst in Paris stattgefundenen Tagung zu Fragen der Informationstheorie über ein Programm berichtet, das von einem Satz der euklidischen Geometrie auf Grund einer logistischen Untersuchung in kürzester Zeit aussagt, ob der Satz wahr ist oder nicht. Es ist also ein Programm zum Beweis elementargeometrischer Lehrsätze. Des weiteren existieren schon seit längerer Zeit Programme für die Übersetzung von Texten in eine andere Sprache. Eine amerikanische büromaschinenfabrik hat berichtet, daß sie über ein Programm verfüge, das aus einem vorgegebenen wissenschaftlichen Text eine Kurzfassung verfertige.

Die Existenz solcher Programme demonstriert wohl eindeutig, daß sich die Verwendung programmgesteuerter elektronischer Rechenanlagen tatsächlich nicht nur auf Probleme beschränkt, die an den Begriff der Zahl gebunden sind. Der Begriff "Rechnen" erhält durch solche Programme eine wesentlich allgemeinere Bedeutung. Für die Benutzer einer solchen Anlage ist nicht entscheidend, was die Maschine tut; wichtig ist allein, wie man die Funktion der Maschine interpretiert. So ist es für den modernen Wissenschaftler unerläßlich, zu wissen, wie man eine elektronische Rechenanlage programmiert und welches ihre Strukturen sind. Seine Aufgabe ist es, jene Strukturen im Sinne seiner Wissenschaft zu interpretieren.

Es soll hier an dieser Stelle berichtet werden über ein Programm, das der Autor neulich auf der elektronischen Großrechenanlage ZUSE Z 22 im Rechenzentrum der T.H. Stuttgart durchgeführt hat. Die Maschine wurde verwendet zur Erzeugung von stochastischen Texten, von Sätzen also, deren Wörter zufallsmäßig bestimmt werden. Gerade die Z 22 ist ausgesprochen geeignet für Anwendungen im außermathematischen Bereich, sie eignet sich besonders für Programme mit vorwiegend logischer Struktur, für Programme also, die viele logische Entscheidungen enthalten. Sehr vorteilhaft für wissenschaftliche Probleme ist die Eigenart der Maschine, auf Wunsch die Ergebnisse sofort durch einen Fernschreiber ausdrucken zu können.

Unser Programm hatte die Aufgabe, das im allgemeinen recht mühsame Herstellen von stochastischen Texten zu übernehmen. Früher hatte man solche Texte bestimmt, indem man durch Würfeln oder einen sonstigen Zufallsprozeß Sätze oder Satzteile auswählte und diese aneinandersetzte. Für die programmgesteuerte Maschine lag es nahe, als stochastischen Prozeß einen arithmetischen Zufallsgenerator zu verwenden, der mit sogenannten Zufallszahlen arbeitet. Ein solcher Zufallsgenerator funktioniert im Prinzip folgendermaßen:

Aus einer Ausgangszahl wird durch eine arithmetische Operation eine neue Zahl gebildet und aus dieser Zahl durch Intersektion eine Anzahl Ziffern entnommen, die dann als Zufallszahl angesehen werden. Die bei dieser
Operation entstandene Zahl ist Ausgangszahl für die Bestimmung der nächsten Zufallszahl. Durch Fortsetzung dieses Prozesses erhält man eine Folge von Zahlen. Den Zufallscharakter dieser Zahlen weist man empirisch
nach, indem man sie in genügend großer Anzahl herstellt und auszählt. Für den zugrunde gelegten Zahlbereich, in dem sich die Zufallszahlen bewegen sollen, muß sich eine Gleichverteilung ergeben.

Mit der Existenz eines solchen Zufallsgenerators ist das Problem der stochastischen Texte im wesentlichen gelöst. In ihrem Speicher enthält die Maschine eine gewisse Anzahl von Subjekten, Prädikaten, logischen
Operatoren, logischen Konstanten und das Wort "ist", verschlüsselt als Dualzahlen. Aus der ersten Zufallszahl bildet die Maschine durch Addition einer Konstanten die Adresse (d.h. die Positionszahl im Speicher) eines Subjektes, das die Maschine nunmehr zur Verfügung hält. In der nachfolgenden Gedächtniszelle findet das Programm eine Kennziffer, die es auswertet als Geschlecht des betreffenden Substantives, etwa 0 = mask., 1 = fem. und 2 = neutr. Aus einer neuen Zufallszahl bestimmt die Maschine nunmehr einen logischen Operator und stimmt diesen mit Hilfe der gefundenen Kennziffer ab auf das Geschlecht des Subtantives. Jetzt wird zum ersten Male ausgedruckt. Dabei erscheint etwa im Fernschreiber

NICHT JEDER BLICK
Anschließend wird das Wort IST ausgedruckt und mit Hilfe des Zufallsgenerators ein Prädikat und eine logische Konstante ausgewählt und ausgedruckt. Damit hat die Maschine etwa den Satz gebildet
NICHT JEDER BLICK IST NAH
und eine logische Konstante, d.h. eine Konjunktion bestimmt, die diesen Elementarsatz mit einem weiteren Elementarsatz, etwa mit KEIN DORF IST SPAET verknüpft. Als Ergebnis haben wir ein Paar von Elementarsätzen,
verknüpft durch eine logische Konstante:
NICHT JEDER BLICK IST NAH UND KEIN DORF IST SPAET
Damit ist das Programm abgeschlossen und beginnt von vorne, weitere Paare von Elementarsätzen zu bilden. Die Maschine arbeitet, bis sie abgestellt wird.

Bei dem beigegebenen Zufallstext enthielt die Maschine insgesamt 16 Subjekte und 16 Prädikate, ausgewählt aus F. KAFKA "Das Schloß":

DER GRAF DER FREMDE DER BLICK DIE KIRCHE
DAS SCHLOSS DAS BILD DAS AUGE DAS DORF
DER TURM DER BAUER DER WEG DER GAST
DER TAG DAS HAUS DER TISCH DER KNECHT
OFFEN STILL STARK GUT SCHMAL NAH NEU
LEISE FERN TIEF SPAET DUNKEL FREI
GROSS ALT WÜTEND
Jedes der gegebenen Subjekte bzw. Prädikate soll gleich häufig, also mit gleicher Wahrscheinlichkeit auftreten.

Die beiden Elementarsätze eines Paares sollen durch folgende logischen Konstanten verknüpft werden:

a) durch "und' mit einer relativen Häufigkeit von 1/8
b) durch "oder" mit einer relativen Häufigkeit von 1/8
c) durch "so gilt" mit einer relativen Häufigkeit von 1/8
d) durch einen Punkt "." mit einer relativen Häufigkeit von 5/8
Als logische Operatoren wurden mit gleicher Häufigkeit verwendet
der Partikularisator "ein, eine, ein",
der Generalisator "jeder, jede, jedes",
der verneinte Partikularisator "kein, keine, keines" und
der verneinte Generalisator "nicht jeder, nicht jede, nicht jedes".
Ergänzend mag noch darauf hingewiesen werden, daß man aus diesen Satzteilen 4x16x16 = 1024 verschiedene Elementarsätze bilden kann. Diese können auf (l024)² verschiedene Arten zu Paaren von Elementarsätzen kombiniert werden; berücksichtigt man, daß wir 4 verschiedene Verknüpfungsarten kennen, so ergibt sich für die gegebene Menge von Satzteilen eine Kombinationsmöglichkeit von 4x(1024)² = 4174304 verschiedenen Paaren von Elementarsätzen. Die Maschine hat etwa 50 solcher Paare zufallsmäßig bestimmt und davon sind nachfolgende 35 Paare abgedruckt.

Es mag noch darauf hingewiesen werden, daß dieses Programm - es bestand ohne Texte aus etwa 50 Einzelbefehlen - in mancherlei Hinsicht ausbaufähig ist. Man kann etwa in den vorgegebenen Prädikaten- und Subjektmengen Wörter mit großer Häufigkeit dadurch auszeichnen, daß man sie mehrfach einspeichert. Der entstehende Text wird diese Wörter in entsprechender Häufigkeit enthalten. Weiterhin kann man die zugrunde gelegte Wortmenge auswählen im Hinblick auf eine spezielle Sprache. Die Maschine erzeugt dann Sätze in dieser Sprache.

Wesentlich erscheint weiter. daß es möglich ist, die zugrunde gelegte Wortmenge durch eine zugeordnete Wahrscheinlichkeitsmatrix in ein "Wortfeld" zu verwandeln und der Maschine aufzuerlegen, nur solche Sätze auszudrucken, zwischen deren Subjekt und Prädikat eine Wahrscheinlichkeit besteht, die größer ist als ein bestimmter Wert. Auf diese Weise kann man einen Text erzeugen, der in Bezug auf die zugrundegelegte Matrix "sinnvoll" ist.

Eine solche rechteckige Matrix enthält etwa an der Stelle (m,n) die sogenannte Übergangswahrscheinlichkeit vom Subjekt m zum Prädikat n, d.h. also eine Korrelationsziffer zwischen diesen beiden Satzteilen. Erweitert man das Programm durch ein Oberprogramm, des in der Lage ist, bei einem als "sinnvoll" gefundenen Satz die Übergangswahrscheinlichkeiten zwischen seinem Subjekt und seinem Prädikat hinaufzusetzen und die übrigen Wahrscheinlichkeiten dem mathematischen Zusammenhang gemäß zu vermindern, so hat die Maschine in einem gewissen Sinne "gelernt", indem sie auf diese Weise im Laufe der Zeit gewisse Subjekt-Objekt-Kombinationen bevorzugt. Die bis jetzt gefundenen Ergebnisse lassen die Hoffnung gerechtfertigt erscheinen, daß auch bei Untersuchungen im sprachlichen und sprachanalytischen Bereich programmgesteuerte elektronische Rechenanlagen mit großem Erfolg eingesetzt werden können. Es ist zu wünschen, daß das Mißtrauen mancher traditionsgebundener Philologen gegen die Errungenschaften moderner Technik recht bald einer breiten und fruchtbaren Zusammenarbeit Platz macht.
 

Stochastische Texte. Auswahl

NICHT JEDER BLICK IST NAH. KEIN DORF IST SPAET.
EIN SCHLOSS IM FREI UND JEDER BAUER IST FERN.
JEDER FREMDE IST FERN. EIN TAG IST SPAET.
JEDES HAUS IST DUNKEL. EIN AUGE IST TIEF.
NICHT JEDES SCHLOSS IST ALT. JEDER TAG IST ALT
NICHT JEDER GAST IST WUETEND. EINE KIRCHE IST SCHMAL
KEIN HAUS IST OFFEN UND NICHT JEDE KIRCHE IST STILL.
NICHT JEDES AUGE IST WUETEND. KEIN BLICK IST NEU.
JEDER WEG IST NAH. NICHT JEDES SCHLOSS IST LEISE.
KEIN TISCH IST SCHMAL UND JEDER TURM IST NEU.
JEDER BAUER IST FREI. JEDER BAUER IST NAH.
KEIN WEG IST GUT ODER NICHT JEDER GRAF IST OFFEN:
NICHT JEDER TAG IST GROSS. JEDES HAUS IST STILL.
EIN WEG IST GUT. NICHT JEDER GRAF IST DUNKEL.
JEDER FREMDE IST FREI. JEDES DORF IST NEU.
JEDES SCHLOSS IST FREI. NICHT JEDER BAUER IST GROSS.
NICHT JEDER TURM IST GROSS ODER NICHT JEDER BLICK IST FREI.
EINE KIRCHE IST STARK ODER NICHT JEDES DORF IST FERN
JEDER FREMDE IST NAH, SO GILT KEIN FREMDER IST ALT.
EIN HAUS IST OFFEN. KEIN WEG IST OFFEN.
EIN TURM IST WUETEND. JEDER TISCH IST FREI.
EIN FREMDER IST LEISE UND NICHT JEDES SCHLOSS IST FREI.
EIN TISCH IST STARK UND EIN KNECHT IST STILL.
NICHT JEDES AUGE IST ALT. JEDER TAG IST GROSS.
KEIN AUGE IST OFFEN. EIN BAUER IST LEISE.
NICHT JEDER BLICK IST STILL. NICHT JEDER TURM IST STILL.
KEIN DORF IST SPÄT ODER JEDER KNECHT IST GUT.
NICHT JEDER BLICK IST STILL. EIN HAUS IST DUNKEL.
KEIN GRAF IST LEISE SO GILT NICHT JEDE KIRCHE IST WUETEND.
EIN BILD IST FREI ODER EIN FREMDER IST TIEF.
EIN GAST IST TIEF UND KEIN TURM IST FERN.
EIN GAST IST LEISE. JEDES BILD IST FERN
EIN TISCH IST OFFEN. JEDER KNECHT IST FREI.
JEDER TURM IST NEU UND EIN BILD IST ALT.
NICHT JEDER TISCH IST GROSS ODER JEDES DORF IST ALT.

Zuerste erschienen:
Theo Lutz: "Stochastische Texte", in: augenblick 4 (1959), H. 1, S. 3-9

 

--------------------------------------------------------------------

Materialien:


  • Fernschreiberausdruck ZUSE Z 22
  • Umsetztung des Programms in PHP