100.000 Mann an Bord - Quantität=Qualität? | Arbeitsgemeinschaft Genealogie Thüringen e.V.

Mein Stammbaum umfasst über 100.000 Personendatensätze!

Solche Zahlen beeindrucken ungemein, je größer desto besser. Mich allerdings nicht mehr. Was aber steckt da hinter? Waren hier besonders fleißige Forscher am Werk? Mitnichten!

Rechenexempel

Genealogie hat ein Stückweit auch mit Mathematik zu tun. Wenn wir einzelne Daten von Personen zunächst nicht finden können, schätzen wir sie. Damit können wir etwas leichter den zeitlichen Rahmen abstecken, in dem die Person gelebt haben dürfte. Anhand verschiedener biologischer Tatsachen können wir das ungefähre Alter, früheste Geburts- und späteste Sterbedaten, früheste und späteste Kindgeburt etc. zumindest grob einordnen. Die meisten Genealogieprogramme geben Warnmeldungen aus, wenn beispielsweise jemand nach dem Tod noch einmal geheiratet hat oder eine Frau mit 65 Jahren noch Mutter wurde. Mittels solcher eingebauter Plausibilitätsprüfungen sollen vor allem grobe Eingabefehler vermieden werden.

Da wundert es mich doch manchmal, warum die Mathematik bei derart hoh(l)en Zahlen aussetzt. Ich gebe Euch ein kleines Rechenbeispiel, über das Ihr mal nachdenken könnt.

Friedhofsdaten

Allein zur Erforschung der „Friedhofsdaten“ (Geburt/Tod) einer einzigen Person benötigt man schon einmal mindestens zwei Primärquellen. Angaben aus Geburts- und Sterberegister bzw. Tauf- und Begräbnisregister sind also schon einmal erforderlich. Hat die Person geheiratet, vielleicht sogar mehrfach? Dann kommen entsprechend noch die Trauregister hinzu. Zu einer vollständigen Forschung gehört jedoch wesentlich mehr als nur die reinen Friedhofsdaten.

Diese Primärquellen müssen zunächst erst einmal aufgefunden und gesichtet werden. Für uns Thüringen-Forscher bedeutet das immer noch in den meisten Fällen eine Recherche vor Ort. Dass darin auch ein besonderer Reiz liegen kann, wird heute vielfach unterschätzt. Sicherlich ist es nicht immer einfach, vor Ort zu forschen, ich höre und lese ich immer wieder von Problemen. Aber das ist ein Thema, dass ich hier schon einmal beschrieben habe.

Die Nadel im Heuhaufen

Am Ort des Geschehens angekommen, wühlt man sich beispielsweise durch die Kirchenbücher. Was in den letzten 200 Jahren mit Hilfe von Namensregistern noch relativ einfach ist, wird in den Jahrhunderten vor 1800 für viele Forscher zur Tortur. Hier muss man die ganze Quelle Seite für Seite durchgehen, zumindest in einem abschätzbaren Rahmen. Davon ab, die entsprechende Schrift sollte man bereits annähernd fließend beherrschen, der entsprechende Eintrag will ja auch noch transkribiert werden. Ist die gefundene Person überhaupt die Richtige oder gab es namensgleiche Personen? Selbst bei einer sehr wohlmeinenden Betrachtung und je nach Lesevermögen kommt also pro Datum im Schnitt schon eine halbe Stunde Arbeit auf den Genealogen zu. Wer das nicht glaubt, darf es gern einmal selbst ausprobieren.

Damit ist allerdings nur die Arbeit an der Quelle gemeint. Also im Pfarramt, Archiv oder einer digitalisierten Quelle im Internet. Wenn man nun auch noch Rüst- und Fahrzeiten dazurechnet, verlängert sich die Zeit entsprechend. Zu Rüstzeiten kann man z.B. die Vorrecherche (was suche ich überhaupt und wo ist die Quelle einsehbar?) oder eine Anmeldung für die Einsichtnahme, Planung der Reise, Hotelbuchung etc. zählen. Fahrzeiten können mit zunehmender Digitalisierung mittlerweile entsprechend abnehmen, aber für 100.000 Datensätze hätte man bisher durchaus so einige Wochen oder Monate im Zug oder auf der Straße verbracht. Nehmen wir also mal an, diese Nebenzeiten summieren sich im Schnitt auch durchschnittlich auf eine Stunde pro Datensatz.

Die Ergebnisse der Forschung sind dann nach erfolgreicher Suche ordentlich zu dokumentieren. Das Genealogieprogramm wird mit den gewonnenen Erkenntnissen gefüttert und die Daten werden mit nachvollziehbaren Quellenangaben versehen. Dann werden eventuelle Verknüpfungen überprüft, korrigiert und ergänzt. Manch einer erledigt diese Arbeiten direkt in der Online-Datenbank, andere müssen die lokalen Daten eventuell erst in eine GEDCOM-Datei umwandeln und hochladen. Auch das bedarf zusammengenommen schon wieder einer halben Stunde Arbeit.

Rechnen wir einmal zusammen: Pro Person benötigt man für die reine Recherchearbeit mindestens eine Stunde, für Rüst- und Fahrzeiten eine weitere Stunde. Inklusive der abschließenden Datenverarbeitung, Dokumentation und Ablage summiert sich also die Forschungsarbeit pro Personendatensatz auf zweieinhalb Stunden. Das wären also unglaubliche 250.000 Stunden, für die selbst ein Vollzeit-Genealoge rund 86 Jahre benötigen würde. Für die Mathematiker unter Euch:

((( 1 h + 1 h + 0,5 h ) x 100.000 ) / 8 h/d ) / 365 d/a = 85,616 a

Massenerfassung

Etwas anders sieht es sicherlich aus, wenn der Forscher sich an einer einzigen Quelle „austobt“. Das trifft vor allem für OFB-Bearbeiter zu. Die Daten werden kontinuierlich transkribiert und erfasst, eine Personensuche innerhalb der Quelle entfällt also schon einmal. Außerdem ist der OFB-Bearbeiter mit Schriftbild und Abkürzungen des Quellen-Verfassers sowie den regionaltypischen Begriffen (Berufe, Orte, Ämter etc.) besser vertraut. Auch das trägt zu einer deutlich höheren Bearbeitungsgeschwindigkeit bei. Rüst- und Fahrzeiten können zu einem großen Teil vernachlässigt werden, da dem OFB-Bearbeiter die Quellen häufig als Kopie zur Verfügung stehen. Allerdings wollen die auch erst einmal vor Ort gemacht werden. Um die Datenverarbeitung und die spätere Aufbereitung kommt aber auch ein OFB-Bearbeiter nur in Teilaspekten herum. Vielfach wird dann vor allem auf die nachvollziehbaren Quellenangaben verzichtet. Wie man ein OFB bearbeitet, habe ich hier bereits beschrieben.

OFB

Sehr konservativ geschätzt benötigt aber selbst ein OFB-Bearbeiter mindestens fünf Minuten für eine Datenangabe. Wenn wir davon ausgehen, dass zu einer Person nicht immer alle drei Angaben wie Taufe, Trauung und Begräbnis vorliegen, kann man im Schnitt von zwei Angaben pro Person ausgehen. Macht also 10 min Recherche und Transkription sowie ca. 20 min für die Dateneingabe, Verknüpfung, Quellenangabe und Aufbereitung. Das macht also eine halbe Stunde pro Personendatensatz. Also auch schon wieder 50.000 Stunden genealogischer Forschungsarbeit für unsere beispielhaften 100.000 Personendatensätze.

In einem mittelgroßen Dorf mit rund 4.000 Familiendatensätzen kommt man auf ca. 15.000-20.000 Personendatensätze. Nehmen wir die Mitte an, liegt die Bearbeitungszeit auch schon wieder bei 8.750 Stunden. Da man auch ein OFB nicht in Vollzeit erstellen kann, wird klar, warum man nicht nach einem Jahr mit einem OFB fertig sein kann. Es gilt ja auch noch, die umliegenden Orte mit einem mindestens ebenso hohen Aufwand wie bei der Standardforschung durchzuarbeiten.

CrowdSourcing

Eine weitere Möglichkeit ist das CrowdSourcing, dessen sich beispielsweise FamilySearch oder Compgen bedienen. Eine Vielzahl, meist anonymer Mitarbeiter transkribieren und indizieren riesig große Quellen wie z.B. Verlustlisten, Auswandererlisten oder Adressbücher. Der Fleiß dieser genealogischen „Ameisen“ ist äußerst bewundernswert. Die so erfassten Daten stehen dann über eine Internet-Datenbank der Allgemeinheit kostenfrei zur Verfügung.

Mengenlehre

Wie kommt man als einzelner Forscher also zu 100.000 und mehr Datensätzen? Ich sehe da mehrere Möglichkeiten. Ihr könnt Euch beispielsweise mehrere Jahre über viele Stunden am Tag mit der Bearbeitung von OFBs beschäftigen oder bereits verlegte OFBs vollständig abtippen. Für beide Varianten braucht man viel Zeit und Durchhaltevermögen.

Dank modernster Technik geht das heute jedoch viel einfacher: Kopieren oder Verknüpfen! Es hat sich vor allem in den Internet-Datenbanken der Glaube manifestiert, dass Datensätze, die in „Stammbäumen“ von zwei oder mehr „Forschern“ vorzufinden sind, schon irgendwie der Richtigkeit entsprechen müssen. Ein Paradoxon: Je mehr dieser genealogischer Blödsinn kopiert wird, umso weniger wird dessen Richtigkeit angezweifelt. Auf die Prüfung wird jedenfalls fast immer verzichten, das würde schließlich einen erheblichen Zeitaufwand bedeuten.

Qualität

Eine Prüfung funktioniert im Übrigen auch nur, wenn auch die Quellenangaben nachvollziehbar sind. Diese werden jedoch vielfach nur als schmückendes Beiwerk angesehen. Und hier ziele ich im Übrigen nicht nur auf die kommerziellen Datenbanken bei Ancestry, MyHeritage und Co. ab. Auch bei GEDBAS findet man leider immer häufiger derartigen Datenmüll, Quellenangaben sind auch dort meistens auch nicht vorhanden. Oder wenn, dann so etwas wie „Ancestry-Stammbaum 4711“. Wer braucht so etwas?

Das bei der ganzen Kopiererei auch die Forschungstätigkeit, sprich das geistige Eigentum anderer Genealogen als das Eigene ausgegeben wird, ist eine weitere sehr unschöne Angelegenheit. So finden sich viele mühsam erforschte Genealogien völlig aus dem Zusammenhang gerissen in diesen Stammbäumen wieder.

Und Aussagen altgedienter Genealogen wie „Ich nutze so etwas nur als Hinweisgeber“ bringen einem Anfänger nicht weiter. Der weiß anfangs noch gar nicht, mit welcher Qualität er bei Online-Datenbanken zu rechnen hat. Er wird also weiterhin nach den dort abgelegten Daten gieren und mangels eigenem (kostenpflichtigen) Zugang die Internet-Foren mit Fragen wie „Kann mal jemand für mich zwei Datensätze bei xyz nachschauen?“ zumüllen.

Fazit

Niemand hat je behauptet, ein Präzisionshobby wie die Genealogie wäre kostenlos und ohne Aufwand zu betreiben. Wer es eilig hat (warum eigentlich?) muß mittlerweile auch Geld in die Hand nehmen. Ob er dann aber bekommt, was er sich verspricht, ist eine andere Frage.

In der Genealogie geht es nicht um Quantität sondern um Qualität. Wer Kosten, Zeit und Aufwand jedoch scheut, sollte es lassen! Sicher habt Ihr hierzu Eure eigene Meinung. Laßt sie uns wissen!

Ergänzung vom 18.12.2016: Thomas Engelhardt schrieb seine Gedanken zu diesem Thema hier.

100.000 Mann an Bord – Quantität=Qualität?