Nächstes Jahr ist es wieder soweit: Die Mobilität wird in Deutschland gemessen (MiD, Mobilität in Deutschland) und zusätzlich in einer stetig wachsenden Zahl deutscher Städte (SrV, System repräsentativer Verkehrserhebungen). Schon jetzt zeichnet sich ab, dass die erhobenen Daten (wieder) kritikabel sein werden.

Qualität von Mobilitätserhebungen

Anders als in den Naturwissenschaften ist es in den Sozialwissenschaften sehr viel schwieriger, die Qualität der jeweiligen Messverfahren zu bestimmen. Und sobald es um Befragungen geht (bei denen ja Interaktion mit „wirklichen” Menschen stattfindet bzw. stattfinden sollte), wird das eine echte Herausforderung. Wir bei Socialdata haben lange einen Indikator gesucht, der leicht messbar und verständlich ist und gleichzeitig verlässliche Rückschlüsse auf die Qualität des jeweiligen Designs erlaubt. Und wir sind zu der Überzeugung gekommen, dass die Antwortquote genau dieser Indikator ist:

Qualität von Befragungen

Nur bei einem guten, befragtengerechten Design sind auch viele Befragte bereit zur Beantwortung. Ein solches Design muss dann nämlich auch so gestaltet sein, dass wenige Fehler bei der Beantwortung passieren (können) und dass die Befragten tatsächlich Auskunft und damit valide Antworten geben wollen. Wir haben seit 1988 alleine in Deutschland 425 Mobilitätserhebungen durchgeführt (davon über 50 kontinuierlich) und eine Antwortquote von (insgesamt) 79 % erzielt. In allen unseren Mobilitätserhebungen war hoher Rücklauf gleichbedeutend mit großer Ausfüllgenauigkeit und hoher Validität.

 

 

Das Wehklagen von der sinkenden Antwortbereitschaft

Wenn man heute Antwortquoten (von Befragungen allgemein und Mobilitätsbefragungen im Besonderen) diskutiert, fällt einem ein weit verbreitetes, anhaltendes und sich sogar steigerndes Jammern über (angeblich) sinkende Antwortquoten auf. Es ist ein bekanntes Spiel: Anstatt sich Gedanken zu machen, wie man Befragte dazu bringt zu kooperieren und sich als Forscher entsprechend anzustrengen, wird die Schuld für geringe Antwortquoten den Befragten in die Schuhe geschoben.

Das machen (fast) alle und beruhigen damit die Auftraggeber. Und so kommt es, dass die beauftragenden Ministerien und Städte es klaglos hinnehmen, dass die Antwortquote der MiD nur noch um die 40 % liegt und die aller SrV Städte insgesamt um 25 % (mit sinkender Tendenz). Eigentlich ist das unglaublich; erst recht, wenn man einen kurzen Blick über die Grenze wirft.

Eine Achterbahnfahrt in den Niederlanden

Als 1975 von Socialdata das KONTIV-Design in Deutschland eingeführt wurde, hat sich sehr schnell auch das Verkehrsministerium in den Niederlanden und das mit Erhebungen betraute „Statistische Bundesamt” (Centraal Bureau voor de Statistiek in Heerlen, CBS) für die­se Methode interessiert.

Nach eingehender Beratung mit uns entstand die „niederländische KONTIV” (OVG), die 1978 startete. Seitdem gibt es in den Niederlanden – ohne Unterbrechung – eine kontinuierliche Erhebung der Mobilität (das ist in dieser Welt ziemlich einmalig).

In den Anfangszeiten wurden hierzu mündliche Interviews (mit guten Rücklaufquoten) durchgeführt; 1985 ist man der damaligen Mode gefolgt und hat auf ein System mit telefonischen Befragungen umgestellt. Seit dieser Zeit sind die Rücklaufquoten verfügbar. Sie zeigen bereits für 1985 einen unbefriedigenden Rücklauf von 50%. Bis 1998 sank dieser Rücklauf auf knapp 35 %. Auch hier wurde der schlechte Rücklauf zunächst mit Befragungsmüdigkeit begründet.

Erst nach (jahre)langen, intensiven Gesprächen war man bei CBS bereit, das inzwischen verbesserte, den gesellschaftlichen Entwicklungen angepasste Neue KONTIV-Design (NKD) zu testen und schließlich für die gesam­te Stichprobe einzusetzen (ab 1998, bei damals knapp 150.000 Personen pro Jahr). Das Ergebnis war eindeutig: Der Rücklauf verdoppelte sich auf über 70 %!

 

OVG/ MON/ OViN
Antwortquoten 1985- 2010

Allerdings war jetzt ein Design eingeführt, bei dem die Befragten ernst genommen und die Bedürfnisse der Forscher denen der Befragten untergeordnet werden mussten. Kurzum: Jetzt war es harte Arbeit. Das hat manche bei CBS besonders motiviert, andere weniger. Als Folge ging der Rücklauf – wenn auch leicht – zurück und der Protest gegen den Aufwand, den die Befragung verlangte, wurde größer.

Das und auch andere Gründe haben das niederländische Verkehrsministerium schließlich bewogen, die OVG auszuschreiben (2004 und 2007). Die OVG wurde umgetauft in MON, das NKD eingeführt und die Rückläufe erreichten bis 2008 immer mindestens 70 %.

Parallel wurden in Deutschland 2002 und 2008 die nationale Erhebung (MiD) und die Erhebungen in Städten (SrV) durchgeführt. Wie man sieht, mit bescheidenem Erfolg. Gleichwohl war und ist überall zu hören, dass bessere Antwortquoten nicht möglich seien, weil die Befragten nicht antworten etc. (Ein Blick über die Grenze hätte genügt um zu zeigen, dass es sich hier um eine leicht durchschaubare Ausrede handelt.)

Jetzt werden Sie, liebe mobilogisch!-Leser, einwenden, dass ab 2008 auch in den Niederlanden die Antwortquoten wieder zurückgehen. Das ist wohl wahr, liegt aber daran, dass sich jetzt CBS wieder massiv eingeschal­tet und auf einen neuen Trend gehört hat. Seit 2010 heißt die OVG/ MON jetzt OViN und führt einen Teil der Befragungen auch über das Internet durch. Der Prozess der Umstellung begann früh und verlief nicht ohne Verwerfungen; deshalb ist bereits das zweite Halbjahr 2009 davon betroffen.

Die Antwortquoten gingen sofort wieder zurück und man kann erwarten, dass sich dieser Prozess weiter fortsetzt. Und es ist wahrscheinlich, dass man dafür wieder die Befrag­ten verantwortlich machen wird. So wie in Deutschland auch.

Das Gläserne Projekt

Es ist natürlich nicht so, dass die Einführung des Neuen KONTIV-Designs 1999 in den Niederlanden ganz ohne Zucken gelang. Nein, dafür mussten erst ausführliche Nachweise der Einsatzfähigkeit erbracht werden. Der erste und wichtigste dieser Nachweise war das „Gläserne Projekt” (1997). CBS bildete zwei Stichproben von je 1.000 Haushalten. Eine davon wurde „klassisch” befragt (damals OVG), eine nach dem Neuen KONTIV-Design (in Heerlen, unter strenger Aufsicht). Der Vergleich erbrachte drei wichtige Befunde:

  • Die Antwortquote war beim NKD deutlich höher (siehe oben).
  • Aus den (1.000) Brutto-Haushalten (in denen wie üblich alle Haushaltsmitglieder befragt wurden) berichteten klassisch 1.052 Personen über ihre Mobilität, im NKD 1.813 (oder 72 % mehr). Das war wichtig, weil auch der Kostenaufwand für das NKD größer war (und gerne als Abwehrargument benutzt wurde und wird). Aber ein Kostenvergleich von CBS zeigte einen Mehraufwand von maximal zwei Drittel, und dafür gab es fast drei Viertel mehr verwertbare Fragebogen. (Dies ist einer der in der Forschung wahrhaft seltenen Fälle, bei denen das bessere Design auch noch kostengünstiger ist.)
  • Die Mobilität in der klassischen Stichprobe war höher als bei der NKD. Das war Wasser auf die Mühlen all’ derer, die den Aufwand für eine hohe Antwortquote scheuen und damit argumentieren, dass die zusätzlichen Antworter lustlos teilnehmen und einfach nicht alle ihre Wege berichten. In einem intensiven Vergleich konnte dieses Vorurteil endgültig ausgeräumt werden. Die höhere Wege-Anzahl “klassisch” ist eine Folge des Designs (vor allem der schlechten Ausschöp­fung) und somit einer der Indikatoren, die uns die Probleme gering ausgeschöpfter Befragungen besonders deutlich zeigen(1).

Was wir jetzt erwarten können

Die gezeigten Befunde werden nicht hinter verschlossenen Türen gehalten. Sie sind öffentlich zugänglich und werden bei jeder sich bietenden Gelegenheit präsentiert. Genutzt hat das nichts. Und auch in Zukunft wird sich wohl wenig ändern. Denn die Erkenntnis, wie man die derzeitigen Mobilitätserhebungen deutlich verbessern (und gleichzeitig verbilligen) könnte, ist auch unbequem und würde eine seltsame Allianz aus Auftraggebern, Planern und Forschern nur stören.

Hinzu kommt, dass die bei MiD und SrV beauftragten Institute bislang eine starke Affinität zu Telefonbefragungen haben. Das ist bei einer Befragung, bei der sich alle Haushaltsmitglieder zu einem Stichtag äußern sollen, eine ganz offensichtlich weniger geeignete Methode. Denn – wie zu erwarten ist – können nicht alle Haushaltsmitglieder zeitgerecht erreicht werden. Als Abhilfe dient, dass dann mitunter Haushalte als vollständig befragt gelten, wenn wenigstens die Hälfte ihrer Mitglieder erreicht wurde oder sog. „Proxy-Interviews” zugelassen werden (da berichtet ein Haushaltsmitglied über das Mobilitätsverhalten eines anderen).

Das entspricht sicher nicht der „reinen Lehre”. Als Folge gehen Zusammenhänge verloren, die man für eine seriöse Validierung der Daten bräuchte oder es gehen in der telefonischen Abfrage verschiedener Haushaltsmitglieder über verschiedene Zeiträume manche Wege einfach unter. (Zu den Auswirkungen auf die Ergebnisse siehe beispielsweise unseren Beitrag in mobilogisch! Nr. 2 aus dem Jahr 2004.)

Der Fetisch der Repräsentativität

Die soeben diskutierten Probleme führen zu Fehlern in der Befragung, die mit ihrem Design zu tun haben („systematische Fehler”, z.B. schlechte Antwortquoten). Von diesen Fehlern wird im Allgemeinen abgelenkt; stattdessen wird der statistische Fehler der jeweiligen Stichprobe („Zufallsfehler”, landläufig „Repräsentativität”) in den Vordergrund gestellt. Tatsächlich sind die systematischen Fehler aber oft um ein Vielfaches größer als die zufälligen.

Da es aber bei jedem Messverfahren (design-bedingt) systematische Fehler gibt, basiert die Kalkulation der Zufallsfehler immer auf der – falschen! – Annahme, dass es keine systematischen Fehler gegeben hätte. (Die bei Befragungen angegebenen Zufallsfehler sind deshalb – streng genommen – immer falsch.)

Aufgeben braucht man deshalb nicht, wie ein Beispiel aus der (niederländischen) MON 2004 zeigt:

Beispiel der MON 2004

Die MON 2004 hatte 66.500 Antworter (netto) und erreichte eine Antwortquote von 72 %. Die Zahl der Wege pro Person und Tag lag bei 3,1 (bei 72 %) und 3,4 (bei den ersten 40 %).

Der Zufallsfehler wäre in beiden Fällen mit ± 0,02 Wegen pro Person und Tag kalkuliert worden. Gegenüber der mit 72 % ausgeschöpften Studie hätte sich aber ein systematischer Fehler von 0,30 Wegen pro Person und Tag ergeben, wenn die Antwortquote – wie beispielsweise in Deutschland – nur bei 40 % gelegen hätte. Der systematische Fehler wäre dann fünfzehnmal so groß wie der zufällige (der so gering ist, dass er alle beruhigt hätte). Und das ist jetzt nur eine von vielen möglichen systematischen Fehlerquellen, über die man so gut wie nie etwas erfährt.

Stattdessen hat sich bei uns leider eingebürgert:

  • Repräsentativ = Richtig.
  • Eine wahrhaft gefährliche und völlig unangebrachte Fehleinschätzung.

Das Elend der Empirie

Die in diesem Beitrag gezeigte Problematik ist derzeit – aus den genannten Gründen – nicht verhandelbar. Stattdessen gibt es – auch ganz prominent in der Marktforschung – eine weitverbreitete Befragtenschelte. Daran wird sich nichts ändern, solange Auftraggeber und deren Berater sich eine mindere Qualität bieten lassen.

Gleichwohl: Dieser Beitrag ist die Kurzfassung eines Vortrages, der – unter demselben Titel - anlässlich des Abschiedskolloquiums von Prof. Heiner Monheim in Trier gehalten wurde. Natürlich mit sehr viel mehr Hintergrund-Daten als sie im Rahmen eines solchen Artikels dargestellt werden können.

In einer zentralen Grafik dieses Vortrages wurde versucht, den gegenwärtigen Zustand der Mobilitätsforschung (weit über MiD und SrV, und auch über die deutschen Grenzen hinaus) zusammenzufassen:

Das Elend der Empirie: Selektiv ausgewählte Personen berichten selektiv über ihre Mobilität. Da hilft kein Weglächeln!

Die Reaktionen darauf (unmittelbar und auch später), haben mich letztendlich zu diesem Beitrag angeregt. Vielleicht gelingt es ja doch noch, eine konstruktive, in die Zukunft gerichtete Diskussion der Konzepte und Probleme von Mobilitätserhebungen in Gang zu setzen. Es würde allen helfen.

In Kürze

Nächstes Jahr wird bundesweit und in vielen Städten wieder die Mobilität erhoben (MiD und SrV). Man muss damit rechnen, dass die Antwortquoten niedrig sein werden. Die daraus resultierenden Probleme werden totgeschwiegen und (fälschlicherweise) auf die „stark sinkende Antwortbereitschaft” geschoben werden. Eine Besserung ist nicht in Sicht. Oder doch?

Info und Quelle:

Werner Brög und Erhard Erl, Systematic Errors in Mobility Surveys, 23rd ATRF Conference, Perth, 1999

Dieser Artikel von Werner Brög ist in mobilogisch! , der Vierteljahres-Zeitschrift für Ökologie, Politik und Bewegung, Heft 2/2012, erschienen. 

Einzelhefte von mobilogisch! können Sie in unserem Online-Shop in der Rubrik Zeitschrift bestellen.