Wie unsicher sind Wahlumfragen?

Dieser Artikel wurde 878 mal gelesen.

Seit der Abstimmung über den Austritt Großbritanniens aus der Europäischen Union und den Präsidentschaftswahlen in den USA im letzten Jahr sind Wahlumfragen in die Kritik gekommen. Sie seien grundsätzlich unzuverlässig.

Vielfach wird sogar noch ein weitreichenderer Schluß gezogen. Unzuverlässigkeit würde ja nur bedeuten, daß die tatsächlichen Ergebnisse recht weit von den vorhergesagten entfernt sein könnten. Die Richtung wäre dabei jedoch unklar: eine Abweichung könnte in beide Richtungen gehen. Doch die Folgerung, die immer wieder gezogen wird, ist die, daß gewisse Parteien oder Positionen „in Wirklichkeit“ viel besser dastehen, als es die Umfragen ausweisen. Wer sich Sorgen oder andererseits Hoffnungen macht, mag daran glauben. Aus der Unsicherheit an sich folgt das aber nicht. Sie besagt eigentlich nur, daß man mit einer großen Bandbreite rechnen muß.

Wenn sich also eine Partei mit etwa 10% in den Umfragen schon nah an der absoluten Mehrheit wähnt, warum sollte sie nicht genauso gut damit rechnen, daß sie unter der Fünfprozenthürde landet? Das erscheint auf den ersten Blick sogar naheliegender. Wunsch- und auf der anderen Seite Furchtdenken stellt noch keinen starken Grund für solche letztlich willkürlichen Vorhersagen dar.

In der Reinform funktioniert eine Umfrage wie das Ziehen von Kugeln verschiedener Farbe aus einer Urne, wie es jeder aus einem Statistikkurs kennt, der einen absolvieren mußte oder wollte. Das „Ziehen“ dabei bedeutet, daß man eine Stichprobe nimmt, die nicht mit der Verteilung der Farben in der Urne zusammenhängt. Für den Laien ist dabei oft erstaunlich, mit wie wenigen Kugeln, die man zieht, man ein sehr exaktes Ergebnis bekommen kann. Menschen habe eine sehr unterentwickelte Intuition für solche Fragen. Aber die dahinterliegende Statistik ist wasserdicht. Sich hier Hoffnungen zu machen, daß seit Jahrhunderten Statistiker einer Illusion nachjagen, entbehrt jeder Grundlage.

Da es sich um etwas handelt, bei dem der Zufall eine Rolle spielt, bekommt man kein exaktes Resultat, das keinen Spielraum zuläßt, wie etwa bei einer Messung in anderen Bereichen. Vielmehr kann man nur eine Aussage treffen, daß mit sehr hoher Wahrscheinlichkeit das tatsächliche Ergebnis in einer engen Bandbreite liegen muß. Üblicherweise werden dazu Stichproben einer Größe genommen, die zu einer Bandbreite von etwa plus/minus 3% führen. Dazu genügen meist Befragungen von tausend oder wenigen tausend Menschen. Wenn dann noch die Mitte der Bandbreite als der Umfragewert berichtet wird, fällt die eingebaute Unsicherheit meist unter den Tisch. Das ist in Deutschland in der Regel so, während in den USA wenigsten in einer Fußnote die Fehlermarge immerhin vermerkt wird. Über Abweichungen innerhalb der Bandbreite sollte man sich also gar nicht wundern. Bei knappen Ergebnissen wie zum Brexit oder bei den Wahlen in den USA war der Fehler auch nicht so groß, er hatte nur eine große Auswirkung.

Unsinnig ist es allerdings daraus zu schließen, daß der Fehler bei Umfragen fast beliebig groß ausfallen könnte. Erscheint eine Partei mit etwa 10%, so wäre ein Wahlergebnis von unter 5% schon sehr unwahrscheinlich. Es ist nicht unmöglich, weil die Fehlermarge nur aussagt, daß das Ergebnis in der Bandbreite mit sehr hoher Wahrscheinlichkeit liegt. Mit sehr geringer Wahrscheinlichkeit kann es auch außerhalb davon liegen. Daß die besagte Partei bei der Wahl dann sogar eine absolute Mehrheit erhält, ist hingegen kaum zu glauben. Die Wahrscheinlichkeit dafür müßte wirklich extrem gering sein. Und daß die Umfragen Brexit und Trump nicht vorgesagt haben, was auf wenigen Prozentpunkten Abweichung beruhte, gibt keinen Anhaltspunkt sich das zusammenzuphantasieren.

Es gibt allerdings einige Probleme, wenn man das Modell in seiner Reinform unterstellt. In verschiedenen Hinsichten sind Wähler keine Kugeln in einer Urne. Ihre Ansichten beeinflussen etwa die Stichproben, die man bekommt. Ruft man Wähler der einen Partei an und befragt sie, so kann man sich vorstellen, daß sie sich belästigt und ausgespäht fühlen und nicht antworten. Wähler einer anderen Partei, die ihrem Unmut nur zu gerne Ausdruck verleihen wollen, würden sich hingegen geradezu darum drängen, ihre Meinung zu sagen. Die Stichprobe, die sich dabei nun ergibt, könnte also nicht repräsentativ sein.

Bis zu einem gewissen Grade kann man damit umgehen. Man würde etwa aus vorherigen Wahlen ersehen können, zu wie starken Verzerrungen das führen kann. Daraus ergäbe sich eine Möglichkeit, die rohen Umfrageergebnisse zu adjustieren, um bessere Vorhersagen zu erhalten. Allerdings muß man dazu Anhaltspunkte aus der Vergangenheit haben. Hat man die nicht, so vergrößert sich die Unsicherheit, auch wenn das statistische Modell ganz richtig unter seinen Annahmen eine kleinere Fehlermarge ausweist.

Offensichtlich gab es keine Präzedenzfälle für die Abstimmung in Großbritannien. Und auch die Kandidatur von Donald Trump sprengte in vielen Hinsichten das, was man bislang von republikanischen Kandidaten gewohnt war. Für normale Abstimmungen, die ähnlich wie bisherige sind, sollte eine Korrektur der rohen Ergebnisse also gut, für ungewöhnliche eher schlechter funktionieren. Wie selbst die Fehler bei den bisherigen Abstimmungen zeigen, muß man deshalb aber nicht gleich riesige Fehlerbalken um die Umfrageergebnisse malen.

Vielfach wurde auch vermutet, daß Unterstützer eine ungewöhnlichen und umstrittenen Richtung sich selbst bei einer Umfrage nicht getraut hätten, ihre wahre Meinung zu offenbaren. Für freie Länder ist das kaum glaubhaft. Anderswo mag das sicherlich eine Rolle spielen, etwa bei den suspekt hohen Zustimmungswerten, die für Putin immer wieder präsentiert werden. Bei den Parlamentswahlen in Rußland im letzten Herbst stimmten nur etwa die Hälfte der Wahlberechtigten ab, in Moskau und St. Petersburg nur ein Drittel. Das mag auch daran gelegen haben, daß die Wahlen sowieso gefälscht werden und keine wirklichen Gegenkandidaten zugelassen waren. Es ist aber schwer damit zu vereinbaren, daß es eine riesige Begeisterung für den Übertschekisten gab.

Schon eher kann man an eine mildere Form eines solchen Phänomens denken, die man in verschiedenen Zusammenhängen auch wirklich oft feststellt. Selbst wenn die Umfrage harmlos für den Befragten ist, empfindet er sich doch in einer öffentlichen Lage, wo er die Meinungen in der Gesellschaft mitdenkt. Er neigt deshalb dazu, nicht unbedingt seine Meinung zu sagen, sondern die, die gesellschaftlich akzeptabel erscheint. Das wird als „social desirability bias“ bezeichnet, und der kann erklären, daß nonkonforme Meinungen bei Umfragen unterzeichnet werden.

Doch eine einfache Überlegung zeigt, daß das vielleicht keine so große Rolle gespielt haben könnte. Jeder Befragte durfte davon ausgehen, daß sicher 40% der Bevölkerung auch die weniger angesehene Meinung vertraten. Nimmt man noch hinzu, daß sich Menschen selbst nach ihren Meinungen sortieren, so bewegten sich viele Befürworter des Brexits oder von Trump in einem Umfeld, wo sie aus ihrer Anschauung wußten, daß sogar eine große Mehrheit ihrer Ansicht war. Ein „social desirability bias“ würde in einer solchen Lage vermutlich sogar umgekehrt wirken. Viele derjenigen, die eine solche Meinung hatten, gingen ja auch viel eher davon aus, daß sie „das Volk“ auf ihrer Seite hätten. Sogar die Anhänger der AfD mit eine Durchdringung von nur etwa 10% sind sich da ganz sicher.

Eine weitere Unsicherheit könnte sich auch daraus ergeben, daß Umfragen heutzutage nichts Ungewöhnliches mehr sind, und jeder absehen kann, daß seine Ansicht auch ein Signal sein könnte. Man würde hier vielleicht seinen Protest vermerken, bei der Wahl aber dann doch auf Nummer sicher gehen. Das Vorzeichen für die Abweichung ist also keineswegs klar. Vielleicht heben sich verschiedene Effekte auch weg.

Und wie bei der Frage, ob die Stichprobe nicht ganz repräsentativ ist, gibt es Möglichkeiten, solche Tendenzen anhand der Erfahrungen der Vergangenheit zu adjustieren. Wiederum fällt das schwerer, wo es wenige Präzedenzfälle gibt, an denen man sich orientieren kann.

Worum es hier im Bild der bunten Kugeln geht, ist das folgende: Angenommen wird, daß die Kugeln die Farbe nennen, die sie haben. Aber gemessen wird nur, was sie sagen, nicht was sie wirklich sind. Kugeln machen hier üblicherweise keine falschen Angaben, Menschen können aber durchaus aus unterschiedlichen Gründen eine andere Farbe nennen, als sie tatsächlich haben, d. h. wie sie bei der Wahl dann abstimmen werden. Das ist per se kein Einwand gegen die Methode. Sie mißt eben nur die Farben, die genannt werden, nicht die tatsächlichen, und kann auch gar nichts anderes leisten. Genau genommen ist also diese Selbstbeschreibung das Ergebnis der Umfrage. Die Interpretation geht nur leicht schief, wenn man das nicht beachtet.

Der wichtigstes Punkt, warum die Umfragen etwas, aber auch nicht sehr viel daneben lagen, was aber doch den Unterschied machte, war aber vermutlich ein anderer. Das Modell mit den Kugeln in einer Urne geht davon aus, daß man die Verteilung für den gesamten Inhalt bestimmen möchte. Übertragen heißt das, daß man die Meinungen in der Gesamtbevölkerung mißt. Für die Wahl ist allerdings relevant, wer dann auch zur Abstimmung geht, also auch die Wahlbeteiligung. Wenn die Mobilisierung der Wähler für alle Seiten vergleichbar ist, macht das keinen nennenswerten Unterschied. Aber wenn eine Seite die Wahl als letzte Abfahrt vor dem Weltuntergang ansieht, dann kann man damit rechnen, daß ihre Beteiligung überdurchschnittlich ausfällt.

Wieder kann man anhand historischer Erfahrungen versuchen, dafür zu korrigieren. Aber für die Abstimmung zum Brexit und die amerikanische Präsidentschaftswahl gab es wenig, woran man sich orientieren konnte. Bestenfalls war eine subjektive Adjustierung möglich, die auch leicht danebengehen konnte. Im Fall der amerikanischen Wahl kam noch hinzu, daß durch das Wahlsystem recht kleine Teile des Landes einen sehr großen Einfluß hatten. Für diese waren aber nur wenige Befragte in der Stichprobe, die Fehlermarge also hoch. Bei normalen Wahlen kann man soetwas in den Griff bekommen, und die Ergebnisse der Umfragen können sich sehen lassen. Für ungewöhnliche Wahlen ist das nicht unbedingt der Fall.

Und scheinbar sichere Ergebnisse können diesen Effekt noch verstärken. Wer bereits fanatisch für seine Richtung ist, der wird abstimmen gehen. Aber wer die Sache für schon ausgemacht hält, der glaubt vielleicht, sich eine Beteiligung an der Wahl sparen zu können. Es kann von daher durchaus so sein, daß bei üblichen Wahlbeteiligungen für die verschiedenen Richtungen die Umfragen gestimmt hätten, aber bei der tatsächlichen Wahl durch differenzielle Beteiligung das Ergebnis dann kippte. Daß es solche Effekte gab, kann niemand bestreiten, der über die Ergebnisse verblüfft war. Der Trugschluß ging sogar bis in die entsprechenden Kampagnen, als etwa Hillary Clinton darauf verzichtete, in Staaten Wahlkampf zu machen, die sich hinterher als unerwartet wackelig herausstellten. Eine unenthusiastische und nicht inspirierende Kampagne tat vermutlich ein weiteres dazu.

Einen solchen Mechanismus, vielleicht noch zusätzlich verstärkt durch eine Reaktion auf die Umfragen, sollte es nur bei Wahlen geben. Wer knapp aber nicht abgeschlagen hintenliegt, findet sich eher bei der Wahl ein, wer vorne liegt weniger.  Allerdings sollten derartige Verzerrungen nicht für Umfragen gelten, bei denen eine Wahlbeteiligung gar nicht in Frage kommt, etwa wenn Meinungen in der Gesamtbevölkerung untersucht werden. Insofern ist es unsinnig, jegliche Umfragen aufgrund von Wahlumfragen gleichermaßen in Zweifel zu ziehen, wie es in der letzten Zeit in Mode gekommen ist.

Aus all dem ergibt sich auch eine Spekulation, wie die Effekte nun bei weiteren Wahlen sein werden, die als kritisch eingeschätzt werden. Nach zwei herben Abreibungen im letzten Jahr haben jetzt gerade diejenigen große Zweifel, die vorher selbstgefällig waren. Man kann von daher vermuten, daß sie zur Sicherheit viel zahlreicher bei der Wahl erscheinen, als es sonst der Fall gewesen wäre. Eine durchaus auch übertriebene Einschätzung, wie wahrscheinlich Überraschungen sind, sollte dazu ein übriges tun. Die Seite, die schon längst maximal motiviert ist, kann dem wenig entgegensetzen. Und das könnte dann bedeuten, daß die Umfragen ab jetzt besser liegen, ja sogar die Wählermobilisierung in die andere Richtung läuft.

Wir würden von daher eine Vorhersage für die anstehenden Wahlen in diesem Jahr wagen. Die Umfragen könnten diesmal wesentlich präziser sein. Wir würden sogar vermuten, daß die Überraschungen dieses Mal andersherum ausfallen. Um uns festzulegen, machen wir die sicherlich anfechtbare Vorhersage, daß die Partei von Geert Wilders, die PVV, bei den Wahlen nächste Woche unerwartet schlecht abschneiden wird. Die Umfragen sagen aktuell 20 bis 24 Sitze von 150 voraus (letzte Wahl 15). Unsere Vermutung wäre hier, daß Wilders am unteren Rand mit 20 Sitzen landen könnte. Und um nicht zu feige zu sein, sagen wir sogar weniger als 20 Sitze voraus. Das wäre zwar ein Zugewinn für Wilders, aber ein sehr unbeeindruckender nach dem bisherigen Wirbel um ihn.

Einziger Vorbehalt: dieser Artikel wird in den Niederlanden fast nicht gelesen. Und wenn er gelesen wird, wird er übergangen, ganz zurecht, weil wir kein zwingendes Argument vorgebracht haben, warum man sich zurücklehnen sollte.

Dieser Beitrag wurde unter Aktuelles, Niederlande, Theorie, Wahlen veröffentlicht. Setze ein Lesezeichen auf den Permalink.

Schreibe einen Kommentar