(CB) Nachdem ich nun im vorangegangenen Blogbeitrag die Übersetzung geliefert habe, liefere ich nun auch die Begründung, warum ich gerade in der Fotografie die Redewendung „Per aspera ad astra!“ für relevant erachte.
Ihr kennt diese Bewertungstools, mit denen Bilder in Bildergalerien bewertet werden können ? Meist kann man ein bis fünf Sterne (=“astra“) vergeben und so zum Ausdruck bringen, dass man ein Bild gut, mittelmäßig, mäßig oder grottig findet. Je mehr Sterne man vergibt, desto besser findet man das Bild, desto mehr Mühe (=aspera) hat sich die Fotografin oder der Fotograf mit dem Bild gegeben.
Die (empirische) Erfahrung zeigt aber, dass diese Bewertungstools nicht unbedingt häufig genutzt werden. Also fühlt sich der ein oder andere befleißigt, doch immer wieder die Benutzung des Bewertungstools anzumahnen – mal subtiler, mal offensiver. Und – je häufiger ich solche „Aufforderungen“ lese, desto mehr festigt sich bei mir der Verdacht, dass die zur Vergabe von Bewertungssternen Aufrufenden gerne ihre Bilder mit möglichst vielen Sternen bewertet wissen möchten. Ganz klar – ohne Sterne heben sich die als „herausragend“ angesehenen eigenen Bilder nicht von den übrigen Bildern ab. „Fishing for Compliments.“, wie eine gute Freundin dazu sagt…
Was aber, wenn alle Bilder mit Bestnote ausgezeichnet werden ? Nur die eben als „herausragend“ angesehenen Bilder nicht ? Dann läuft da doch etwas falsch, oder ?
Denn vielfach ist den zur Bewertung Bittenden nicht bewusst, wie der hinter dem Bewertungstool stehende Algorithmus arbeitet. Nämlich mit Durchschnittsbildung. Alle abgegebenen Bewertungen werden zu einer Bewertung gemittelt und daraus resultierend dem Bild eine Anzahl von Sternen zugewiesen. In der Regel entsteht dann auch ein treffendes Meinungsbild der Bildbetrachtenden – aaaaaber: was, wenn die Stichprobe (=die Anzahl der Abstimmenden) nicht hinreichend groß ist ? Und sich die zur Bewertung aufgeforderten Teilnehmer auch noch persönlich kennen ? Dann kommt es zu Ergebnisverfälschungen. Wird z.B. nur eine einzige Bewertung abgegeben – sagen wir 5 Sterne – kann der Algorithmus nicht vernünftig mitteln, das Bild bekommt 5 Sterne zugewiesen. Normalerweise mitteln sich Extrembewertungen (5 Sterne bzw. 1 Stern) aufgrund der Anzahl der Abstimmenden (=Stichprobengröße) heraus und den Bildern wird ein plausibler Mittelwert zugewiesen. Bleibt die Anzahl der Abstimmenden aber klein und sind diese sich einig in der Bewertung (=persönliches Kennen), bleibt die Ergebnisverfälschung bestehen, ja, sie verfestigt sich noch, da zur Bildung eines „ehrlicheren“ Mittelwertes immer mehr zusätzlich abzugebende „ehrliche“ Stimmen benötigt werden, um das Ergebnis zu verändern.
Ein Beispiel: Wird ein Bild mit fünf Sternen bestbewertet, muss mindestens eine weitere Stimme mit einer „Ein-Stern-Bewertung“ abgegeben werden, um einen Mittelwert von drei Sternen zu erzeugen (5 Sterne plus 1 Stern gleich 6 Sterne, 6 Sterne dividiert durch 2 Stimmen gleich 3 Sterne). Werden als zweite Bewertung jedoch z.B. drei Sterne vergeben, bleibt die Gesamtwertung aufgrund der „winzigen“ Stichprobe (=Anzahl abgegebener Stimmen) weiterhin hoch: 5 Sterne plus 3 Sterne gleich 8 Sterne, 8 Sterne dividiert durch 2 Stimmen gleich 4 Sterne. 4 Sterne bleiben als exakter Mittelwert zwischen den beiden Bewertungen stehen. Wird ein Bild jedoch – nach Absprache – mehrfach mit 5 Sternen ausgezeichnet, verändern „ehrliche“ Bewertungen nur noch sehr wenig – solange die Stichprobenanzahl (=Anzahl abgegebener Bewertungen) gering bleibt.
Nimmt man nun an – und auch dies hat die (empirische) Erfahrung gezeigt – dass die Aufforderung zur Abstimmung nur von sehr wenigen Bildbetrachtern (möglicherweise abgesprochen) in die Tat umgesetzt wird, bleiben die Extreme mit hoher Wahrscheinlichkeit bestehen.
In der Regel machen sich die zur Abgabe von Bewertungen Auffordernden jedoch keine Gedanken über die Funktionsweise von solchen Bewertungstools bzw. den dahinter stehenden Algorithmen und der zur Verfügung stehenden Stichprobengröße und Stichprobenzusammensetzung – und dass kann dazu führen, dass sie sich mit ihrer Aufforderung zur Bewertung selbst ein Bein stellen. Vor allem dann, wenn die Bewertungstools so konfiguriert sind, dass man seine eigenen Bilder nicht selbst bewerten kann – was vor dem geschilderten Hintergrund der Funktionsweise programmiertechnisch sogar sinnvoll ist.
Blöd wäre jetzt, wenn einer daher kommt und vielen/allen anderen Bildern Höchstpunktzahl gibt, nur denen, die eigentlich mit Höchstpunktzahl bewertet werden sollen (wie gesagt: Fishing for Compliments zur positiven Selbstbestätigung) keine Punkte gibt.
Noch besser funktioniert dies, wenn sich innerhalb einer kleinen, gut miteinander bekannten Teilnehmergruppe mehrere untereinander absprechen und gemeinsam bewerten. Selbst kann der Bildautor keine Sterne vergeben, die Mehrheit der Betrachter schert sich nicht um das Bewertungstool und – schon ist das Gegenteil von dem eingetreten, was erreicht werden sollte.
Natürlich funktioniert das Beschriebene auch in umgekehrter Richtung mit vertauschten Rollen.
Das Dilemma lässt sich aber einfach lösen: das Bewertungstool abschalten oder abschalten lassen. Und sagen, dass man sowieso nichts davon gehalten habe…
Was lehrt uns das – sozusagen als Fazit:
Bewertungstools sind nur dann brauchbar, wenn die Teilnehmeranzahl hinreichend groß ist (Erhöhung der Bewertungs-Wahrscheinlichkeit) und die Teilnehmer sich zudem untereinander nur wenig – idealer Weise gar nicht – kennen (Vermeidung von Absprachen).
„Filterblasen“ oder „Echokammern“ sind keine geeignete Gruppe für Bewertungstools, da die Teilnehmer einer Filterblase meinen, sich untereinander gut zu kennen und daher gemeinsam zum Nutzen aller agieren. Bewertungen in Filterblasen sind somit wertlos, da sie zutiefst subjektiv sind und zudem die Gruppe von anderen Gruppen abgrenzen (sollen).
Grundkenntnisse in Stochastik und Logik sind hilfreich. In allen Richtungen…
Echt gute Bilder machen. Sich Mühe geben. Und durch Mühe zu den Sternen kommen. Und da wären wir wieder beim Thema: „Per aspera ad astra!“…