Datenvisualisierung

Top 10.000 Filme nach IMDb User Rating

In den Kursen Programmiertes Entwerfen 2 und Programmiersprachen 2 hatten wir die Aufgabe eine Datenvisualisierung zu einem frei wählbaren Thema zu gestalten und programmieren.

Hierfür musste ich zuerst einen Datensatz raussuchen. Der Datensatz, den ich mir rausgesucht habe kümmert sich um die 10.000 besten Filme laut IMDb User Rating. Hierbei gibt es für jeden Filmeintrag 13 verschiedene Variablen, wobei nicht immer alle Variablen gefüllt sind.

Im Endeffekt habe ich mich dazu entschieden immer das User Rating mit anderen Werten zu vergleichen, insbesondere mit den Zahlenwerten des Datensatzes. Folgende Variablen finden Einsatz:

  • MovieName: Filmname, immer Text
  • MovieRating: Bewertung durch Nutzer, immer Zahlenwert, maximal 9,3
  • Metascore: Bewertung durch ausgewählte Filmkritiker, immer Zahlenwert, maximal 100
  • Releaseyear: Erscheinungsjahr, immer Zahlenwert
  • Votes: Anzahl der abgegebenen User Ratings, immer Zahlenwert
  • Runtime: Filmlänge in Minuten, immer Zahlenwert
  • Gross: Geld, die der FIlm eingespielt hat, immer Zahlenwert.
  • Genre: bis zu drei Genres sind angegeben, immer Text, der aber nur 18 verschiedene Werte annehmen kann

Die Daten sollen als Scatterplot, also als Punktdiagramm dargestellt werden. Die y-Achse soll hierbei immer den User Rating Wert darstellen und den Wert der x-Achse soll frei wählbar sein.

Erste Skizze zum Punktediagramm

Es sollen weitere Filtermöglichkeiten hinzugefügt werden. Einerseits soll man die Anzahl der dargestellten Filme wählen können und es soll nach Genres sortiert werden können.

Filteroptionen

Die finale Datenvisualisierung zeichnet ein Punktediagramm, wobei ein Film immer drei Punkte hat und die Farben der Punkte den Genre-Farben entsprechen, weil ein Film ja bis zu drei eingetragene Genres haben kann. Man kann außerdem den Wert der x-Achse bestimmen und die Anzahl der Filme.

Fertige Visualisierung