Exploratory Data Analysis


Einleitung

In diesem aiMOOC beschäftigen wir uns mit dem Thema Exploratory Data Analysis (EDA), einem Analyseverfahren zur Erkundung von Datensätzen. EDA ist ein wichtiger Schritt in der Datenanalyse, der vor der Anwendung komplexer statistischer Modelle oder maschinellen Lernens stattfindet. Ziel der EDA ist es, Muster, Unregelmäßigkeiten, Anomalien und Beziehungen in den Daten zu entdecken. Dies geschieht durch eine Kombination aus statistischen Zusammenfassungen und grafischen Darstellungen. EDA ermöglicht es uns, ein besseres Verständnis unserer Daten zu erlangen und Hypothesen für weitere Analysen zu bilden.


Verständnis von EDA


Was ist Exploratory Data Analysis (EDA)?

Exploratory Data Analysis, oder Explorative Datenanalyse, ist ein Ansatz in der Statistik, der darauf abzielt, die Hauptcharakteristika eines Datensatzes zu erforschen und zu visualisieren, bevor formale Modellierungsansätze angewendet werden. Es handelt sich um einen kritischen Schritt im Datenanalyseprozess, der oft verwendet wird, um die Daten besser zu verstehen, die Datenqualität zu überprüfen und erste Annahmen zu testen.


Ziele und Vorteile der EDA

Die Hauptziele der EDA umfassen:

  1. Die Erkennung von Mustern und Beziehungen zwischen Variablen.
  2. Die Identifikation von Anomalien oder Ausreißern in den Daten.
  3. Die Überprüfung von Annahmen über die Datenverteilung.
  4. Die Vorbereitung der Daten für weitere Analysen und Modellierungen.

EDA bietet mehrere Vorteile:

  1. Es hilft, ein intuitives Verständnis der Daten zu entwickeln.
  2. Es fördert das Entdecken von Unregelmäßigkeiten, die in späteren Analysen problematisch sein könnten.
  3. Es unterstützt die Entwicklung von Hypothesen und die Auswahl geeigneter statistischer Tests.


Methoden der EDA

EDA kann durch eine Vielzahl von Techniken durchgeführt werden, einschließlich aber nicht beschränkt auf:

  1. Deskriptive Statistik: Zusammenfassende Statistiken wie Mittelwert, Median, Modus, Standardabweichung.
  2. Datenvisualisierung: Grafische Darstellungen wie Histogramme, Boxplots, Scatterplots und Heatmaps.
  3. Cluster-Analyse: Die Gruppierung von ähnlichen Datenpunkten, um Strukturen innerhalb der Daten zu identifizieren.
  4. Dimensionalitätsreduktion: Techniken wie Principal Component Analysis (PCA), um die Komplexität der Daten zu verringern und die wichtigsten Merkmale hervorzuheben.


Tools für EDA

Für die Durchführung der EDA stehen verschiedene Softwaretools und Programmiersprachen zur Verfügung, darunter:

  1. Python mit Bibliotheken wie Pandas, Matplotlib, Seaborn und Plotly.
  2. R und seine zahlreichen Pakete für statistische Analyse und Grafik.
  3. Spezialisierte Software wie Tableau, QlikView und Microsoft Power BI für interaktive Datenvisualisierungen.


Interaktive Aufgaben


Quiz: Teste Dein Wissen

Was ist das Hauptziel der Exploratory Data Analysis? (Die Erkennung von Mustern und Beziehungen zwischen Variablen) (!Die Entwicklung endgültiger statistischer Modelle) (!Die Prognose zukünftiger Datentrends) (!Die Bereinigung von Daten)

Welches Tool wird nicht typischerweise für EDA verwendet? (Microsoft Excel) (!Python) (!R) (!Tableau)

Was beschreibt die Dimensionalitätsreduktion in der EDA am besten? (Die Reduzierung der Komplexität der Daten, um wichtige Merkmale hervorzuheben) (!Das Hinzufügen neuer Variablen zur Datenanalyse) (!Die Verringerung der Anzahl der Datenpunkte durch Entfernung von Ausreißern) (!Die Erhöhung der Datenmenge für eine bessere Modellierung)

Welche grafische Darstellung wird nicht für EDA verwendet? (Liniendiagramm) (!Histogramm) (!Boxplot) (!Scatterplot)

Was ist ein wichtiger Schritt vor der Anwendung komplexer statistischer Modelle? (Exploratory Data Analysis) (!Datenextraktion) (!Modellvalidierung) (!Hyperparameter-Tuning)





Memory

Deskriptive Statistik Zusammenfassende Statistiken wie Mittelwert und Standardabweichung
Datenvisualisierung Grafische Darstellungen wie Histogramme und Scatterplots
Cluster-Analyse Gruppierung von ähnlichen Datenpunkten
Dimensionalitätsreduktion Reduzierung der Datenkomplexität
Python Eine Programmiersprache häufig verwendet für EDA





Kreuzworträtsel

Pandas Ein Python-Paket für Datenanalyse
R Eine Programmiersprache für statistische Berechnungen
Boxplot Eine grafische Darstellungstechnik in EDA
PCA Eine Methode der Dimensionalitätsreduktion
Outlier Ein anderer Begriff für Ausreißer
Seaborn Ein Python-Paket für Datenvisualisierung
Scatterplot Eine Grafik zur Darstellung der Beziehung zwischen zwei Variablen
Histogramm Grafik zur Darstellung der Verteilung von Daten




LearningApps

Lückentext

Vervollständige den Text.

Exploratory Data Analysis

ist ein Ansatz in der Statistik, der darauf abzielt, die Hauptcharakteristika eines Datensatzes zu

und zu visualisieren, bevor formale Modellierungsansätze angewendet werden.



Offene Aufgaben

Leicht

  1. Erstelle ein Histogramm: Sammle einen kleinen Datensatz und erstelle ein Histogramm, um die Verteilung der Daten zu visualisieren.
  2. Überprüfe Datenqualität: Wähle einen Datensatz aus und identifiziere mögliche Ausreißer oder fehlende Werte.
  3. Visualisiere Beziehungen: Erstelle einen Scatterplot, um die Beziehung zwischen zwei Variablen in einem Datensatz zu visualisieren.

Standard

  1. Analysiere einen Datensatz mit Python: Verwende die Pandas-Bibliothek, um einen Datensatz zu laden, und führe grundlegende deskriptive Statistiken durch.
  2. Erstelle Boxplots: Verwende ein beliebiges Tool, um Boxplots für verschiedene Variablen eines Datensatzes zu erstellen und zu interpretieren.
  3. Führe eine Cluster-Analyse durch: Verwende Software wie R oder Python, um eine einfache Cluster-Analyse eines Datensatzes durchzuführen.

Schwer

  1. Führe eine PCA durch: Nutze Python oder R, um eine Principal Component Analysis für einen Datensatz durchzuführen und interpretiere die Ergebnisse.
  2. Entwickle interaktive Visualisierungen: Erstelle mit Tools wie Plotly interaktive Grafiken, die es ermöglichen, verschiedene Aspekte der Daten zu explorieren.
  3. Erkunde große Datensätze: Wähle einen großen Datensatz und wende verschiedene EDA-Techniken an, um tiefergehende Einsichten zu gewinnen.




Text bearbeiten Bild einfügen Video einbetten Interaktive Aufgaben erstellen



Lernkontrolle

  1. Erkläre, wie ein Boxplot dabei helfen kann, Ausreißer in einem Datensatz zu identifizieren.
  2. Diskutiere, wie die Cluster-Analyse verwendet werden kann, um Muster in einem Datensatz zu erkennen, der zunächst unstrukturiert erscheint.
  3. Beschreibe den Prozess der Durchführung einer Exploratory Data Analysis und wie sie zur Formulierung von Hypothesen für weitere Analysen beitragen kann.
  4. Vergleiche die Vor- und Nachteile der Verwendung von Histogrammen gegenüber Boxplots zur Darstellung der Datenverteilung.
  5. Beurteile die Rolle der Dimensionalitätsreduktion in der EDA und wie Techniken wie PCA zur Dateninterpretation beitragen können.



OERs zum Thema


Links



Exploratory Data Analysis



Einleitung

Exploratory Data Analysis (EDA), zu Deutsch: explorative Datenanalyse, ist ein Ansatz in der Statistik, der darauf abzielt, Datensätze zu untersuchen, um Muster, Unregelmäßigkeiten, Anomalien und Beziehungen zwischen den Variablen zu entdecken. Dies geschieht oft vor der Anwendung formalerer statistischer Analysemethoden und ist ein kritischer Schritt in der Datenanalyse, um ein tiefgreifendes Verständnis der Daten zu erlangen. EDA beinhaltet eine Vielzahl von Techniken, von einfachen grafischen Darstellungen bis hin zu komplexeren statistischen Methoden. In diesem aiMOOC wirst Du die grundlegenden Konzepte und Techniken der explorativen Datenanalyse kennenlernen und verstehen, wie sie in der Praxis angewendet werden können.


Warum Explorative Datenanalyse?


Explorative Datenanalyse ist aus mehreren Gründen wichtig:

  1. Datenqualität: EDA hilft dabei, Fehler, fehlende Werte oder Anomalien in den Daten zu identifizieren, die vor der weiteren Analyse bereinigt werden müssen.
  2. Verständnis der Daten: Sie ermöglicht es, ein tiefes Verständnis für die Struktur und die Hauptcharakteristika der Daten zu entwickeln.
  3. Musterentdeckung: Muster und Beziehungen zwischen Variablen, die für die Hypothesenbildung und Modellierung nützlich sind, können entdeckt werden.
  4. Modellauswahl: Die Erkenntn

User Extensible Markup Language (XML): Markup-Sprache zur Darstellung hierarchisch strukturierter Daten in einem textbasierten Format GPT


Exploratory Data Analysis



Einleitung

Extensible Markup Language (XML) ist eine weit verbreitete Markup-Sprache, die zur Darstellung von hierarchisch strukturierten Daten in einem textbasierten Format entwickelt wurde. XML ermöglicht es, Daten auf eine Weise zu kodieren, die sowohl für Menschen als auch für Maschinen lesbar ist. Durch seine flexible Natur wird XML in einer Vielzahl von Anwendungen verwendet, von Webentwicklung und Softwarekonfiguration bis hin zu Datenaustausch in komplexen Unternehmenssystemen. In diesem aiMOOC werden wir die Grundlagen von XML, seine Struktur, Syntax und einige Anwendungsfälle erkunden.


Grundlagen von XML


Was ist XML?


XML steht für Extensible Markup Language. Es ist eine Markup-Sprache, die es Benutzern ermöglicht, ihre eigenen Tags zu definieren, was die Darstellung von Dokumenten und Daten in einer strukturierten Form erleichtert. XML wurde vom World Wide Web Consortium (W3C) als Standard entwickelt und ist ein Werkzeug für den Datenaustausch und die Datenrepräsentation über das Internet.


XML-Struktur und Syntax


Ein XML-Dokument besteht aus einer Reihe von Elementen, die durch Tags definiert sind. Diese Elemente können Attribute enthalten und sind hierarchisch organisiert, ähnlich wie in einem Baumdiagramm. Jedes XML-Dokument beginnt mit einer Deklaration, gefolgt von einem Wurzelelement, das Kinderelemente enthalten kann. Die Syntaxregeln von XML sind streng und erfordern, dass jedes Element korrekt geschlossen wird.


Anwendungen von XML


XML wird in einer Vielzahl von Anwendungsbereichen eingesetzt, darunter:

  1. Webentwicklung: Für das Design von Webseiten und den Datenaustausch zwischen Server und Client.
  2. Softwarekonfiguration: Zur Speicherung von Konfigurationsdaten für verschiedene Softwareanwendungen.
  3. Dokumentenaustausch: Für den Austausch von Dokumenten und Daten zwischen unterschiedlichen Systemen und Plattformen.
  4. Datenbanken: Zum Exportieren und Importieren von Daten in Datenbanksystemen.


Interaktive Aufgaben


Quiz: Teste Dein Wissen

Was bedeutet XML? (Extensible Markup Language) (!Executable Markup Language) (!Extended Markup Language) (!Essential Markup Language)

Welches Element ist in einem XML-Dokument zwingend erforderlich? (Wurzelelement) (!Header-Element) (!Fußzeilenelement) (!Meta-Element)

Was ist der Hauptzweck von XML? (Daten in einer strukturierten Form darzustellen und auszutauschen) (!Datenbanken zu erstellen) (!Webseiten zu stylen) (!Programme zu schreiben)

Wie wird ein XML-Element korrekt geschlossen? (Mit einem End-Tag, der dem Start-Tag entspricht) (!Mit einem Semikolon am Ende des Elements) (!Mit einem Schrägstrich vor dem Elementnamen im Start-Tag) (!Mit einem Punkt am Ende des Elements)

In welchem Bereich wird XML NICHT typischerweise verwendet? (Als Programmiersprache) (!Im Datenaustausch) (!In der Webentwicklung) (!Bei der Softwarekonfiguration)





Lernkontrolle


Erkläre, wie XML zur Verbesserung der Interoperabilität zwischen verschiedenen Softwareanwendungen beitragen kann. Diskutiere, wie XML-Datenstrukturen flexibel an spezifische Bedürfnisse angepasst werden können und wie dies den Austausch von Daten zwischen unterschiedlichen Systemen erleichtert.

  1. Überlege, wie XML in einem realen Projekt eingesetzt werden könnte, um Daten zwischen unterschiedlichen Systemen oder Plattformen auszutauschen. Beschreibe das Szenario und den Nutzen der Verwendung von XML.
  2. Entwirf ein einfaches XML-Dokument, das eine Liste von Büchern darstellt, einschließlich Titel, Autor und Erscheinungsjahr. Erkläre, wie die Struktur des Dokuments aufgebaut ist und warum XML für diese Art von Daten geeignet ist.
  3. Untersuche die Unterschiede zwischen XML und HTML. Erkläre, warum XML oft für den Datenaustausch und HTML für die Darstellung von Inhalten im Web verwendet wird.
  4. Erörtere die Bedeutung von XML-Namensräumen und wie sie Konflikte zwischen gleichnamigen Elementen in unterschiedlichen XML-Dokumenten verhindern können.




Text bearbeiten Bild einfügen Video einbetten Interaktive Aufgaben erstellen


Teilen - Diskussion - Bewerten





Schulfach+

Prüfungsliteratur 2026 (Deutschland) – nach Bundesland & Abschlussart
Bundesland Bücher Kurzbeschreibung
Baden-Württemberg

Abitur

  1. Der zerbrochne Krug - Heinrich von Kleist
  2. Heimsuchung - Jenny Erpenbeck

Mittlere Reife

  1. Der Markisenmann - Jan Weiler oder Als die Welt uns gehörte - Liz Kessler
  2. Ein Schatten wie ein Leopard - Myron Levoy oder Pampa Blues - Rolf Lappert

Abitur Dorfrichter-Komödie über Wahrheit/Schuld; Roman über einen Ort und deutsche Geschichte. Mittlere Reife Wahllektüren (Roadtrip-Vater-Sohn / Jugendroman im NS-Kontext / Coming-of-age / Provinzroman).

Bayern

Abitur

  1. Der zerbrochne Krug - Heinrich von Kleist
  2. Heimsuchung - Jenny Erpenbeck

Abitur Lustspiel über Machtmissbrauch und Recht; Roman als Zeitschnitt deutscher Geschichte an einem Haus/Grundstück.

Berlin/Brandenburg

Abitur

  1. Der zerbrochne Krug - Heinrich von Kleist
  2. Woyzeck - Georg Büchner
  3. Der Biberpelz - Gerhart Hauptmann
  4. Heimsuchung - Jenny Erpenbeck

Abitur Gerichtskomödie; soziales Drama um Ausbeutung/Armut; Komödie/Satire um Diebstahl und Obrigkeit; Roman über Erinnerungsräume und Umbrüche.

Bremen

Abitur

  1. Nach Mitternacht - Irmgard Keun
  2. Mario und der Zauberer - Thomas Mann
  3. Emilia Galotti - Gotthold Ephraim Lessing oder Miss Sara Sampson - Gotthold Ephraim Lessing

Abitur Roman in der NS-Zeit (Alltag, Anpassung, Angst); Novelle über Verführung/Massenpsychologie; bürgerliche Trauerspiele (Moral, Macht, Stand).

Hamburg

Abitur

  1. Der zerbrochne Krug - Heinrich von Kleist
  2. Das kunstseidene Mädchen - Irmgard Keun

Abitur Justiz-/Machtkritik als Komödie; Großstadtroman der Weimarer Zeit (Rollenbilder, Aufstiegsträume, soziale Realität).

Hessen

Abitur

  1. Der zerbrochne Krug - Heinrich von Kleist
  2. Woyzeck - Georg Büchner
  3. Heimsuchung - Jenny Erpenbeck
  4. Der Prozess - Franz Kafka

Abitur Gerichtskomödie; Fragmentdrama über Gewalt/Entmenschlichung; Erinnerungsroman über deutsche Brüche; moderner Roman über Schuld, Macht und Bürokratie.

Niedersachsen

Abitur

  1. Der zerbrochene Krug - Heinrich von Kleist
  2. Das kunstseidene Mädchen - Irmgard Keun
  3. Die Marquise von O. - Heinrich von Kleist
  4. Über das Marionettentheater - Heinrich von Kleist

Abitur Schwerpunkt auf Drama/Roman sowie Kleist-Prosatext und Essay (Ehre, Gewalt, Unschuld; Ästhetik/„Anmut“).

Nordrhein-Westfalen

Abitur

  1. Der zerbrochne Krug - Heinrich von Kleist
  2. Heimsuchung - Jenny Erpenbeck

Abitur Komödie über Wahrheit und Autorität; Roman als literarische „Geschichtsschichtung“ an einem Ort.

Saarland

Abitur

  1. Heimsuchung - Jenny Erpenbeck
  2. Furor - Lutz Hübner und Sarah Nemitz
  3. Bahnwärter Thiel - Gerhart Hauptmann

Abitur Erinnerungsroman an einem Ort; zeitgenössisches Drama über Eskalation/Populismus; naturalistische Novelle (Pflicht/Überforderung/Abgrund).

Sachsen (berufliches Gymnasium)

Abitur

  1. Der zerbrochne Krug - Heinrich von Kleist
  2. Woyzeck - Georg Büchner
  3. Irrungen, Wirrungen - Theodor Fontane
  4. Der gute Mensch von Sezuan - Bertolt Brecht
  5. Heimsuchung - Jenny Erpenbeck
  6. Der Trafikant - Robert Seethaler

Abitur Mischung aus Klassiker-Drama, sozialem Drama, realistischem Roman, epischem Theater und Gegenwarts-/Erinnerungsroman; zusätzlich Coming-of-age im historischen Kontext.

Sachsen-Anhalt

Abitur

  1. (keine fest benannte landesweite Pflichtlektüre veröffentlicht; Themenfelder)

Abitur Schwerpunktsetzung über Themenfelder (u. a. Literatur um 1900; Sprache in politisch-gesellschaftlichen Kontexten), ohne feste Einzeltitel.

Schleswig-Holstein

Abitur

  1. Der zerbrochne Krug - Heinrich von Kleist
  2. Heimsuchung - Jenny Erpenbeck

Abitur Recht/Gerechtigkeit und historische Tiefenschichten eines Ortes – umgesetzt über Drama und Gegenwartsroman.

Thüringen

Abitur

  1. (keine fest benannte landesweite Pflichtlektüre veröffentlicht; Orientierung am gemeinsamen Aufgabenpool)

Abitur In der Praxis häufig Orientierung am gemeinsamen Aufgabenpool; landesweite Einzeltitel je nach Vorgabe/Handreichung nicht einheitlich ausgewiesen.

Mecklenburg-Vorpommern

Abitur

  1. (Quelle aktuell technisch nicht abrufbar; Beteiligung am gemeinsamen Aufgabenpool bekannt)

Abitur Land beteiligt sich am länderübergreifenden Aufgabenpool; konkrete, veröffentlichte Einzeltitel konnten hier nicht ausgelesen werden.

Rheinland-Pfalz

Abitur

  1. (keine landesweit einheitliche Pflichtlektüre; schulische Auswahl)

Abitur Keine landesweite Einheitsliste; Auswahl kann schul-/kursbezogen erfolgen.




aiMOOCs



aiMOOC Projekte












YouTube Music: THE MONKEY DANCE


Spotify: THE MONKEY DANCE


Apple Music: THE MONKEY DANCE

Amazon Music: THE MONKEY DANCE



The Monkey Dance SpreadShirtShop




The Monkey DanceaiMOOCs

  1. Trust Me It's True: #Verschwörungstheorie #FakeNews
  2. Gregor Samsa Is You: #Kafka #Verwandlung
  3. Who Owns Who: #Musk #Geld
  4. Lump: #Trump #Manipulation
  5. Filth Like You: #Konsum #Heuchelei
  6. Your Poverty Pisses Me Off: #SozialeUngerechtigkeit #Musk
  7. Hello I'm Pump: #Trump #Kapitalismus
  8. Monkey Dance Party: #Lebensfreude
  9. God Hates You Too: #Religionsfanatiker
  10. You You You: #Klimawandel #Klimaleugner
  11. Monkey Free: #Konformität #Macht #Kontrolle
  12. Pure Blood: #Rassismus
  13. Monkey World: #Chaos #Illusion #Manipulation
  14. Uh Uh Uh Poor You: #Kafka #BerichtAkademie #Doppelmoral
  15. The Monkey Dance Song: #Gesellschaftskritik
  16. Will You Be Mine: #Love
  17. Arbeitsheft
  18. And Thanks for Your Meat: #AntiFactoryFarming #AnimalRights #MeatIndustry


© The Monkey Dance on Spotify, YouTube, Amazon, MOOCit, Deezer, ...



Text bearbeiten Bild einfügen Video einbetten Interaktive Aufgaben erstellen

Teilen Facebook Twitter Google Mail an MOOCit Missbrauch melden Zertifikat beantragen


0.00
(0 Stimmen)











Children for a better world >> Förderung der AI Fair-Image Challenge

Fair-Image wird von CHILDREN JUGEND HILFT! gefördert und ist mit der deutschlandweiten AI Fair-Image Challenge SIEGERPROJEKT 2025. Alle Infos zur Challenge hier >>. Infos zum Camp25 gibt es hier. Wenn auch Ihr Euch ehrenamtlich engagiert und noch finanzielle Unterstützung für Eurer Projekt braucht, dann stellt gerne einen Antrag bei JUGEND HILFT.