Suchen und Finden
Service
Moderne Datenanalyse mit R - Daten einlesen, aufbereiten, visualisieren, modellieren und kommunizieren
Sebastian Sauer
Verlag Springer Gabler, 2019
ISBN 9783658215873 , 559 Seiten
Format PDF, OL
Kopierschutz Wasserzeichen
Mehr zum Inhalt
Moderne Datenanalyse mit R - Daten einlesen, aufbereiten, visualisieren, modellieren und kommunizieren
Vorwort
6
Inhaltsverzeichnis
12
Der Autor
12
Teil I Rahmen
23
1 Statistik heute
24
1.1 Datenanalyse, Statistik, Data Science und Co.
25
1.2 Wissensgebiete der Datenanalyse
27
1.3 Einige Grundbegriffe
29
1.4 Signal und Rauschen
30
2 Hallo, R
33
2.1 Eine kurze Geschichte von R
33
2.2 Warum R? Warum, R?
35
3 R starten
40
3.1 R und RStudio installieren
40
3.2 Pakete
42
3.3 Hilfe! R startet nicht!
44
3.4 Zuordnung von Paketen zu Befehlen
46
3.5 R-Skript-Dateien
48
3.6 Daten
48
3.7 Grundlagen der Arbeit mit RStudio
49
3.8 Hier werden Sie geholfen
52
4 Erstkontakt
55
4.1 R ist pingelig
55
4.2 Variablen zuweisen und auslesen
56
4.3 Funktionen aufrufen
57
4.4 Logische Prüfungen
58
4.5 Vektorielle Funktionen
60
4.6 Literaturempfehlungen
61
Teil II Daten einlesen
62
5 Datenstrukturen
63
5.1 Überblick über die wichtigsten Objekttypen
63
5.2 Objekttypen in R
65
5.3 Daten auslesen und indizieren
71
5.4 Namen geben
76
6 Datenimport und -export
79
6.1 Daten in R importieren
79
6.2 Textkodierung
84
6.3 Daten exportieren
85
Teil III Daten aufbereiten
88
7 Datenjudo
89
7.1 Daten aufbereiten mit dplyr
91
7.2 Zentrale Bausteine von dplyr
92
7.3 Die Pfeife
105
7.4 Spalten berechnen mit mutate()
107
7.5 Bedingte Analysen mit den Suffixen von dplyr
110
7.6 Tabellen zusammenführen (join)
113
8 Deskriptive Statistik
116
8.1 Univariate Statistik
117
8.2 Korrelationen berechnen
125
9 Praxisprobleme der Datenaufbereitung
130
9.1 Fehlende Werte
131
9.2 Datenanomalien
138
9.3 Daten umformen
143
9.4 Werte umkodieren und partitionieren
149
9.5 Vektoren zu Skalaren zusammenfassen
154
10 Fallstudie: Datenjudo
157
10.1 Deskriptive Statistiken zu den New Yorker Flügen
158
10.2 Visualisierungen zu den deskriptiven Statistiken
161
Teil IV Daten visualisieren
166
11 Datenvisualisierung mit ggplot2
167
11.1 Einstieg in ggplot2
168
11.2 Häufige Arten von Diagrammen (Geomen)
176
11.3 Die Gefühlswelt von ggplot2
188
11.4 ggplot(), der große Bruder von qplot()
189
12 Fortgeschrittene Themen der Visualisierung
197
12.1 Farbwahl
197
12.2 ggplot2-Themen
204
12.3 Interaktive Diagramme
207
13 Fallstudie: Visualisierung
210
13.1 Umfragedaten visualisieren mit „likert“
211
13.2 Umfragedaten visualisieren mit ggplot
212
14 Geovisualisierung
224
14.1 Kartendaten
225
14.2 Unterschiede in Kartensegmenten visualisieren
228
14.3 Weltkarten
233
14.4 Anwendungsbeispiel: Konkordanz von Kulturwerten und Wohlbefinden
238
14.5 Interaktive Karten
243
Teil V Modellieren
251
15 Grundlagen des Modellierens
252
15.1 Was ist ein Modell? Was ist Modellieren?
253
15.2 Abduktion als Erkenntnisfigur im Modellieren
255
15.3 Ein Beispiel zum Modellieren in der Datenanalyse
257
15.4 Taxonomie der Ziele des Modellierens
258
15.5 Die vier Schritte des statistischen Modellierens
261
15.6 Einfache vs. komplexe Modelle: Unter- vs. Überanpassung
262
15.7 Bias-Varianz-Abwägung
263
15.8 Trainings- vs. Test-Stichprobe
264
15.9 Resampling und Kreuzvalidierung
266
15.10 Wann welches Modell?
267
15.11 Modellgüte
267
15.12 Der Fluch der Dimension
269
16 Inferenzstatistik
274
16.1 Wozu Inferenzstatistik?
275
16.2 Der p-Wert
276
16.3 Wann welcher Inferenztest?
284
16.4 Beispiele für häufige Inferenztests
285
16.5 Alternativen zum p-Wert
293
17 Simulationsbasierte Inferenz
308
17.1 Stichproben, Statistiken und Population
308
17.2 Die Stichprobenverteilung
311
17.3 Der Bootstrap
315
17.4 Nullhypothesen auf Signifikanz testen
318
Teil VI Geleitetes Modellieren
325
18 Lineare Modelle
326
18.1 Die Idee der klassischen Regression
326
18.2 Modellgüte
329
18.3 Die Regression an einem Beispiel erläutert
332
18.4 Überprüfung der Annahmen der linearen Regression
334
18.5 Regression mit kategorialen Prädiktoren
336
18.6 Multiple Regression
338
18.7 Interaktionen
340
18.8 Prädiktorenrelevanz
342
18.9 Anwendungsbeispiel zur linearen Regression
344
19 Klassifizierende Regression
350
19.1 Normale Regression für ein binäres Kriterium
351
19.2 Die logistische Funktion
352
19.3 Interpretation des Logits
355
19.4 Kategoriale Prädiktoren
356
19.5 Multiple logistische Regression
357
19.6 Modellgüte
358
19.7 Vorhersagen
361
19.8 ROC-Kurven und Fläche unter der Kurve (AUC)
362
20 Fallstudie: Titanic
369
20.1 Explorative Analyse
370
20.2 Inferenzstatistik
372
21 Baumbasierte Verfahren
381
21.1 Entscheidungsbäume
382
21.2 Entscheidungsbäume mit caret
388
21.3 Der Algorithmus der Entscheidungsbäume
395
21.4 Regressionsbäume
395
21.5 Stärken und Schwächen von Bäumen
395
21.6 Bagging
397
21.7 Grundlagen von Random Forests
398
21.8 Variablenrelevanz bei Baummodellen
402
22 Fallstudie: Kreditwürdigkeit mit caret
405
22.1 Zwei Arten der prädiktiven Modellierung
406
22.2 Daten aufbereiten
407
22.3 Modelle anpassen
411
22.4 Modellgüte bestimmen
422
22.5 Wichtigkeit der Prädiktoren bestimmen
430
Teil VII Ungeleitetes Modellieren
438
23 Clusteranalyse
439
23.1 Grundlagen der Clusteranalyse
439
23.2 Beispiel für eine einfache Clusteranalyse
445
24 Textmining
451
24.1 Grundlegende Analyse
452
24.2 Sentimentanalyse
461
25 Fallstudie: Twitter-Mining
465
25.1 Zum Einstieg: Moderne Methoden der Sentimentanalyse
466
25.2 Grundlagen des Twitter-Minings
467
Teil VIII Kommunizieren
475
26 RMarkdown
476
26.1 Forderungen an Werkzeuge zur Berichterstellung
477
26.2 Start mit RMarkdown
479
26.3 RMarkdown in Action
481
26.4 Aufbau einer Markdown-Datei
483
26.5 Syntax-Grundlagen von Markdown
484
26.6 Tabellen
485
26.7 Zitieren
488
26.8 Format-Vorlagen für RMarkdown
490
Teil IX Rahmen 2
493
27 Projektmanagement am Beispiel einer Fallstudie
494
27.1 Was ist Populismus?
495
27.2 Forschungsfrage und Operationalisierung
496
27.3 Emotionslexikon
497
27.4 Daten, Stichprobe und Analysekontext
498
27.5 Prozess der Datenanalyse
498
27.6 Zentrale Ergebnisse
500
27.7 Projektmanagement
503
28 Programmieren mit R
510
28.1 Funktionen schreiben
510
28.2 Wiederholungen
513
28.3 Defensives Programmieren
522
29 Programmieren mit dplyr
525
29.1 Wie man mit dplyr nicht sprechen darf
525
29.2 Standard-Evaluation vs. Non-Standard-Evaluation
526
29.3 NSE als Backen
528
29.4 Wie man Funktionen mit dplyr-Verben schreibt
532
29.5 Beispiele für NSE-Funktionen
535
Anhang A
539
Literatur
545
Sachverzeichnis
556