Der Data Science in R Kurs führt in die Verwendung von R für Data Science/Data Mining ein, erklärt die Grundlagen von datascience und die Verwendung von R. Das notwendige theoretische Verständnis wird geschult mit dem Ziel, die Verfahren praktisch in R umsetzen zu können. Am Ende der Schulung können Sie selbstständig erste Datenanalysen in R mit tidyverse umsetzen und Machine Learning Algorithmen mit R für die Datenanalyse oder das Data Mining mit R einsetzen. Das Paket tidyverse ist ein Schwerpunkt dieser Schulung, da dieses Paket speziell für Data Science entwickelt wurde und aufgrund seiner Performance überzeugt. Wir behandeln vor allem das Modul dplyr, welches für die Datenmanipulation hilfreich ist. Die Datenstruktur der tibbles aus tidyverse entsprechen den häufig in der statistischen Programmiersprache R verwendeten data.frames und ermöglichen eine elegante Analyse der Daten. Das Paket ggplot2 wird für die Erstellung von Plots und Grafiken erläutert. ggplot2 ist eines der beliebtesten Pakete in R für die Visualisierung. Nach den Grundlagen der Datenanalyse mit R erhalten Sie einen Überblick über Algorithmen im Machine Learning in R, welche wir mit den entsprechenden Paketen aus R umsetzen werden. Ein wichtiger Bestandteil der Data Mining Schulung ist das eigenständige Arbeiten und Lösen von Übungsaufgaben, so dass Sie mit Hilfe des Trainers das Besprochene direkt in der Praxis umsetzen und anwenden können.
Inhalte - Data Science in R und Machine Learning Kurs
In diesem Kurs erhalten Sie einen Überblick über die in der Statistik, Data Science und Machine Learning viel benutzte Programmiersprache R. Als Entwicklungsumgebung/IDE wird RStudio verwendet, die am Meisten verwendete Umgebung für R. Nach dem Seminar können Sie Daten aus verschiedenen Formaten einlesen, Daten mit ggplot2 plotten bzw. Daten mit dpylr aus tidyverse bereinigen (fehlende Werte ersetzen, Zeilen und Spalten anpassen, neue Spalten erzeugen). Sie können eigene einfache Funktionen schreiben und kennen die Umsetzung von Control Flows (For-Schleife, If-Else) in R. Sie verstehen das Grundkonzept tidyverse/dplyr und können damit Data Wrangling und Data Cleaning durchführen. Die Einteilung von Machine Learning in supervised-unsupervised und Reinforcement Learning wird vorgestellt und Sie können eigenständig Algorithmen in R trainieren, validieren, einen Train-Test Split durchführen und Gütekriterien zur Beurteilung eines Algorithmus berechnen und interpretieren. Bekannte Algorithmen im Machine Learning werden erläutert und Sie können die verschiedenen Algorithmen verstehen und in R im Code schreiben. Das Seminar umfasst Algorithmen für die Regression, Klassifikation und dem Clustering: Lineare Regression, Logistische Regression, Entscheidungsbaum, Random Forest, k-means clustering. Nach der Data Science und Machine Learning Schulung ist die Einstiegshürde für die Benutzung von R im Machine Learning und Data Science genommen, so dass Sie eigenständig Ihr Wissen erweitern können. Der Schwerpunkt im Kurs liegt auf der eigenen Umsetzung in RStudio mit Unterstützung des Dozenten. Dieses Training findet in Kooperation mit Enable AI statt.