Data-Science¶
Tabellenkalkulationen¶
Alle quelloffenen Office-Pakete wie
Calligra oder
enthalten eine Tabellenkalkulations-Software. Die Bedienung unterscheidet sich kaum von Microsoft-Excel, die Dokumente sind weitgehend kompatibel oder wenigstens im- und exportierbar.
Datenvisualisierung¶
Wenn die grafische Darstellung von Daten im Vordergrund steht, sind die Möglichkeiten von Tabellenkalkulationen schnell erschöpft. Mehr Freiheit aber ebenso leichte Bedienbarkeit versprechen
Eine lange Tradition hat das kommando- oder scriptgesteuerte Programm
Das Computeralgebrasystem Maxima und das Matlab ähnliche Numerik System GNU Octave nutzen Gnuplot für die grafische Ausgabe.
Die größte Freiheit und die meisten Möglichkeiten, Daten grafisch darzustellen, bieten Python-Programmier-Bibliotheken wie
Matplotlib – der Stand der Technik für statische Grafiken,
Bokeh und
Plotly – wenn es interaktive Grafiken für das Web sein sollen.
Tipp: Schauen Sie sich die Beispiele auf der Matplotlib-Webseite an. Wenn Sie auf ein Beispiel klicken, können Sie den Quelltext sehen und kopieren. So können Sie auch mit sehr geringen Python Kenntnissen beeindruckende Darstellungen zaubern.
Datenverarbeitung¶
Komplexe Berechnungen werden in Tabellenkalkulationen schnell unübersichtlich und schwer prüfbar. Es gibt eine Reihe von Alternativen. Der Aufwand für die Einarbeitung lohnt sich!
Wer den Programmieraufwand gering halten möchte, kann Matlab ähnliche, skriptgesteuerte Umgebungen nutzen:
Mit gerigen Python-Kenntnissen kann man die mächtigen SciPy Bibliotheken nutzen, insbesondere
NumPy, mit dem große Matritzen verarbeitet werden, ähnlich zu GNU Octave oder Scilab und
pandas, das besonders statistische Auswertungen und das Arbeiten mit großen Datensätzen erleichtert, vor allem die Verarbeitung von Zeitreihen.
Ein Standardwerkzeug für statistische Analysen in Wissenschaft und Industrie ist die Programmiersprache R.
Eine sehr einfache und elegante Art, Programmierung, Ergebnisdarstellung und Dokumentation in einem einzigen Dokument zu integrieren bieten Jupyter Notebooks, die auch für die meisten Data Scientists die erste Wahl sind.