hackr.de | Coursera: Introduction to Data Science

Coursera: Introduction to Data Science

Introduction to Data Science

Introduction to Data Science
Instructor: Bill Howe, University of Washington
Zeitraum: 30 Juni 2014 – 10 September 2014
Status: mache ich gerade, inkl. Exams und Zertifikat

Anmerkung: Introduction to Data Science war insgesamt ein durchaus netter Kurs. Die Lektionen sind eher abstrakt ohne dabei ins Unverständliche abzutriften, die Assignments sind dafür sehr praktisch und – falls man die jeweilige Technologie überhaupt nicht kennt – ein Wurf in das Wasser, der aber auch machbar ist, wenn man zumindest eine Basics kennt. Verwendete Technologien sind virtuelle Maschinen (es gibt eine für den Kurs), Github, Python, SQL, SQlite, MapReduce, Pig, Elastic Map Reduce, R, Kaggle und Tableau. Bei der Fülle ist klar, dass man nirgends davon ins Detail geht, aber man macht sich die Finger nass und kann auch selbst darauf aufbauen.

Größter Kritikpunkt wäre, dass sie mit etwas mehr Struktur beim Freischalten der Lektionen und Assignments den Studenten viel Verwirrung und Unsicherheit ersparen hätten können. Eine Seite mit einem Überblick und die erwartbare gleichzeitige Veröffentlichung von Lektion und Aufgabe jeden Dienstag hätte echt schon gereicht.

Course Syllabus

Part 0: Introduction

Examples, data science articulated, history and context, technology landscape

Part 1: Data Manipulation at Scale

Databases and the relational algebra
Parallel databases, parallel query processing, in-database analytics
MapReduce, Hadoop, relationship to databases, algorithms, extensions, languages
Key-value stores and NoSQL; tradeoffs of SQL and NoSQL

Part 2: Analytics

Topics in statistical modeling: basic concepts, experiment design, pitfalls
Topics in machine learning: supervised learning (rules, trees, forests, nearest neighbor, regression), optimization (gradient descent and variants), unsupervised learning

Part 3: Communicating Results

Visualization, data products, visual data analytics
Provenance, privacy, ethics, governance

Part 4: Special Topics

Graph Analytics: structure, traversals, analytics, PageRank, community detection, recursive queries, semantic web

Processing large-scale graph data: A guide to current technology (pdf)

Quizzes

There will be eight total assignments of which two are optional.

There will be four structured programming assignments: two in Python, one in SQL, and one in R.

There will also be two open-ended assignments graded by peer assessment: one in visualization, and one in which you will participate in a Kaggle competition.

Finally, there will be two optional assignments: One involving an open-ended real-world project submitted by external organizations with real needs, and one involving processing a large dataset on AWS.