map with heat

Nur ein kleines Update, weil es hier ja etwas still war: der Grund dafür ist, dass meine data-bezogenen Energien mehr oder weniger vollständig von einigen MOOCs absorbiert wurden (siehe Data Moocs Spring/Summer 2014 und Data Moocs Spring 2014), und die waren (resp. sind) zwar teilweise tatsächlich sehr super, vermitteln aber grösstenteils halt einfach zu lernenden resp. zu verstehenden ‘kanonischen Stoff’, der aber selbst nicht wirklich Anschlusskommunikation sucht.

(nachdem ich eig. alle erwähnten moocs und noch einige andere zumindest angeschnuppert habe, sind unterm strich drei übrig geblieben, die ich dann mit gewisser hingabe gemacht habe (resp. noch mache): (1) data analysis and statistical inference von duke/coursera – eine wirklich grossartige einführung in die statistischen grundkonzepte, aber auch die damit verbundene ‘welt-’ und wissenschaftlichkeit und mit toolbox (r, rstudio, rmarkdown, knitr, pandoc) für reproducible research; neben der norvig klasse, siehe u.a. pierce hawthorne, bisher der mooc, wo ich mich am meisten anstrengen musste, um ihn überhaupt zu ‘schaffen’, was dann aber natürlich die wertigkeit für einen selbst mitunter auch erst konstituiert; und neben norvig und model studies sicher eines der highlights meiner bisherigen moocs overall; den impliziten humor von mine çetinkaya-rundel werde ich jedenfalls nicht vergessen. (2) exploratory data analysis von udacity – eine durchaus gute einführung in den datenanalytischen prozess, der vor allem eine ungeplante komplementierende visualisierungskomponente für die prinzipien von (1) mit r/ggplot2 beinhaltet, die dort vl. etwas zu kurz kam; ist aber auch an und für sich zumindest halbwegs durchdacht und überlegt (von den anderen kursen der neuen datenspezialisierung von udacity kann man das ja nicht wirlich sagen, die wirken mitunter eher lieblos rund um ein zu belegendes schlagwort zusammengewürfelt und sind eher keine werbung für ihr neues modell); und (3) the analytics edge vom mit/edx. das ist ein wilder ritt, der sich nicht lange mit den basics aufhält, sondern in woche 2 lineare regression, in woche 3 logistische regression, in woche 4 modellierungstechniken auf basis von entscheidungsbäumen und -wäldern, in woche 5 verschiedene strategien für natural language processing, in woche 6 hierarchisches und k-clustering und in der aktuellen woche 7 gerade einen – übrigens wirklich lustigen und durchaus kompetitiven – privaten wettbewerb auf kaggle offeriert. lineare und integer optimierung kommen noch. und während dabei dann natürlich viel ‘voodoo coding’ ist, ist das trotzdem auch eine nette alternative und abrundung zu (1) und (2); und während die ansätze unterschiedlicher nicht sein könnten, irgendwie haben sie sich interessanterweise recht harmonisch ergänzt und teilweise sogar wechselseitig beleuchtet)