Tough Graders

Nur ein kleines Update, weil es hier ja etwas still war: der Grund dafür ist, dass meine data-bezogenen Energien mehr oder weniger vollständig von einigen MOOCs absorbiert wurden (siehe Data Moocs Spring/Summer 2014 und Data Moocs Spring 2014), und die waren (resp. sind) zwar teilweise tatsächlich sehr super, vermitteln aber grösstenteils halt einfach zu lernenden resp. zu verstehenden ‘kanonischen Stoff’, der aber selbst nicht wirklich Anschlusskommunikation sucht.
(nachdem ich eig. alle erwähnten moocs und noch einige andere zumindest angeschnuppert habe, sind unterm strich drei übrig geblieben, die ich dann mit gewisser hingabe gemacht habe (resp. noch mache): (1) data analysis and statistical inference von duke/coursera – eine wirklich grossartige einführung in die statistischen grundkonzepte, aber auch die damit verbundene ‘welt-’ und wissenschaftlichkeit und mit toolbox (r, rstudio, rmarkdown, knitr, pandoc) für reproducible research; neben der norvig klasse, siehe u.a. pierce hawthorne, bisher der mooc, wo ich mich am meisten anstrengen musste, um ihn überhaupt zu ‘schaffen’, was dann aber natürlich die wertigkeit für einen selbst mitunter auch erst konstituiert; und neben norvig und model studies sicher eines der highlights meiner bisherigen moocs overall; den impliziten humor von mine çetinkaya-rundel werde ich jedenfalls nicht vergessen. (2) exploratory data analysis von udacity – eine durchaus gute einführung in den datenanalytischen prozess, der vor allem eine ungeplante komplementierende visualisierungskomponente für die prinzipien von (1) mit r/ggplot2 beinhaltet, die dort vl. etwas zu kurz kam; ist aber auch an und für sich zumindest halbwegs durchdacht und überlegt (von den anderen kursen der neuen datenspezialisierung von udacity kann man das ja nicht wirlich sagen, die wirken mitunter eher lieblos rund um ein zu belegendes schlagwort zusammengewürfelt und sind eher keine werbung für ihr neues modell); und (3) the analytics edge vom mit/edx. das ist ein wilder ritt, der sich nicht lange mit den basics aufhält, sondern in woche 2 lineare regression, in woche 3 logistische regression, in woche 4 modellierungstechniken auf basis von entscheidungsbäumen und -wäldern, in woche 5 verschiedene strategien für natural language processing, in woche 6 hierarchisches und k-clustering und in der aktuellen woche 7 gerade einen – übrigens wirklich lustigen und durchaus kompetitiven – privaten wettbewerb auf kaggle offeriert. lineare und integer optimierung kommen noch. und während dabei dann natürlich viel ‘voodoo coding’ ist, ist das trotzdem auch eine nette alternative und abrundung zu (1) und (2); und während die ansätze unterschiedlicher nicht sein könnten, irgendwie haben sie sich interessanterweise recht harmonisch ergänzt und teilweise sogar wechselseitig beleuchtet)
signing up 7

heute vor sieben jahren: 11746761
just setting up my twttr 8

Huch, vor acht Jahren wurde der erste Tweet abgesetzt.
(siehe t7, just setting up my twttr 6, just setting up my twttr 5, just setting up my twttr 4, just setting up my twttr, 2 jahre twitter und immr)
Data Moocs Spring/Summer 2014
Kl. Nachtrag zu Data Moocs Spring 2014: Praktischerweise starten im März und April eine ganze weitere Reihe an Kursen rund um Statistik und Data Analysis:

^ Data Analysis and Statistical Inference von Coursera (siehe) – läuft schon seit 2 Wochen, dauert 10 Wochen und ist sehr gut. Es kombiniert die Basics von Statistik und Wahrscheinlichkeitstheorie (bis zu multiple linear regression und bayesian inference) mit einem guten Schwung Praxis und einem grösseren Projekt.

^ Making Sense of Data von Google (siehe) – startet am 18. März und dürfte ein Crash-Kurs in Google Fusion Tables sein. Die bisherigen nativen Kurse von Google – Power Searching resp. Mapping With Google – waren beide überraschend gut.
Und ab 7. April startet Coursera gleich einen Schwung an 4-wöchigen Kursen im Rahmen einer ‘Spezialisierung’:

^ The Data Scientist’s Toolbox (siehe) – In this course you will get an introduction to the main tools and ideas in the data scientist’s toolbox. The course gives an overview of the data, questions, and tools that data analysts and data scientists work with. There are two components to this course. The first is a conceptual introduction to the ideas behind turning data into actionable knowledge. The second is a practical introduction to the tools that will be used in the program like version control, markdown, git, Github, R, and Rstudio.

^ R Programming (siehe) – In this course you will learn how to program in R and how to use R for effective data analysis.

^ Getting and Cleaning Data (siehe) – The course will cover the basics needed for collecting, cleaning, and sharing data.
Data Moocs Spring 2014
Praktischerweise starten im Februar und März gleich eine ganze Reihe an Kursen rund um Statistik und Data Analysis:

^ Intro to Data Science von Udacity (siehe) – hat diese Woche begonnen, dauert 5 Wochen und schaut nicht schlecht aus. Topics sind Data Manipulation, Data Analysis with Statistics and Machine Learning, Data Communication with Information Visualization und Data at Scale
, scheint Pandas zu verwenden.

^ Introduction to Probability von edX / MIT (siehe) – hat auch diese Woche begonnen, dauert 15 Wochen und schaut auch nicht schlecht aus und werd ich auf alle Fälle probieren, könnte mir aber zu mathematisch sein (multiple discrete or continuous random variables, expectations, and conditional distributions, laws of large numbers, the main tools of Bayesian inference methods, an introduction to random processes, Poisson processes and Markov chains
).

^ Introduction to Statistics von edX / UC Berkeley startet am 24. Feb und dauert 5 Wochen. Möchte ich auf alle Fälle machen. Ein bisschen Statistik braucht man einfach, weil sonst schnell Dinge zu unnötigen Roadblocks werden.

^ Data Wrangling with MongoDB von Udacity (siehe) – startet am 26. Feb, dauert 6 Wochen und schaut auch nicht schlecht aus. Students will learn how to collect, clean, and extract needed data and store it in MongoDB. We will also cover schema design, learn how to process data within MongoDB, and utilize Hadoop along with MongoDB to perform MapReduce operations.
.

^ The Analytics Edge von edX / MIT (siehe) – beginnt am 4. März, dauert 11 Wochen und schaut sehr interessant aus (Through these examples and many more, we will teach you the following analytics methods: linear regression, logistic regression, trees, text analytics, clustering, visualization, and optimization. We will being using the statistical software R to build models and work with data.
).

^ Exploratory Data Analysis wieder von Udacity (siehe) – startet am 12. März, dauert 6 Wochen und schaut auch nicht schlecht aus, scheint vor allem R zu verwenden.
Sabbatical
fyi: live.hackr nimmt ein kleines Sabbatical.
(marcel weiss hat mir hier den letzten schubs gegeben, die von ihm angesprochenen punkte – verlorener spass, zunehmende irritiertheit als ursache und die lazy-xxx serie als symptom usw. – keimen aber natürlich schon länger.
wovon ich etwas abstand gewinnen will ist übrigens nicht das web, das finde ich so erfrischend und erfreulich wie eh und je, sondern den diskurs darüber und die themen der sogenannten ‘netzgemeinde’.
für hackr bedeutet das, dass die chronistenpflicht bzw. die gedankenlos zu befüllenden ströme shared , news und chronicle weiterlaufen wie bisher, und auch bei live.hackr werde ich kleine fundstücke und katzencontent posten, also insgesamt nicht viel, aber ich werde versuchen, meinen inputstrom möglichst diskursfrei zu halten, was üblicherweise ja trigger für die papierkörbe, lazy blogs, leftovers, zeitgenossen, quizzes, etc. war und das will ich euch nicht mehr zumuten.
dafür gibt es mit data.hackr eine neue blog season zum thema small data, ein bisschen dazu hier. ein gedanke dabei ist, dass es vl. psychohygienisch ganz wohltuend ist, bei einem thema mal ganz unten anzufangen, weil quasi jeder andere weiter ist als man selbst und jede aussage eine information, und ich glaube zahlen sind für mich eine gute abwechslung)
37basecamps

^ holy moly, das ende einer ära:
This year marks 37signals’ 15th year in business. And today is Basecamp’s 10th birthday.
…
Here’s the first: Moving forward, we will be a one product company. That product will be Basecamp. Our entire company will rally around Basecamp.
…
So here’s the second big announcement: We’re changing our name. 37signals is now Basecamp.
We just cared more

^ devoha: Facebook wurde heute 10.
The Gifys

^ devoha: die gifys
Cats vs. Mail Carrier

^ wollte das gerade plussen, aber ich sehe leider nur noch das… (war die ich-perspektive eines zustellers, der die briefe nicht einwerfen konnte, weil die hauskatze dagegen gekämpft hat usw.)
(nur am rande: das copyright regime dürfte in etwa dem analen gesellschaftlichen entwicklungsstadium entsprechen, was uns lebenden in unserer lebenszeit natürlich wenig nützt, aber immerhin trotzdem usw.)
Papierkorb pt. 38
(weird but I still kinda miss subjot)
Die Zeitgenossen der Gesellschaft Pt. 13: Der Schlüssige
Der Schlüssige ist ein extrem selten gesehener Zeitgenosse, der sich dadurch auszeichnet, dass er üblicherweise immer sehr schlüssig ist.
(ich bin mir nicht ganz sicher, ob es objektiv schlüssige gibt, also leute, die eine art universelle schlüssigkeit repräsentieren, die man dann halt erkennen kann oder nicht, oder ob schlüssigkeit nur subjektiv und kontextuell entsteht, wobei diese subjektivität dann natürlich trotzdem objektiv ist; vermutlich gibt es beides)
(abt. supermarket studies)
Abed Nadir

kleiner Nachtrag zu A new course experience, wo Udacity neue Kurse und ein neues Modell angekündigt hat und gwm. Fortführung von Craig Pelton und Jeff Winger – nur zur Erinnerung: Udacity hat sich nach einem furiosen Start ja Mitte 2012 in ein kleines konzeptionelles Loch gesetzt, vor allem wohl weil Thrun mit Coursera mithalten wollte und alles aufs Pimpen von Kennzahlen gesetzt hat.
Wenn ich die Beteiligung in den Foren richtig deute hat sich in den 18 Monaten seither die Grundstimmung nie mehr wirklich gefangen, der Krautsalat an Kursen und die Unentschlossenheit gegenüber der Zielgruppe (die eine kraft zieht zu schülern und das zertifikat muss auch für adhs’ler machbar sein, sonst wird ja die dropout rate zu hoch, die andere zu ‘professionals’ die man potentiell auch zum bezahlen motivieren kann und die das zertifikat u.u. im cv präsentieren wollen, und da wird dann auch ungünstig, wenn sich herumspricht, wie wenig man machen muss, usw.) halfen da sicher nicht weiter.
Ihr neuer Ansatz klang zunächst nicht ganz unplausibel: wir machen thematische Tracks (2014 einmal beginnend mit data science) und wir offerieren neben dem kostenlosen tier auch einen kostenpflichtigen, der dann persönliches Coaching und ein ‘verifiziertes’ Zertifikat beinhaltet.
Aber ich hab jetzt die letzten zwei Tage Introduction to Hadoop and MapReduce – den ersten Kurs in dieser Serie – gemacht und es zeichnet sich leider das nächste Loch ab. Der Kurs selbst ist zwar nicht schlecht, wenn man wie ich mit Hadoop noch nie was zu tun hatte, man bekommt einen Eindruck um was es geht, wofür man es braucht, ein bisschen Gefühl wie man dafür programmiert und man macht zwei kleine Projekte in einer VM mit eingerichteter Entwicklungsumgebung (für VirtualBox oder VMware), aber jetzt kommt’s: man kann als Zaungast den Kurs nicht offiziell beenden, weil das Projekt nur in der kostenpflichtigen ‘full course experience’ bewertet wird. Alleine dass sich ein Mooc Anbieter nicht selbst denken kann, dass das vl. keine so gute Idee ist – psychologisch fühlt man sich natürlich nicht nur übergangen sondern tatsächlich um sein Zeit und den Aufwand beraubt, man lernt ja nicht fürs Leben sondern fürs Zertifikat – ist kein gutes Zeichen, auch die Umsetzung selbst war (wenn ich wiederum das forum richtig deute) anscheinend schwach und mit 150$/m viel zu teuer für das (zusätzlich) Gebotene.
Die Zeitgenossen der Gesellschaft Pt. 12: Der Forderer
Der Forderer ist ein relativ weit verbreiteter Zeitgenosse, der sich dadurch auszeichnet, dass er Dinge fordert.
(die forderungen selbst sind meistens weder begründet noch in den konsequenzen analysiert oder durchdacht, müssen es aber auch nicht sein, weil ihre funktion üblicherweise darin besteht, einen erwartbaren inhaltlichen vektor für eine repräsentierte gruppe zu etablieren, der dann als kalkül in politischen tauschgeschäften eingelöst werden kann (was übrigens nicht notwendigerweise (aber natürlich öfter als nicht) bedeutet, dass die forderungen selbst blöd sind); und natürlich gibt es auch andere typen, allerdings nur im promille-bereich und inhaltlich dann oft mit sogenannten nonetnonas)
(abt. supermarket studies)
Die Zeitgenossen der Gesellschaft Pt. 11: Der indifferente Instanziierer
(eher devoha weil eine art inversion vom solipsistischen generalisierer ..)
Der indifferente Instanziierer ist ein relativ weit verbreiteter Zeitgenosse, der sich dadurch auszeichnet, dass er Binsenweisheiten resp. allgemeine Gesetzmäßigkeiten in Unterkategorien wiederentdeckt resp. neu konstatiert.
(die aussagen sind also semantisch nicht falsch, aber trotzdem irgendwie daneben, weil sie etwas bedeutungsschwanger als konkrete eigenschaft oder signifikante strukturlogik betonen, was ohnehin auf alles (oder zumindest vieles andere) auch zutrifft. man erkennt das leicht, wenn man für das behandelte thema jedes beliebige andere thema einsetzen kann. während also der solipsistische generalisierer aus einzelerfahrungen allgemeine gesetzmäßigkeiten ableitet, erzählt der indifferente instanziierer allgemeine gesetzmäßigkeiten in einzelerfahrungen.)
(abt. supermarket studies)
Konzept des Tages: Infopolitics
What we need is a concept of infopolitics that would help us understand the increasingly dense ties between politics and information. Infopolitics encompasses not only traditional state surveillance and data surveillance, but also “data analytics” (the techniques that enable marketers at companies like Target to detect, for instance, if you are pregnant), digital rights movements (promoted by organizations like the Electronic Frontier Foundation), online-only crypto-currencies (like Bitcoin or Litecoin), algorithmic finance (like automated micro-trading) and digital property disputes (from peer-to-peer file sharing to property claims in the virtual world of Second Life).
enthalten und ausgeführt von Colin Koopman hier
Nützliche Unterscheidungen pt. 23 (The Position Edition)
Ein bisschen devoha aber eine weitere öfter als nicht nützliche Unterscheidung kommt aus den Sozialwissenschaften und unterscheidet 2 Arten von ‘Positionen’:
- emisch – die Innenansicht bzw. Selbstwahrnehmung eines Systems
- etisch – die Aussenansicht bzw. ‘wissenschaftliche’ Wahrnehmung ebendieses Systems
(abt: draw the distinction!)
Mac 30

^ Apple feiert auf der Startseite 30 Jahre Mac und hat auch eine kleine Minisite erstellt.
9rkut

omg, Orkut wurde 9.
Nützliche Unterscheidungen pt. 22 (The P Trinity Edition)
Eine weitere zumindest pragmatisch nützliche Unterscheidung kommt von Horace Dediu und unterscheidet 3 Ps als Grundbausteine von Organisationen:
A company is nothing more (and nothing less) than three things: people, processes and purposes. In the language of the software engineer these would be inputs, algorithms and specifications. In the language of classical business analysis they are assets (or resources), organization structures and business models. In military theory, these are logistics, tactics and strategy.
This is the trinity which allows for an understanding of a complex system: the physical, the operational and the guiding principle. The what, the how and the why.
(der ganze text ist dann übrigens ein paradebeispiel für die latente schizophrenie von asymco – siehe techblog des jahres und dolm des jahres ; kaum geht es ums web oder um google macht er abstruse grundannahmen, gegen die er dann vorgeht, und willkürliche hakenschläge)
(abt: draw the distinction!)