2014.08
datasci-2137 - if your data frame is called train you could do sth. like
train$Age <- round(train$Age, digits = 0)
train$AgeCount <- sapply(train$Age, function(x) length(which(train$Age == x)))
498430185109487616 - (was wirklich fehlt sind eine art favorites dafür, dass man über irgendwas nicht getwittert hat)
498058613538447360 - @nchenga auch das optimieren von 'dummen' aufmerksamkeitskennzahlen wird zum race to the bottom (hat imho aber nix mit 'algorithmen' zu tun)
datasci-2129 - I don't see any reason why we should doubt the statement "If you are unsure where to begin, consider working on the Titanic competition"
497834514958536705 - @wolfwitte ich schätze mal das funktioniert als eine art psychoökonomischer wash (hab mir das angetan und stelle mit lob/hohn ausgleich her)
497349039458099200 - semiprotipp: moocs wenn möglich im ersten run machen, ab dem 2ten laufen sie öfter als nicht in autopilot.
datasci-2122 -
I can recommend Data Analysis and Statistical Inference https://www.coursera.org/course/statistics here on Coursera which also comes with a book http://www.openintro.org/stat/?stat_book=os and starts again in September.
As for the Data Science specialization from Johns Hopkins: the courses are not expected to be taken simultaneously, they are offered every month. I don't want to judge the quality but be prepared for a bumpy ride and various levels of difficulty starting from trivial (the 'toolbox' course can be done on a weekend) to unreasonable if you don't already have a solid background in the topic (the 'statistical inference' course got more dislikes than Giovanni's classic https://class.coursera.org/datasci-002/forum/thread?thread_id=36 and left many people frustrated) If you know a bit of R it's still a good place to pick up concepts and tricks though.
496682265716731904 - (wenn empfehlungsalgorithmen zu gut funktionieren fühle ich mich geschmackstechnisch immer ein bisschen gedemütigt)
496606803073835008 - @blicklog kann ich als trend in den eigendarstellungen von startups nicht bestätigen, mich dünkt das verwenden eher die blogger/journalisten
496260018170519552 - protipp: 'spannend' oder 'interessant' oder 'lesenswert' sollte bei getwitterten links implizit sein.
495584469857079298 - uff, heute seit etwa 9 stunden eine unmenge nicht wichtiger, nicht dringlicher widgets gecrank't.
495550522062278656 - @jkrisch da musst du ein bisschen aufpassen; du weißt ja nicht, wie viele da den guido maria kretschmer erwartet haben.
2014.07
Netzriesen verschärfen die Depression der App-Ökonomie -
hmm, ich bin kein Verhaltensforscher, aber ich kann mir schwer vorstellen, dass die Anzahl an durchschnittlich benutzten Apps eine anthropologische Konstante ist. Wie und wofür wir unser Handy verwenden pendelt sich, würde ich eher vermuten, eine Ebene darüber, also bei den konkreten Aktivitäten und 'jobs to be done', ein und die Anzahl an dabei verwendeten Apps ist halt der Nebeneffekt davon.
(wobei das Unbundling sicherlich irgendwelche Effekte hat. Für jeden Einzelnen kann sich die Aufmerksamkeitsverteilung verschieben, u.U. aber nicht notwendigerweise auf Kosten anderer Apps; sie nehmen damit ja wahrscheinlich einen Platz in den Top-Charts ein und verschieben damit die Sichtbarkeit von anderen Apps nach unten; usw.)
datasci-1903 - It's actually quite easy to develop and test the pig-scripts locally, see Ge Peng's instructions in this thread: https://class.coursera.org/datasci-002/forum/thread?thread_id=1754#post-8530
(Pig obviously includes Hadoop and can be run locally out of the box; i.e. there is no need for a VM if Java is installed)