walking in la

^ map, die gefährliche kreuzungen in los angeles visualisiert.

on the road

^ nützlich: eine Art Map der Literature’s Most Epic Road Trips

The dataset is ~1.7 billion JSON objects

^ falls es jemanden juckt: es gibt ein dataset mit allen öffentlichen kommentaren auf reddit.

Government at a Glance provides readers with a dashboard of key public sector indicators

^ eher devoha: Government at a Glance 2015 – eine Art Dashboard mit Kennzahlen aus dem öffentlichen Sektor.

MDG

mdg 1

was aus den millennium development goals geworden ist: What have the millennium development goals achieved?

klima 1880-2014

^ ganz gut gemachte interaktive Visualisierung des Klimawandels von Bloomberg.

birds

^ sogar vögel werden überwacht: Using CartoDB to visualize how far birds migrate in a single night

migrants files

^ klingt nach einem ambitionierten Projekt: The Migrant Files – eine Art Projekt, das diverse gesellschaftspolitische Situationen data-driven dokumentiert und visualisiert.

terminal

^ gelegentlich nützlich: man kann auch im Terminal pdf’s ganz einfach mergen:

"/System/Library/Automator/Combine PDF Pages.action/Contents/Resources/join.py" -o output.pdf part-1.pdf part-2.pdf ...

google trends datastore

aha, Google publiziert jetzt anscheinend selektive Datensets von Google Trends (ann)

la

^ nicht buzzfeed sondern busfeed für LA: Aggregate data from LA realtime bus feed (via)

merkel kopfteil

kinda funny: big data bekommt mit angela merkel eine unerwartete fürsprecherin:

Germans need to overcome their traditional fear of the large-scale collection of personal data by companies and instead embrace its opportunities or risk being marginalized in the global economy

‘Many jobs will disappear because they can be replaced by machines,’ said Merkel. ‘But I’m convinced that many more jobs will be created through the value of data.’

google stack

^ ein student namens malte schwarzkopf hat den stack von google in eine übersichtliche grafik gepackt [pdf].

BTS

vom konzept her spannend, wenn es funktioniert: Bayesian truth serum – eine art bewertungssystem für situationen, in denen es keine möglichkeit gibt zu überprüfen, ob aussagen wahrheitsgemäß gemacht werden, der aussagende über das ausgesagte überhaupt kenntnis hat, usw. (basiert anscheinend irgendwie auf der korrelation von metaaussagen).

routinen

^ berühmte kreative selbstquantifiziert: the daily routines of famous creative people

colors

^ ganz interessant: Blue is the new orange – eine Art Visualisierung der Popularität von Farben in Gemälden.

(via)

Otto Group Product Classification Challenge

^ ganz interessant: Otto hat gerade eine Kaggle Competition

For this competition, we have provided a dataset with 93 features for more than 200,000 products. The objective is to build a predictive model which is able to distinguish between our main product categories. The winning models will be open sourced.

amazon machine learning

^ Amazon hat eine Art Service für Machine Learning vorgestellt: Amazon Machine Learning (ann)

(interessant ist es, soweit ich sehe und das beurteilen kann, nicht so sehr wegen einer vermutbaren qualität – i.e. man wird damit keine kaggle competition gewinnen, es gibt gerade mal binary classification, multiclass classification und regression und bei allen verfahren nur ein paar schrauben, mit denen man die internen algorithmen tunen kann – aber doch wegen der infrastrukturellen unverbindlichkeit und skalierbarkeit für bereiche, in denen einfache klassifikationen gut genug sind)

data drop

^ untested aber super: Wolfram Data Drop :

The Wolfram Data Drop is an open service that makes it easy to accumulate data of any kind, from anywhere – setting it up for immediate computation, visualization, analysis, querying, or other operations.

jq

jq

^ nützlich: jq – eine Art sed für json.

(h/t)

« vorher    nachher »