enthalten und implizit ausgeführt hier.

apache pig

der dokumentarischen vollständigkeit halber:

hatte im rahmen von dem semibigdata-kurs der university of washington auf coursera gestern und heute das erste mal handkontakt mit ec2 resp. elastic mapreduce (amazon’s infrastruktur für mapreduce/hadoop).

vorbereitend muss man

(a) ein account anlegen, da beginnt man hier und klickt sich durch (man kann ein bestehendes amazon account verwenden, man muss aber auch für den free tier eine kreditkarte angeben und eine telefonnummer via pin verifizieren).

(b) für jede aws-zone, die man verwenden möchte, ein key pair für ssh generieren. den privaten key bewahrt man als keyname.pem lokal irgendwo auf.

zum anlegen eines clusters für elastic mapreduce

(1) geht man dann zur management console,
(2) klickt auf ‘create cluster’ und ändert dort ggf. die defaults (wenn man nicht weiss, was man tut, lässt man sie am besten wie sie sind)
(3) definiert unter ‘hardware configuration’ die art und anzahl an ec2 instanzen, die man gerne hätte (einen master node + x core oder task nodes)
(4) verbindet unter ‘security and access’ den oben generierten key
(5) klickt nochmal auf ‘create cluster’ und wartet, bis sich auf der nächsten seite der status von ‘starting’ in ‘running’ ändert. dort sieht man neben ‘master public dns’ dann auch die adresse vom cluster (in richtung ec2-xxx-xxx-xxx-xxx.yyy.compute.amazonaws.com).

und 5 minuten später hat man einen laufenden cluster mit bis zu 20 nodes. mit

ssh -o "ServerAliveInterval 10" -i keyname.pem ec2-xxx-xxx-xxx-xxx.yyy.compute.amazonaws.com

kann man dann ein terminal zum cluster öffnen, mit

ssh -L 9100:localhost:9100 -L 9101:localhost:9101 -i keyname.pem hadoop@ec2-xxx-xxx-xxx-xxx.yyy.compute.amazonaws.com

kann man den cluster und die laufenden hadoop jobs im lokalen browser der wahl monitoren.

mit dem ‘terminate’ button in der ‘management console’ kann man den cluster dann wieder terminieren, abgerechnet wird nach angebrochener stunde der eingesetzten instanzen, siehe die preisliste (nur als ballpark: mit 5-10 euro kann man schon einen cluster mit grösserer hardware starten und locker ein TB prozessieren, einen 10-node cluster mit kleinsten maschinen kann man schon für 15c/h betreiben).

unterm strich schon irre, wie leicht es also auch für administrative dummies ist, die finger auf rechenkapazitäten zu bekommen, vor allem wenn man die daten schon irgendwie in S3 hat, die scheinen mir der grösste flaschenhals zu sein; das terminal muss man allerdings wohl trotzdem gesehen haben und an pig als abstraktion für hadoop muss man sich wohl heranarbeiten.

nts ein paar gängige commands rund um hadoop/pig:

hadoop fs -mkdir /user/hadoop

legt auf dem cluster das verzeichnis für das HDFS file system an.

hadoop fs -getmerge /user/hadoop/job1 job1

merg’t und kopiert das ergebnis eines mapreduce jobs ins lokale verzeichnis des clusters.

scp -o "ServerAliveInterval 10" -i keyname.pem hadoop@ec2-xxx-xxx-xxx-xxx.yyy.compute.amazonaws.com:/home/hadoop/job1 .

kopiert dieses file dann auf den eigenen rechner.

pig
grunt>

mit pig kommt man ins pig prompt grunt.

grunt> raw = LOAD 's3n://uw-cse-344-oregon.aws.amazon.com/btc-2010-chunk-000' USING TextLoader as (line:chararray);

^ die zu prozessierenden daten kann man zb direkt aus S3 laden

wget http://uw-cse-344-oregon.aws.amazon.com.s3.amazonaws.com/btc-2010-chunk-000
hadoop fs -copyFromLocal btc-2010-chunk-000 /user/hadoop/btc-2010-chunk-000
pig
grunt> raw = LOAD '/user/hadoop/btc-2010-chunk-000' USING TextLoader as (line:chararray);

^ oder man importiert sie zuerst ins HDFS.

grunt> store hadoop_object into '/user/hadoop/job1' using PigStorage();

speichert das ergebnis im HDFS.

wenn man auf S3 ein bucket angelegt hat, kann man das ergebnis des hadoop jobs auch direkt in S3 schreiben (was natürlich nützlich ist, wenn man cluster nach bedarf startet und stoppt):

grunt> store hadoop_object into 's3n://bucketname/job1';

correctiv

^ untested: correctiv (Recherchen für die Gesellschaft) – möchte anscheinend eine Art semidatengetriebes Journalismusprojekt werden.

mittlerweile schon wieder devoha: ein paar Visualisierungen der WM Dataflows von Google und Twitter:

google data

» die WM in Suchen bei Google

» die WM in Google Trends

twitter data

» die WM als globale Konversation bei Twitter

» die WM als Einsichten von Twitter

» das Raunen und Rauschen des Finales

facebook data

Bonuslink: Facebook hat die Migrationen der Fans visualisiert:

» Support Flow

» World Cup Fan Migration

5000 km

(siehe 3000km, 1000km, 750 km, siehe auch hackr_fitbit)

yahoo route

^ yahoo maps vl. bald mit der option auf schöne (und nicht nur schnelle) routen.

580,166 TPM

^ der dokumentarischen voha: twitter hat gestern nach dem 5:0 von ger vs. bra mit 580k tweets/min einen neuen rekord aufgestellt (dürfte am so wohl noch überboten werden).

Meistens, wenn ich eine Frage gestellt bekomme (selbst wenn sie mich berührt), wird mir klar, dass ich absolut nichts zu sagen habe.

- Deleuze, Dialoge, S. 9.

^ abt. heute vor einem jahr

Note: Ich spiele mich gerade mit dem Design der Startseite herum, hier nur die letzten 8 Einträge. Die normale Pagination mit jeweils 20 Einträgen pro Seite gibt es wie bisher bei live.hackr.

Inhaltsverzeichnis

Einige Ein- und Ausgänge von hackr.de.

teilweise under construction

Subblogs

  • data.hackr
    - das derzeit betriebene Subblog.
  • live.hackr
    - das Hauptblog. Wer hier neu ist, fängt am besten hier an. Macht derzeit aber ein Sabbatical.
  • chronicle
    - ein Strom an News direkt von den Company-Blogs.
  • news
    - ein Strom an Blogposts mit Nachrichten.
  • shared
    - ein Strom an Blogposts mit lesenswerten Artikeln.
  • worldwide
    - ein Strom meiner Aktivitäten jenseits von hackr.de.
  • twitter nuts
    - ein Subblog mit neuen Twitter-Apps. (derzeit inaktiv)
  • hackr.tv
    - ein Subblog mit Videos.
  • hackr.fm
    - ein Subblog mit Podcasts. (derzeit inaktiv)

Kategorien

Suchen

Für Suchen im Blog empfehle ich die integrierte Suche – ein Suchfeld befindet sich fast auf jeder Seite im Blog. Weitere Suchmöglichkeiten sind:

  • hackr search by google
    - eine CSE in hackr.de. Ein Vorteil gegenüber der integrierten Suche ist, dass sie via Google betrieben wird und also auch die Suchsyntax von Google unterstützt.
  • hackr.search
    - eine CSE in 100+ deutschsprachigen Webtechblogs.
  • momb.search
    - eine CSE in 100+ internationalen Webtechblogs.

Misc

Metacollection

Eine Sammlung zu Serien, Miniseries, Yearlies und Sammlungen.

Selection

Empfehlungen aus den jeweiligen Jahrgängen auf einer Seite.

Editorial

Series

Miniseries

Yearlies

Worldwide

Misc

Archiv

2014:

juli, juni, mai, april, märz, februar, januar

2013:

dezember, november, oktober, september, august, juli, juni, mai, april, märz, februar, januar

2012:

dezember, november, oktober, september, august, juli, juni, mai, april, märz, februar, januar

2011:

dezember, november, oktober, september, august, juli, juni, mai, april, märz, februar, januar

2010:

dezember, november, oktober, september, august, juli, juni, mai, april, märz, februar, januar

2009:

dezember, november, oktober, september, august, juli, juni, mai, april, märz, februar, januar

2008:

dezember, november, oktober, september, august, juli, juni, mai, april, märz, februar, januar

2007:

dezember, november, oktober, september, august, juli, juni, mai, april, märz, februar, januar

2006:

dezember, november, oktober, september, august, juli, juni, mai, april, märz, februar, januar

2005:

dezember, november, oktober, september, august, juli