Hadoop è la principale implementazione open source di MapReduce, il paradigma di calcolo distribuito su larga scala di Google. L'API nativa di Hadoop è in Java e le opzioni built-in per la programmazione in Python -- Streaming e Jython -- presentano diversi inconvenienti: la prima consente di accedere solo a un piccolo sottoinsieme delle funzionalità di Hadoop, mentre la seconda ha tutte le limitazioni di Jython rispetto a CPython.
Pydoop (http://pydoop.sourceforge.net) è un'API per Hadoop che rende disponibile buona parte delle funzionalità di Hadoop al programmatore Python, consentendo lo sviluppo in CPython. I suoi moduli di base sono wrapper Boost.Python per l'interfaccia C/C++ di Hadoop.
Il talk consiste in un tutorial su MapReduce/Hadoop e in una presentazione dell'API Pydoop, con l'obiettivo principale di avvicinare le community di Hadoop e Python. Può essere utile, anche se non strettamente necessaria, una conoscenza di base della programmazione distribuita.
128 more videos from EuroPython 2011
Sign in to add slides, notes or videos to this session