by Simone Leo
Hadoop è la principale implementazione open source di MapReduce, il paradigma di calcolo distribuito su larga scala di Google. L'API nativa di Hadoop è in Java e le opzioni built-in per la programmazione in Python -- Streaming e Jython -- presentano diversi inconvenienti: la prima consente di accedere solo a un piccolo sottoinsieme delle funzionalità di Hadoop, mentre la seconda ha tutte le limitazioni di Jython rispetto a CPython.
Pydoop (http://pydoop.sourceforge.net) è un'API per Hadoop che rende disponibile buona parte delle funzionalità di Hadoop al programmatore Python, consentendo lo sviluppo in CPython. I suoi moduli di base sono wrapper Boost.Python per l'interfaccia C/C++ di Hadoop.
Il talk consiste in un tutorial su MapReduce/Hadoop e in una presentazione dell'API Pydoop, con l'obiettivo principale di avvicinare le community di Hadoop e Python. Può essere utile, anche se non strettamente necessaria, una conoscenza di base della programmazione distribuita.
by Simone Leo
Hadoop is the leading open source implementation of MapReduce,
Google's large scale distributed computing paradigm. Hadoop's native
API is in Java, and its built-in options for Python programming --
Streaming and Jython -- have several drawbacks: the former allows to
access only a small subset of Hadoop's features, while the latter
carries with it all of the limitations of Jython with respect to
CPython.
Pydoop (http://pydoop.sourceforge.net) is an API for Hadoop that makes
most of its features available to Python programmers while allowing
CPython development. Its core consists of Boost.Python wrappers for
Hadoop's C/C++ interface.
The talk consists of a MapReduce/Hadoop tutorial and a presentation of
the Pydoop API, with the main goal of bridging the gap between the
Hadoop and Python communities. A basic knowledge of distributed
programming is helpful but not strictly required.