LCC 115 - Interview de Sam Bessalah sur la data science, Hadoop et Mesos - a podcast by Emmanuel Bernard, Guillaume Laforge, Vincent Massol, Antonio Goncalves, Aud

from 2014-12-22T09:35:40

:: ::

Dans cet épisose, on discute avec Sam Bessalah de ce “nouveau” métier qu’est le data scientist. On explore aussi l’univers Apache Hadoop et l’univers Apache Mesos. Ces endroits sont pleins de projets aux noms bizarres, cette interview permet de s’y retrouver un peu dans cette mythologie.


Enregistré le 16 decembre 2014


Téléchargement de l’épisode LesCastCodeurs-Episode–115.mp3


Interview


Ta vie, ton oeuvre


@samklr
Ses présentations, encore ici et


Data scientist


Kesako ?!
C’est nouveau ? On a toujours eu des données pourtant dans nos S.I. ?!
Le job le plus sexy du 21eme siecle ?
Drew conway’s Data Science Venn diagram


Traiter les données, les plateformes


MapR, Hadoop, … C’est Quoi ? C’est nouveau ? Ca vient d’où ? Comment ça marche ? A quoi ça sert ?


Ca s’intègre à tout ? Et nos sources de données legacy (Mon bon vieux mainframe et son EBCDIC) ?


Où sont passés mes EAI, ETL, et autres outils d’intégration B2C/B2B ?


EAI
ETL
EBCDIC
BI (Business Intelligence)


Hadoop


MapReduce
Doug Cutting
Apache Lucene - moteur de recherche full-text


Apache Hadoop - platforme de process distribués et scalables
HDFS - système de fichier distribué
Apache Hive - datawarehouse au dessus d’Hadoop offrant du SQL-like
Terradata
Impala - database analytique (“real time”) SQL queries etc
Apache Tez - directed-acyclic-graph of tasks
Apache Shark remplacé par Spark SQL
Apache Spark - Spark has an advanced DAG execution engine that supports cyclic data flow and in-memory computing
Apache Storm - process de flux de données de manière scalable et distribuée


Data Flow
Machine Learning - apprendre de la donnée


Graph Lab


Et l’infrastructure dans tout ça ?


De nos bons vieux serveurs qui remplissent les salles machines au cloud (IAAS, PAAS), en passant par la virtualisation (), les conteneurs (XLC, Docker, …) …. Des ressources à gogo c’est bien mais comment les gérer ?


YARN


Apache Mesos


Apache Mesos
Comment démarrer Mesos
Tutoriaux
Data Center OS de Mesosphere
Presentation de Same à Devoxx sur Mesos
Mesos et les container docker
Cluster Management and Containerization by Benjamin Hindman
Integration continue avec Mesos par EBays


Docker


Docker
Démarrer un cluster Spark avec Docker
Shell Spark dans Docker
Docker et Kubernetes dans Apache Hadoop YARN
Cluster Hadoop sur Docker
Docker, Kubernetes and Mesos


cgroups
LXC
Docker vs LXC
Marathon
Chronos
Code de Chronos
Aurora


Kubernetes
Kubernetes workshop


Oscar Boykin
Scalding
Présentation Scala + BigData et une autre
Apache Ambari


Comment je m’y mets ?


Comment devient-on data scientist ? (se former, ouvrages de références, sources d’infos, …) Mesosphere


Cours de Andrew Ng sur le Machine Learning
Introduction to data science sur Coursera
Kaggle
MLlib
Mahoot
R
Scikit-learn (Python)
Machine Learning pour Hackers (livre)
Scala TypeSafe Activator


iPython NoteBooks
Autres référence iPython NoteBooks
Notebooks temporaires en line - démarre un container docker sur rackspace gratuitement (pour vous)
Des notebooks
Parallel Machine Learning with scikit-learn and IPython
Visualiser les notebooks en ligne sans les télécharger
Spark / Scala notebooks for web based spark development
http://zeppelin-project.org/
Spark et Scala avec un notebook ipython


Nous contacter


Contactez-nous via twitter http://twitter.com/lescastcodeurs
sur le groupe Google http://groups.google.com/group/lescastcodeurs
ou sur le site web http://lescastcodeurs.com/
Flattr-ez nous (dons) sur http://lescastcodeurs.com/
En savoir plus sur le sponsoring? sponsors@lescastcodeurs.com

Further episodes of Les Cast Codeurs Podcast

Further podcasts by Emmanuel Bernard, Guillaume Laforge, Vincent Massol, Antonio Goncalves, Aud

Website of Emmanuel Bernard, Guillaume Laforge, Vincent Massol, Antonio Goncalves, Aud