John Doe et Jhon Doe sont dans un bateau : la magie derrière l'Entity Resolution

En 1930, un détective explore l'Entity Resolution à travers deux identités similaires, illustrant le défi de fusionner des bases de données clients. Découvrez comment le modèle Fellegi-Sunter, avec la bibliothèque Splink, clarifie ce concept crucial en Data Science, souvent limité à des règles heuristiques fragiles, à travers un exemple concret.

talk.summaryAiDisclaimer

Arnaud EsteveShift Technology

talkDetail.whenAndWhere

Thursday, April 17, 10:30-11:15

Paris 242AB

talks.description

1930, un bureau miteux de downtown LA, devant vous deux dossiers ouverts:John Doe, né le 12 avril 1902, résidant sur la 5ème avenueJhon G. Doe, né le 4 décembre 1902, localisé près de ManhattanC'était sous vos yeux depuis le début : Et si ces deux personnes n'en étaient qu'une seule ? Avez-vous déjà essayé de fusionner plusieurs bases de données client ? Tenté de consolider un catalogue interne avec des données publiques ?Alors vous avez été confronté à un problème d'Entity Resolution ! C'est normal : ce problème devient omniprésent à mesure que les données prolifèrent tandis que leur qualité reste inégale. En pratique pourtant, les solutions se limitent souvent à des règles heuristiques fragiles...Mais alors comment le résoudre correctement ?En filant la métaphore de notre détective privé, nous partirons de notre intuition pour introduire la méthode d'Entity Resolution la plus répandue : le modèle de Fellegi-Sunter.A l'aide d'un exemple concret et de la bibliothèque open source Splink, nous en explorerons les concepts de la théorie à la pratique.L'objectif ? Démystifier des concepts parfois obscurs mais pourtant fondamentaux de Data Science.

entity

resolution

fellegi-sunter

splink

talks.speakers

Arnaud Esteve

Shift Technology

France

Software Engineer tombé dans la Data par accident, j'aime partager mes expériences passées, les patterns que j'ai rencontrés, certaines bonnes mais aussi beaucoup de mauvaises idées que j'ai pu avoir par le passé.

Qu'il s'agisse de sujets d'architecture de données, de bonnes et mauvaises pratiques avec Apache Kafka ou Apache Spark, de projets de migrations, tout est bon à partager et vulgariser pour que d'autres ne fassent pas les mêmes erreurs, gagnent du temps, ou se passionnent pour des sujets qui le méritent.