Session 4

Session 4 : Données, traitements, contributions et délibérations

Mercredi 20 décembre – 15h00 – 18h30

Les données sont de plus en plus prescrites en vue de leurs traitements automatisés – à la différence de ce qui caractérisait la liberté apportée en son temps (1993) par HTML et le world wide web. Rien pourtant n’oblige à tout livrer aux quantifications probabilistes, aux chaînes de Markov et aux corrélations extraites des “big data” sous forme de patterns. Si la lutte contre l’entropie – que le pharmakon cybernétique risque évidemment d’aggraver considérablement avec les nouvelles avancées de l’intelligence artificielle généralisée, devenant ainsi bêtise artificiellement généralisée – est bien l’enjeu que pointait Wiener il y a près de 70 ans en affirmant la nécessité de reconsidérer et de réaffirmer la précellence des savoirs humains à l’ère cybernétique, il est urgent de relancer une politique de recherche et de développement alternative à une logique de plateforme devenue ravageuse aussi bien pour l’économie et la société que pour les savoirs sous toutes leurs formes. Cette dernière session permettra de montrer comment le territoire apprenant contributif de Plaine Commune met ces questions au cœur de ses projets.

Intervenants

John Kelleher & Noel Fitzpatrick (Dublin)

“Biaisé par le design”

L’objectivité (ou l’équité) promise des data-driven-decisions (DDD) – décisions basées sur l’analyse de données et du machine learning (apprentissage automatique) – doit être fondamentalement remise en question. En 2017, la Graduate School of Creative Arts and Media (GradCAM) a été invitée à répondre à un appel à projets international dans le cadre du thème «Utopie de l’accès» au Pavillon de recherche (soutenu par l’Université des Arts Helsinki) pendant la biennale de Venise 2017. Dans le cadre de l’exploration du concept d’accès utopique, GradCAM s’est engagé à interroger le concept de données comme une fausse promesse d’accès. Les interventions artistiques, les performances et les séminaires ont été organisés par le Dr. Noel Fitzpatrick et le Dr. Brian Fay, l’intervention artistique de Jeannette Doyle (GradCAM Phd Scholar) a été proposée comme projet biennal autonome représentant plus de 100 artistes, chacun pouvant décider de représenter n’importe quel pays de la façon qu’ils aient jugé opportun. La problématique sous-jacente, celle de rendre le matériel présent par des processus dématérialisés, était au cœur de cette intervention. Cependant, la question de la pratique de la conservation elle-même s’est posée sous la possibilité de développer un biais algorithmique qui choisirait le travail à présenter. Cela a été utilisé pour remettre en question la présupposition selon laquelle l’utopie de l’accès pouvait être obtenue à travers le big data.

Il y a une présupposition pour laquelle les données sont neutres et donc que les DDD sont exemptes de subjectivité et de partialité. Cette présupposition est renforcée lorsque des appellations telles que « Big Data », « machine learning » et « data science » sont invoquées, et présente des parallèles avec les comptes rendus populaires des médias sur la « fin de la théorie » (voir par exemple l’article de Chris Andersen publié en 2008 sur la revue Wired). Les DDD conduisent souvent à de meilleurs résultats. Cependant, croire que cela est causé grâce à l’exclusion des préjugés est à la fois naïf et dangereux. Il est naïf dans la mesure où il nous ouvre à être trompés par des arguments basés sur une analyse fallacieuse des données et dangereux dans la mesure où nous pouvons être trop confiants dans nos propres conclusions lorsqu’une analyse soutient nos préjugés. L’apprentissage automatique (machine learning) est le domaine de recherche qui traite les algorithmes de conception et d’évaluation qui extraient des patterns à partir des données (Kelleher et Tierney, 2018). Une condition préalable à toute analyse algorithmique des données est que le concepteur de l’algorithme doit coder une préférence (un biais) dans les algorithmes vers certains types de patterns.

Dans le domaine du machine learning, le concept d’apprentissage est compris comme induisant une règle générale (ou un modèle, un pattern) à partir d’un ensemble de données qui généralisent (ou qui s’appliquent à) des exemples qui ne sont pas dans l’ensemble de données. Compris de cette manière, l’apprentissage ne peut pas se produire sans biais : un algorithme qui n’a pas de préférences intégrées pour certaines formes de modèles ne peut pas être abstrait à partir des données et est donc réduit à la mémorisation d’un ensemble de données. Cependant, le biais inductif n’est pas la seule forme de biais pouvant affecter l’analyse d’un ensemble de données. La conception et l’échantillonnage de tout ensemble de données introduisent un biais dans l’analyse des données. Considérez les choix subjectifs qui doivent être faites en termes de caractéristiques d’un domaine et qui doivent être incluses dans un ensemble de données, de la façon dont ces caractéristiques seront mesurées et de l’échantillon d’exemples qui sera inclus (ou exclu) d’un ensemble de données. Un biais particulièrement important (et problématique) dans la science des données est le biais de l’échantillon. Ce dernier se produit chaque fois qu’un ensemble de données est collectées de telle sorte qu’une partie de la population est moins susceptible d’être incluse. Lorsqu’un biais d’échantillonnage est présent, toute analyse d’un ensemble de données – censées décrire ou expliquer les tendances au sein de la population concernée – est fondamentalement erronée. Un biais d’échantillonnage biaisera toute analyse basée sur un ensemble de données quelle que soit la forme d’analyse appliquée. Ce sont les préjugés, tels que les biais d’échantillonnage, qui donnent du crédit à l’adage anglais qui récit : mensonges, maudits mensonges et statistiques (en anglais : lies, damned lies and statistics).

Dans le contexte du machine learning et de la science des données, une distinction importante est faite entre les biais qui sont nécessaires (par exemple un biais inductif) et d’autres biais de formes plus pernicieux (comme le biais d’échantillonnage). Cependant, étant donné la variété des biais qui affectent la science des données, il est inquiétant que le machine learning (et ses termes associés) soient souvent présentés comme des badges d’objectivité. En vérité, il vaut mieux comprendre le machine learning non comme objectif mais plutôt comme amoral. Un algorithme d’apprentissage automatique ne prend pas en compte les implications éthiques d’un modèle, il va simplement trouver et utiliser les modèles dans une donnée qui correspond au biais codé dans l’algorithme et introduit par la conception et l’échantillonnage de l’ensemble de données. Cependant, les ensembles de données sont intrinsèquement (partiellement) des modèles historiques du monde et les modèles dans les données reflètent les processus dans le monde. Par conséquent, les décisions basées sur des données basées sur une analyse algorithmique ont le potentiel d’identifier, reproduire et renforcer les préjugés qui existent historiquement et actuellement dans le monde duquel les données ont été tirées.

Jean-Pierre Girard, archéologie (MOM)

Big data et « société de la connaissance » : entre intégration et revanche de la multitude

L’archéologie et l’histoire, sous couvert de l’étude de « faits et témoignages » ou de la découverte de sites et d’artefacts irrétutablement « matériels », ne sont pas moins que l’astrophysique, par exemple, fondée sur l’interprétation de données primaires mises en représentation intellectuelle, graphique ou techno-numérique. Devenue scientifique, cette représentation acquiert un statut de vérité qui n’est ainsi pas moins magique que celle issue d’une intelligence artificielle, pour le public tenu à l’écart de son élaboration.
Dans un parallèle frappant avec les questions soulevées par l’interdisciplinarité, l’enjeu ultime de la médiation scientifique va donc au-delà de la déconstruction des tenants et aboutissants d’une connaissance ; il est de mettre la « multitude » en capacité de co-construire et de contribuer aux dispositifs d’élaboration de celle-ci, puis d’en partager les résultats et les bénéfices avec les « savants corporatifs ».

Thibault d’Orso, informatique (Spideo)

Data Protection for Recommender Systems: Obstacle or Opportunity?

Dans le secteur des nouveaux médias, les données personnelles des utilisateurs sont très précieuses. Particulièrement quand il s’agit de nourrir les systèmes de recommandation et les processus d’apprentissage machine. Alors que la protection des données est perçue comme un obstacle par certains, nous pensons que c’est en fait une opportunité de sécuriser les technologies de l’IA et de leur permettre de servir l’intelligence humaine.

Warren Sack, artiste, software studies (UC Santa Cruz) (en vidéo)

Algorithmes et erreurs

Dans son livre Stupidity (University of Illinois Press, 2002), Avital Ronell nous rappelle qu’en philosophie, «la plupart du temps, la bêtise a été assimilée à l’erreur et aux préoccupations épistémologiques dérivées. […] Le concept d’erreur ne peut cependant pas rendre compte de l’unité de la stupidité et de la cruauté ou du rapport du tyran à l’imbécile »(p.20). Pourtant, je soutiendrai que même si le concept d’erreur n’est pas suffisant, l’automatisation – en particulier la formalisation et la mise en œuvre d’algorithmes pour éliminer les erreurs de pensée et de production – peut expliquer la stupidité et la cruauté. Je rendrais compte de l’importance industrielle et intellectuelle croissante des algorithmes, en particulier des calculs arithmétiques, qui a conduit Charles Babbage, au XIXe siècle, à se demander s’ils pouvaient être produits par une machine et ainsi réalisées plus rapidement et avec moins d’erreurs qu’à la main. Cette volonté d’automatiser les gens au XIXe siècle a paradoxalement conforté une image de l’histoire antérieure des algorithmes dans leurs fondements contemporains: Alan Turing et Donald Knuth, au XXe siècle, ont tous deux basé leur conception de l’algorithme sur une image d’un homme avec du papier et un stylo et qui aurait pu être emprunté à une école de comptabilité vénitienne du XIVe siècle. Plus l’arithmétique est devenue importante pour le capitalisme (marchand, puis industriel, financier et linguistique), plus des activités comme « apprendre » – ont été transcrites en algorithmes arithmétiques. Nous devons nous demander, comme l’a fait le philosophe Herbert Marcuse à propos du capitalisme industriel, qui est cet homme unidimensionnel si dépourvu de pensée critique et de facultés d’opposition – placé au centre du capitalisme contemporain et de ses algorithmes? Et que se passerait-il si nous concevions des systèmes d’inclusion au lieu de systèmes d’exclusion et d’isolement?