Les données personnelles issues du web, mine d'or pour les sciences sociales ?

mam80 · 13 Mars 2018

Un économiste de l'université de Stanford travaille sur une étude à partir de data que lui a transmises Facebook.

Les traces laissées par nos activités en ligne s'avèrent être une base de données inédite pour la recherche en sciences sociales.

Depuis plus de six mois, Raj Chetty, un économiste de Stanford, travaille sur une étude pour mieux comprendre le lien entre les inégalités économiques et les réseaux de relations sociales.

Pour cela, Facebook lui a transmis les données personnelles de ses utilisateurs américains et canadiens.

Cela représente plus de 239 millions de comptes et un nombre d'informations impossible à estimer sur leurs interactions sociales, le temps passé sur Internet, leurs centres d'intérêt, et même leur niveau de revenu.

Les informations collectées sur le Web représentent en effet une base de données inédite pour la recherche. D'après le docteur en sociologie, Dominique Boullier, elles sont des “données de troisième génération” pour les sciences sociales. Il fait référence aux différentes étapes de la sociologie, d'abord fondée sur les informations obtenues via le recensement organisé par l'État dès le début du XIXe siècle, puis sur les données issues des sondages, qui consistent à interroger directement un échantillon représentatif de la population. Ces dernières représentent les données de deuxième génération.
De nouvelles perspectives pour les sciences sociales
Les données issues du Web présentent des avantages vis-à-vis des générations précédentes. Elles sont traçables et non déclaratives, comme le souligne Julien Boyadjian, chercheur au Centre d'études et de recherches administratives, politiques et sociales (CERAPS) et auteur d'une thèse sur l'analyse des opinions politiques sur Internet.
Cela signifie qu'elles sont délivrées volontairement et spontanément, contrairement aux sondages où les réponses peuvent être altérées par la façon dont les questions sont construites ou par la présence même d'un interlocuteur.
Pour Dominique Boullier, les traces laissées par nos activités sur le Web ouvrent de nouvelles perspectives sur la façon de faire des sciences sociales.
Elles permettent, par exemple, d'étudier les phénomènes de réplication et de propagation d'une idée sur les réseaux sociaux. C'est d'ailleurs sur ces données que s'appuient des entreprises comme Linkfluence et son logiciel Radarly.
Celui-ci recense et traite en temps réel tous les messages diffusés publiquement sur les réseaux sociaux et les médias pour en déduire les tendances de l'opinion publique.
Dans le cadre d'une élection, par exemple, il devient possible d'analyser quel candidat plaît à quelle frange de la société.
.../...

mam80 · 13 Mars 2018

suite et fin

«Leur quantité est telle qu'on ne sait pas où elles s'arrêtent»
Néanmoins, les données issues du Web ne sauraient se substituer entièrement aux données de deuxième génération, explique Dominique Boullier. D'une part, parce que leur nature est différente et, d'autre part, parce qu'elles ont aussi leurs biais. Pour étudier des phénomènes individuels par exemple, mieux vaut préférer les données issues des sondages à celles issues du Web.
En effet, ces dernières ne peuvent pas être étudiées de manière exhaustive: leur quantité est telle qu'on ne sait pas où elles s'arrêtent. Il est donc impossible de toutes les prendre en compte. Par ailleurs, elles ne sont pas toujours représentatives.
Les informations d'une personne sur le Web ne reflètent pas systématiquement la réalité. «On peut avoir une poignée de relations sur les réseaux sociaux, mais beaucoup plus dans la vraie vie.», explique Julien Boyadjian. Enfin, il n'est pas toujours possible d'y accéder. L'accès à ces “traces” peut en effet être restreint, soit par la plateforme qui les abrite, soit par le sujet lui-même. Par exemple, en raison du mode de fonctionnement des réseaux, les traces laissées sur Twitter sont moins nombreuses mais plus accessibles (à condition que le compte soit public) tandis que les données issues de Facebook sont extrêmement nombreuses mais difficiles d'accès.
Question de l'égalité dans la recherche
Dans le cas de l'étude réalisée par Raj Chetty grâce aux données transmises par Facebook, Dominique Boullier concède que leur nombre est tel qu'il devient possible d'enquêter sur des trajectoires individuelles.
«Avec le volume de données dont dispose Facebook, on passe à une autre échelle» explique-t-il. Du point de vue méthodologique, cette étude ne semble donc pas poser problème. Elle peut en revanche soulever certaines questions éthiques.
Car même si ces données sont anonymisées, aucun internaute américain ou canadien n'a consenti à leur fournir pour cette étude.

En France, cela ne serait pas possible en raison des règles imposées par la Commission nationale de l'informatique et des libertés, souligne Julien Boyadjian. Et pour cause: «Avec six données, on est capable d'identifier un internaute», explique Dominique Boullier pour souligner le problème soulevé en termes de confidentialité.

Enfin, vient la question délicate de l'égalité dans la recherche. «Pourquoi Facebook ne donne-t-il pas accès à ces données à tous les chercheurs?» s'interroge le sociologue. «C'est un vrai problème pour les sciences sociales. Certains chercheurs vont être disqualifiés car d'autres auront une puissance de calcul tellement forte qu'ils vont rendre des résultats inédits.» Sur ce point, il est rejoint par Samuel Goëta, également docteur en sociologie, qui craint de voir apparaître des «inégalités entre les chercheurs riches en données et les autres, voire une indépendance moindre des chercheurs sélectionnés par Facebook, dont les recherches pourront difficilement aller à l'encontre de la stratégie de l'entreprise».
Si les données personnelles issues du Web deviennent une nouvelle ressource pour les sciences sociales, la mainmise des plateformes sur ces data peut devenir problématique.

http://info.economie.lefigaro.fr/se...ce=AM2&utm_medium=email&utm_campaign=Economie

mam

Les données personnelles issues du web, mine d'or pour les sciences sociales ?

mam80

la rose et le réséda

mam80

la rose et le réséda