Question sur nos requêtes – l’exemple d’ArXiv

Nous avons entrepris la vérification de nos fonctions de requête. Nous commençons pas ArXiv. Concrètement, on cherche « manuellement » les résultats de quelques publications. Ensuite on fait chercher la même chose au programme et on compare nos résultats obtenus. Ce procédé très simple permet de s’assurer que le programme prend bien en considération tous les résultats. Si ce n’est pas le cas, à nous d’en trouver la raison !

Sur Arxiv, le premier test n’a pas été fructueux.

En effet, les titres des articles obtenus dans les résultats n’étaient pas strictement identiques à ceux énoncés dans la requête.

Il a donc fallu « relaxer » cette requête, c’est dire supprimer des critères contraignants. Plutôt que de chercher un titre exact, nous avons opté pour la recherche de type « titre comprenant certains mots ». Cela a bien fonctionné par la suite.

Peut-être même trop bien !

Sur le jeu de données des publications scientifiques, ArXiv trouvait près d’une vingtaine de résultats sur 1000. La mise à jour de la requête fait monter le résultat à 140 sur 1000…

On pourrait se dire que c’est satisfaisant : mais le problème est que le temps d’exécution a considérablement augmenté (plus de 40min d’attente !) ce qui rend l’outil peu utilisable.

 Pourquoi? Modifier la requête a multiplié le nombre de résultats : la base a renvoyé en effet toutes les publications comportant quelques mots du titre, avec au moins un des auteurs, donnant ainsi des milliers de résultats.

 Il nous faut alors aller chercher le moyen de restreindre le nombre de résultats sans que cela n’affecte trop leur nombre !

Nous avons fait notre premier bilan, un an après…

Dans le cadre du projet DOPABAT, l’équipe a développé un outil permettant de mesurer l’audience des thèses en physique et astrophysique de l’Université Grenoble-Alpes et de l’Observatoire de Paris.

Janvier 2019 : ouverture d’un blog de projet, mis en production sur WordPress, afin de faire connaître l’avancée de DOPABAT.

https://dopabat.inist.fr/

Février 2019 : extraction d’un corpus de 1085 thèses soutenues entre 2009 et 2018, sur périmètre de l’UGA et de l’Observatoire, et issues de TEL.

Chargement du corpus traité dans l’outil Lodex par l’INIST

Objectif :  publier des jeux de données et fournir un rapport web dynamique (tableau de bord et graphiques)

 

Mars-mai 2019 : création de requêtes d’exploitation du corpus sur les bases ADS (Astrophysics Data System), le Web of Science (WoS) et ArXiv et tests.

Objectif : vérifier la présence de thèses dans les bases bibliographiques et leurs citations par d’autres publications.

Eté 2019 : déploiement d’un programme informatique en langage R, servant à interroger les bases de données et récupérer des données statistiques qui pourront révéler des informations sur l’interdisciplinarité. Cet outil est libre, évolutif et pleinement maîtrisé par le contractuel recruté pour le projet.

Automne 2019 : travail sur les citations et l’interdisciplinarité du corpus.

Interrogation des bases par API afin de mesurer les citations des publications du corpus après une analyse de ces données. Analyse de la cohérence des résultats obtenus.

Objectif : identifier les liens entre les publications et les thématiques communes.

 

Tout au long de la première année de ce projet, l’équipe a également pris le temps d’analyser les difficultés rencontrées. Celles-ci ont notamment concerné les conditions d’interrogation des bases et l’exploitation des données.

 

L’accès aux données de la base Web of Science et l’exploitation de l’API nécessitait de prendre un abonnement supplémentaire, ce service étant payant. Les contacts noués pour l’exploitation des données d’ADS

Par ailleurs, l’exploitation de données extraites de ArXiv, souvent superficielles, s’avère très compliquée. Les affiliations aux laboratoires, sont, par exemple, inexistantes dans ArXiv.

Le nombre de requêtes simultanées peut s’avérer limité

Difficulté sur les formats d’exports : pas possible d’importer des résultats en format csv

L’équipe s’est heurtée aux problèmes de granularité des différentes bases, certaines couvrant des domaines scientifiques trop généraux (ADS par exemple).

Enfin, il a fallu s’interroger sur l’incohérence des résultats obtenus par certaines des requêtes et apporter les correctifs nécessaires.

 

L’équipe DOPABAT a eu conscience durant cette première année que le projet expérimental dans lequel elle s’est lancée allait également se heurter à des écueils. Toutefois, elle a cherché à chaque fois à imaginer des solutions pour contourner ces problèmes, préférant s’appuyer sur des outils solides (ex. la base ADS) sans perdre du temps sur ceux qui s’avéraient trop complexes (ArXiv).

Cette expérience a donné à l’équipe l’occasion de se poser des questions sur le contenu des bases (par exemple, comment les bases bibliographiques intègrent-elles les thèses ?)  et, au-delà, sur la production scientifique elle-même. Ne pas retrouver une thèse dans une base par signifie-t-il qu’une thèse n’est pas systématiquement citée par son titre ? Existe-t-il d’autres pratiques ?…

Enfin, les membres de l’équipe ont eu à cœur de chercher à construire les bonnes requêtes d’interrogation des bases, d’élaborer des méthodologies pas à pas, de ne pas prendre pour acquis les premiers résultats obtenus mais devoir parfois les retravailler…

En conclusion, le projet au long cours mené jusqu’à présent, a, d’une certaine manière, permis de valider le choix de l’équipe de travailler sur les corpus de thèses, type de document moins exploité et moins bien appréhendé que les autres publications.

 

Des recherches, des résultats, mais (encore) des difficultés…

Pour commencer notre travail sur les citations, il nous faut interroger les différentes bases par API : ArXiv, ADS, le WoS et nous ajoutons PubMed .

Nous interrogeons sur titre/auteurs pour récupérer l’identifiant de la publication. Puis nous interrogeons cet identifiant pour obtenir les données de citations. Le temps d’exécution peut être long. Sur ArXiv, un délai de 3 seconde est requis entre chaque requête. Donc, 50 minutes de patience pour obtenir des résultats à partir de l’interrogation de 1000 publications !

On peut s’éviter ce temps d’attente en interrogeant plusieurs publications à la fois au moyen des opérateurs booléeens.

Il faut faire le choix du pas (nombre de publications interrogées simultanément) par requête. Prendre un pas trop grand, c’est risquer de dépasser la taille de requête maximale autorisée. Mais si le pas est trop court, on n’utilise pas le programme de manière optimale.

De plus, dans le cas d’un pas de 10 (publications interrogées ), si une erreur apparait dans la première publication, ce sont les 10 publications qui ne seront pas traitées. On parlera ici d’impact d’erreur qui a des conséquences sur tout le traitement.

D’autres problèmes se posent à nous : l’orthographe des noms d’auteur, les titres qui ne sont pas reconnus par la base utilisée… Seule solution : corriger les résultats par des remplacements de caractères automatiques.

On obtient des résultats mais il demeure des questions : on a deux publications différentes avec le même titre (par exemple, la suite d’une thèse). Doit-on conserver les citations liées à ces publications similaires ? Nous décidons de les garder car nous sommes dans une logique de discipline et non pas de titre.

Dans les résultats obtenus, nous tombons également sur des cas de « faux positifs ». Ce sont ces publications ou le titre attendu fait partie du titre entier mais la publication peut sur le fond aborder un thème différent. Par : on demande « black matter » et on obtient un résultat « black matter and black energy ».

L’équipe a la parade : un indicateur de similitude de titres ! Il compare titre obtenu et titre demandé dans la requête. Il calcule le nombre maximum de changements à apporter pour obtenir des titres similaires et renvoie un pourcentage de similitude. L’équipe décide que les publications ayant un pourcentage de similitude d’au moins 95 seront conservées.

L’équipe DOPABAT doit déployer de nombreuses astuces pour contourner les problèmes qui ne manquent pas !

Citations et interdisciplinarité

Pour l’étape suivante du projet, nous cherchons à travailler sur l’interdisciplinarité du corpus.

Qu’est-ce-que l’interdisciplinarité ? C’est l’interaction d’une discipline donnée sur les publications portant sur d’autres disciplines.

Comment mesurer l’interdisciplinarité ? A partir de l’analyse des données et des citations des publications.

Si une publication 1 est citée par une publication 2, le contenu (et la discipline) de la publication 1 va pouvoir se diffuser plus largement à travers la publication 2.

Il convient de vérifier la discipline de chacune des publications. Si les disciplines sont différentes l’une de l’autre, cela signifie que la discipline de la publication 2 citante est influencée par la discipline de la publication 1.

On peut également appliquer la même méthode aux références de publications. Ici on parlera plus d’interdisciplinarité « absorbée » qui a servi à la construction du corpus.

Il faut trouver une méthode de calcul pouvoir mener une recherche de données de citations de manière automatique…

Le projet DOPABAT se précise…

Imaginons un utilisateur qui, grâce à une interface web,  vient avec ses données (un fichier pdf ou csv par exemple). L’outil va analyser ce corpus, en faisant ressortir les liens possibles entres diverses publications, dans le but de dégager un domaine scientifique commun et voir comment celui-ci évolue au fil du temps.

Nous pouvons aller plus loin et envisager que l’outil analyse les citations de ces publications: Le programme va alors se connecter à plusieurs bases de données (que l’utilisateur pourra sélectionner).  Le programme récupèrera différentes données et pourra fournir des statistiques qui pourront révéler des informations sur l’interdisciplinarité notamment.

Pour développer notre outil, notre choix s’est porté sur le langage R. Celui-ci a plusieurs avantages : il est libre, gratuit, évolutif et disposant d’une large communauté d’utilisateurs.

A l’heure actuelle, des statistiques sur les mots clefs et les domaines ont pu être réalisées sous forme de nuages de mots et de network pour les graphiques.

Page 1 of 3

Fièrement propulsé par WordPress & Thème par Anders Norén