Et ADS ?

ADS, tout comme ArXiv, est une base que nous utilisons dans le cadre de notre projet. Afin d’obtenir les meilleurs résultats, nous avons dû corriger quelques erreurs. Nous nous sommes rendu compte, en faisant des tests à la main et des tests via notre programme informatique, que certains caractères spécifiques ne passaient pas. Nos tests ont effectivement montré que certains encodages de lettres grecques, une fois importés au format CSV se transformaient en point d’interrogation. Il arrivait alors que le programme ne retrouve pas les articles recherchés du fait de ces erreurs. Ce phénomène est relativement peu fréquent mais nous n’avons pas réussi à y remédier, pour l’instant. S’il reste encore quelques scories, l’ensemble des résultats est plutôt correct. Les tests que nous mènerons prochainement nous permettront alors de repousser les limites de notre programme informatique.

Base Pubmed : quel apport pour notre projet ?

Pubmed est l’une des bases les plus complexes à utiliser.

Assez classique en termes de langages et acceptant les opérateurs booléens, Pubmed permet un grand nombre de requêtes, elle effectue trois requêtes par seconde. A première vue, elle semble plutôt facile à utiliser.

Pourtant, notre première difficulté a été le grand nombre de requêtes. En effet, en règle générale, pour accéder aux données de citations, c’est-à-dire aux articles qui citent une publication donnée, il faut effectuer deux requêtes : la première pour voir si la base de données possède l’article en question et la deuxième pour obtenir le détail des articles qui citent la publication. Or, pour Pubmed, plus d’étapes sont nécessaires. Une première requête au titre et au nom des auteurs nous renvoie uniquement les identifiants des articles qui présentent les caractéristiques demandées. Il faut ensuite interroger ces identifiants pour obtenir les informations relatives aux articles. On traite ensuite les faux positifs pour garder uniquement les articles qui nous intéressent. Ce n’est qu’ensuite que nous pouvons récupérer les identifiants des articles qui citent les publications considérées . Enfin, nous faisons une dernière requête afin d’avoir le détail de ces articles.

La deuxième difficulté à laquelle nous avons été confrontée est la transformation de la requête – problème majeur qui rend la base de données difficilement utilisable pour notre projet. La transformation d’une requête est en fait le changement de termes de cette requête pour tenter d’optimiser les résultats de celle-ci. Si l’idée est bonne, elle génère toutefois quelques difficultés.

Le cas des faux positifs évoqué dans notre billet de blog sur ArXiv est encore plus visible avec Pubmed. En effet, il arrive ici que les termes que nous utilisons soient complètement modifiés après la transformation de la requête. Sans une vérification pointilleuse, les résultats obtenus peuvent être complètement erronés. Du fait du changement de termes dans nos requêtes, il est alors difficile de développer la requête qui sera la bonne et de mesurer l’impact que ce changement de termes a sur les résultats. Améliorer les requêtes avec ce type d’erreurs est donc d’autant plus difficile.

En conclusion, Pubmed est une base de données rapide mais n’offre que peu de résultats pour l’instant. L’interfaçage entre Pubmed et notre programme informatique ayant déjà été opéré, Pubmed restera au sein de notre projet, mais il est possible que son apport soit moins important que ce que nous avions envisagé.

 

L’archive ouverte ArXiv : aller plus loin…

Le programme informatique conçu dans le cadre du projet DOPABAT interroge plusieurs bases de données dont l’archive ouverte ArXiv. Chaque base possède ses propres spécificités, c’est pourquoi il nous a fallu un certain temps pour obtenir des résultats concluants avec l’archive ouverte à partir de nos requêtes. Voici quelques détails sur notre périple avec ArXiv !

La mise au point de nos requêtes pour interroger ArXiv nous a permis d’obtenir de nombreux résultats. La contrepartie étant le temps d’exécution plutôt long ! Nous avons donc tenté d’alléger nos requêtes en diminuant le nombre d’auteurs par article, par exemple ! Avec un temps d’exécution moins long, nous sommes parvenus à de meilleurs résultats. Mais souhaitant améliorer encore notre protocole, nous avons opté pour une autre approche !

La solution à nos difficultés avec ArXiv réside dans les identifiants ! En effet, une colonne supplémentaire a été ajoutée à notre interface pour que l’utilisateur, s’il le souhaite, puisse renseigner les identifiants ArXiv. L’intérêt de ces identifiants est multiple. Il permet au programme d’aller beaucoup plus vite et évite ce qu’on appellerait en informatique documentaire, le « bruit », c’est-à-dire les résultats peu pertinents au regard de la requête, et les faux positifs dans ce contexte précis. Nous avons appelé « faux positifs » les résultats qui semblent corrects car prenant en compte les différents éléments renseignés (titre, auteur…) mais qui ne débouchent pas sur la publication précisément recherchée.

Question sur nos requêtes – l’exemple d’ArXiv

Nous avons entrepris la vérification de nos fonctions de requête. Nous commençons pas ArXiv. Concrètement, on cherche « manuellement » les résultats de quelques publications. Ensuite on fait chercher la même chose au programme et on compare nos résultats obtenus. Ce procédé très simple permet de s’assurer que le programme prend bien en considération tous les résultats. Si ce n’est pas le cas, à nous d’en trouver la raison !

Sur Arxiv, le premier test n’a pas été fructueux.

En effet, les titres des articles obtenus dans les résultats n’étaient pas strictement identiques à ceux énoncés dans la requête. Il a donc fallu « relaxer » cette requête, c’est dire supprimer des critères contraignants. Plutôt que de chercher un titre exact, nous avons opté pour la recherche de type « titre comprenant certains mots ». Cela a bien fonctionné par la suite.

Peut-être même trop bien !

Sur le jeu de données des publications scientifiques, ArXiv trouvait près d’une vingtaine de résultats sur 1000. La mise à jour de la requête fait monter le résultat à 140 sur 1000… On pourrait se dire que c’est satisfaisant : mais le problème est que le temps d’exécution a considérablement augmenté (plus de 40min d’attente !) ce qui rend l’outil peu utilisable.

Pourquoi? Modifier la requête a multiplié le nombre de résultats : la base a renvoyé en effet toutes les publications comportant quelques mots du titre, avec au moins un des auteurs, donnant ainsi des milliers de résultats.

 Il nous faut alors aller chercher le moyen de restreindre le nombre de résultats sans que cela n’affecte trop leur nombre !

Nous avons fait notre premier bilan, un an après…

Dans le cadre du projet DOPABAT, l’équipe a développé un outil permettant de mesurer l’audience des thèses en physique et astrophysique de l’Université Grenoble-Alpes et de l’Observatoire de Paris.

Janvier 2019 : ouverture d’un blog de projet, mis en production sur WordPress, afin de faire connaître l’avancée de DOPABAT.

https://dopabat.inist.fr/

Février 2019 : extraction d’un corpus de 1085 thèses soutenues entre 2009 et 2018, sur périmètre de l’UGA et de l’Observatoire, et issues de TEL.

Chargement du corpus traité dans l’outil Lodex par l’INIST

Objectif :  publier des jeux de données et fournir un rapport web dynamique (tableau de bord et graphiques)

 

Mars-mai 2019 : création de requêtes d’exploitation du corpus sur les bases ADS (Astrophysics Data System), le Web of Science (WoS) et ArXiv et tests.

Objectif : vérifier la présence de thèses dans les bases bibliographiques et leurs citations par d’autres publications.

Eté 2019 : déploiement d’un programme informatique en langage R, servant à interroger les bases de données et récupérer des données statistiques qui pourront révéler des informations sur l’interdisciplinarité. Cet outil est libre, évolutif et pleinement maîtrisé par le contractuel recruté pour le projet.

Automne 2019 : travail sur les citations et l’interdisciplinarité du corpus.

Interrogation des bases par API afin de mesurer les citations des publications du corpus après une analyse de ces données. Analyse de la cohérence des résultats obtenus.

Objectif : identifier les liens entre les publications et les thématiques communes.

 

Tout au long de la première année de ce projet, l’équipe a également pris le temps d’analyser les difficultés rencontrées. Celles-ci ont notamment concerné les conditions d’interrogation des bases et l’exploitation des données.

 

L’accès aux données de la base Web of Science et l’exploitation de l’API nécessitait de prendre un abonnement supplémentaire, ce service étant payant. Les contacts noués pour l’exploitation des données d’ADS

Par ailleurs, l’exploitation de données extraites de ArXiv, souvent superficielles, s’avère très compliquée. Les affiliations aux laboratoires, sont, par exemple, inexistantes dans ArXiv.

Le nombre de requêtes simultanées peut s’avérer limité

Difficulté sur les formats d’exports : pas possible d’importer des résultats en format csv

L’équipe s’est heurtée aux problèmes de granularité des différentes bases, certaines couvrant des domaines scientifiques trop généraux (ADS par exemple).

Enfin, il a fallu s’interroger sur l’incohérence des résultats obtenus par certaines des requêtes et apporter les correctifs nécessaires.

 

L’équipe DOPABAT a eu conscience durant cette première année que le projet expérimental dans lequel elle s’est lancée allait également se heurter à des écueils. Toutefois, elle a cherché à chaque fois à imaginer des solutions pour contourner ces problèmes, préférant s’appuyer sur des outils solides (ex. la base ADS) sans perdre du temps sur ceux qui s’avéraient trop complexes (ArXiv).

Cette expérience a donné à l’équipe l’occasion de se poser des questions sur le contenu des bases (par exemple, comment les bases bibliographiques intègrent-elles les thèses ?)  et, au-delà, sur la production scientifique elle-même. Ne pas retrouver une thèse dans une base par signifie-t-il qu’une thèse n’est pas systématiquement citée par son titre ? Existe-t-il d’autres pratiques ?…

Enfin, les membres de l’équipe ont eu à cœur de chercher à construire les bonnes requêtes d’interrogation des bases, d’élaborer des méthodologies pas à pas, de ne pas prendre pour acquis les premiers résultats obtenus mais devoir parfois les retravailler…

En conclusion, le projet au long cours mené jusqu’à présent, a, d’une certaine manière, permis de valider le choix de l’équipe de travailler sur les corpus de thèses, type de document moins exploité et moins bien appréhendé que les autres publications.

 

Page 1 of 3

Fièrement propulsé par WordPress & Thème par Anders Norén