Des recherches, des résultats, mais (encore) des difficultés…

Pour commencer notre travail sur les citations, il nous faut interroger les différentes bases par API : ArXiv, ADS, le WoS et nous ajoutons PubMed .

Nous interrogeons sur titre/auteurs pour récupérer l’identifiant de la publication. Puis nous interrogeons cet identifiant pour obtenir les données de citations. Le temps d’exécution peut être long. Sur ArXiv, un délai de 3 seconde est requis entre chaque requête. Donc, 50 minutes de patience pour obtenir des résultats à partir de l’interrogation de 1000 publications !

On peut s’éviter ce temps d’attente en interrogeant plusieurs publications à la fois au moyen des opérateurs booléeens.

Il faut faire le choix du pas (nombre de publications interrogées simultanément) par requête. Prendre un pas trop grand, c’est risquer de dépasser la taille de requête maximale autorisée. Mais si le pas est trop court, on n’utilise pas le programme de manière optimale.

De plus, dans le cas d’un pas de 10 (publications interrogées ), si une erreur apparait dans la première publication, ce sont les 10 publications qui ne seront pas traitées. On parlera ici d’impact d’erreur qui a des conséquences sur tout le traitement.

D’autres problèmes se posent à nous : l’orthographe des noms d’auteur, les titres qui ne sont pas reconnus par la base utilisée… Seule solution : corriger les résultats par des remplacements de caractères automatiques.

On obtient des résultats mais il demeure des questions : on a deux publications différentes avec le même titre (par exemple, la suite d’une thèse). Doit-on conserver les citations liées à ces publications similaires ? Nous décidons de les garder car nous sommes dans une logique de discipline et non pas de titre.

Dans les résultats obtenus, nous tombons également sur des cas de « faux positifs ». Ce sont ces publications ou le titre attendu fait partie du titre entier mais la publication peut sur le fond aborder un thème différent. Par : on demande « black matter » et on obtient un résultat « black matter and black energy ».

L’équipe a la parade : un indicateur de similitude de titres ! Il compare titre obtenu et titre demandé dans la requête. Il calcule le nombre maximum de changements à apporter pour obtenir des titres similaires et renvoie un pourcentage de similitude. L’équipe décide que les publications ayant un pourcentage de similitude d’au moins 95 seront conservées.

L’équipe DOPABAT doit déployer de nombreuses astuces pour contourner les problèmes qui ne manquent pas !

Citations et interdisciplinarité

Pour l’étape suivante du projet, nous cherchons à travailler sur l’interdisciplinarité du corpus.

Qu’est-ce-que l’interdisciplinarité ? C’est l’interaction d’une discipline donnée sur les publications portant sur d’autres disciplines.

Comment mesurer l’interdisciplinarité ? A partir de l’analyse des données et des citations des publications.

Si une publication 1 est citée par une publication 2, le contenu (et la discipline) de la publication 1 va pouvoir se diffuser plus largement à travers la publication 2.

Il convient de vérifier la discipline de chacune des publications. Si les disciplines sont différentes l’une de l’autre, cela signifie que la discipline de la publication 2 citante est influencée par la discipline de la publication 1.

On peut également appliquer la même méthode aux références de publications. Ici on parlera plus d’interdisciplinarité « absorbée » qui a servi à la construction du corpus.

Il faut trouver une méthode de calcul pouvoir mener une recherche de données de citations de manière automatique…

Le projet DOPABAT se précise…

Imaginons un utilisateur qui, grâce à une interface web,  vient avec ses données (un fichier pdf ou csv par exemple). L’outil va analyser ce corpus, en faisant ressortir les liens possibles entres diverses publications, dans le but de dégager un domaine scientifique commun et voir comment celui-ci évolue au fil du temps.

Nous pouvons aller plus loin et envisager que l’outil analyse les citations de ces publications: Le programme va alors se connecter à plusieurs bases de données (que l’utilisateur pourra sélectionner).  Le programme récupèrera différentes données et pourra fournir des statistiques qui pourront révéler des informations sur l’interdisciplinarité notamment.

Pour développer notre outil, notre choix s’est porté sur le langage R. Celui-ci a plusieurs avantages : il est libre, gratuit, évolutif et disposant d’une large communauté d’utilisateurs.

A l’heure actuelle, des statistiques sur les mots clefs et les domaines ont pu être réalisées sous forme de nuages de mots et de network pour les graphiques.

Jérémy rejoint l’équipe DOPABAT

Arrivée d’un nouveau collaborateur !

L’équipe accueille, avec joie et enthousiasme, en ce début juillet, un tout nouveau et jeune collaborateur, recruté spécialement pour le projet !

Il s’appelle Jérémy. Il est titulaire d’un master en statistiques et sciences des données. Jérémy sera chargé de développer l’outil DOBABAT, du programme source à l’interface utilisateur.

Grâce à ses compétences en informatique et en statistique, il va devoir trouver mettre au point l’outil permettant de réaliser au mieux le projet et de mettre en place tous les indicateurs nécessaires à son bon fonctionnement.

Il nous reste 11 mois jusqu’à la fin du projet. On avance…

Comment retrouver les citations des thèses dans le WoS

Les thèses sont-elles citées ?

A partir du fichier de thèses des laboratoires de l’UGA et de l’Observatoire de Paris, la recherche de citations des thèses s’effectue en recherchant spécifiquement dans les références citées (Cited Reference Search) les auteurs des thèses et les documents de types thèse pour la période globale 2009-2019.

Pour  augmenter le nombre de résultats potentiels, les noms des auteurs sont déclinés sous les différentes formes possibles pour ce qui concerne les noms ou prénoms composés et deux fichiers distincts sont constitués, l’un avec les auteurs dont les formes de noms ne nécessiteront pas de vérifications et un second.

Lire la suite

Page 1 of 2

Fièrement propulsé par WordPress & Thème par Anders Norén