Blog · 10 nov. 2020

Comment approfondir votre interprétation du score de similarité

Gretchen Hanson

Oui, je souhaite également recevoir des communications personnalisées de la part de Turnitin et de ses sociétés affiliées concernant les produits, services, événements, offres, promotions, webinaires, blogs, mises à jour, ainsi que toute autre information marketing pertinente. Je comprends que Turnitin peut partager mes informations avec des tiers sélectionnés. Je comprends que je peux retirer mon consentement à tout moment en suivant le lien de désinscription présent dans la communication ou en contactant Turnitin directement. Pour plus d’informations sur la manière dont les données sont utilisées, consultez la politique de confidentialité du produit ou du service concerné, disponible sur la page Politiques de confidentialité de Turnitin.

Le score de similarité Turnitin porte souvent à confusion. Quel pourcentage doit-on considérer comme acceptable ? À partir de quel score doit-on s’inquiéter ? Est-il possible qu’un score soit trop bas ? Bien que ces décisions appartiennent toujours à l’enseignant, cet article veut vous aider à tirer les bonnes conclusions du score de similarité. Nous y définirons clairement le score, expliquerons la démarche de création du rapport de similarité, et nous offrirons nos conseils pour mieux interpréter les nombreuses informations qu’il contient et qui vont bien au-delà du simple pourcentage de similarité.

Comment Turnitin identifie les similarités dans le texte

C'est quand un étudiant envoie une copie que le programme devient intéressant. En quelques millisecondes, Turnitin réalise sur le document un véritable tour de force.

Premièrement, il simplifie les phrases en extrayant les propositions et en supprimant les mots trop courants (tels que « et », « ou », « le » ou « la »). Chaque proposition se voit ensuite attribuer un identifiant unique — une sorte d’empreinte digitale — avant d’être comparée à notre base de données pour identifier les éventuelles correspondances.

Notre base de données contient plus de 1,2 milliard de copies d’étudiants, 70 milliards de pages internet actuelles ou d’archive, et 180 millions d’articles extraits des principales revues universitaires et ouvrages académiques. Turnitin élargit et approfondit quotidiennement sa base de données en ajoutant chaque jour plusieurs millions de textes.

Ainsi analysé, un seul document peut contenir jusqu’à 80 000 identifiants dont chacun sera comparé aux 7 trillions de propositions de notre base de données. Le logiciel de Turnitin supprime les fausses correspondances à l'aide d’un programme de traitement automatique du langage naturel et d’ une stricte démarche heuristique qui sert à limiter les résultats non concluants et à générer un rapport le plus précis possible. Afin de simplifier cet article, nous avons omis les autres contrôles effectués par le système au cours du même processus (recherche de texte masqué, identification de caractères remplacés) et qui contribuent aussi aux résultats.

En moins de 10 secondes, toutes ces analyses sont condensées sous la forme d’un rapport de similarité.

(Remarque : Turnitin génère environ 20 rapports par seconde. Pendant les périodes les plus chargées, nous pouvons traiter jusqu’à 1 million de copies par jour !)

Quels renseignements tirer du rapport de similarité

L’ultime objectif du rapport de similarité est de fournir à l'enseignant un maximum d’informations concernant les sources dans lesquelles Turnitin a retrouvé certains éléments du texte. Chaque correspondance est affichée en surbrillance et reliée à la principale source ou à la plus pertinente. La base de données est d’ une importance telle qu’il n’est pas rare de trouver des sources multiples pour une même correspondance auquel cas nous affichons d'abord la source la plus représentative. Il existe toutefois d’ autres sources contenant la même citation et il arrive donc que le score reste inchangé même si l’enseignant choisit d'exclure une source particulière.

Voici nos recommandations quant à votre interprétation des correspondances dans le rapport de similarité.

Penchez-vous d’abord sur les options permettant de filtrer les correspondances. Elles vous permettent d’exclure les citations, les références bibliographiques, ainsi que les correspondances inférieures à un certain nombre de mots ou appartenant à des sources spécifiques ou à une base de données précise. Par exemple, vous pouvez ignorer les comparaisons avec les copies d’autres étudiants en excluant la base de données de travaux envoyés.

Les enseignants peuvent également choisir d’exclure un passage spécifique et informer Turnitin des raisons pour lesquelles cette correspondance n’est pas applicable. Ces informations viendront s’ ajouter à notre algorithme afin d’améliorer continuellement les résultats de Turnitin.

Ces exclusions peuvent être paramétrées avant de lancer le rapport, ou pendant la consultation des résultats. Pour sauvegarder vos paramètres d’exclusions, imprimez ou téléchargez le rapport au format PDF afin d'enregistrer les modifications dynamiques.

En paramétrant les exclusions, vous pouvez vous concentrer sur les similarités vraiment importantes et identifier les erreurs dans les citations et référencements bibliographiques afin de mieux guider et conseiller vos étudiants. En fonction de vos objectifs d’ évaluation, le rapport de similarité peut vous aider à isoler les éléments qui vous intéressent.

Le score de similarité reflète simplement le pourcentage de mots similaires à notre base de données. La valeur du rapport de similarité réside plutôt dans l'aide qu’elle apporte aux enseignants pour identifier les problèmes, révéler les passages démontrant des difficultés ou des progrès, et guider les commentaires qu’ils feront aux étudiants pour les pousser à améliorer leurs compétences rédactionnelles en toute intégrité, dans tous leurs travaux.

Turnitin Originality

S'abonner