Home Le prix de la qualité des données

Le prix de la qualité des données

29th Mar 2022 données confiance qualité contenu prix

Google a récemment publié une annonce pleine page sur l'un des principaux journaux italiens avec le titre : "Trouver des informations auxquelles vous pouvez faire confiance. Avec Google" (L'exemple est en italien mais la campagne a très probablement été diffusée sur plusieurs médias et dans plusieurs pays).

Le contenu principal cité : "Nous travaillons avec un grand nombre d'éditeurs pour vous aider à trouver des histoires fiables à partir d'une variété de sources fiables".

L'exemple de recherche que vous pouvez voir sur l'image concerne les termes "vaccin covid" (l'un des termes les plus recherchés au cours des 2 dernières années).

Exemple de recherche Google

Dans cet article, nous essaierons d'aborder quelques sujets liés à cette annonce, tels que :

pourquoi une telle campagne et que signifie-t-elle ?
quelles sont les sources fiables et comment les sélectionner
pourquoi Google ne peut pas se permettre d'avoir (uniquement) du contenu provenant de sources fiables
qu'est-ce que cela a à voir avec myHealthbox
Approche myHealthbox sur les contenus de confiance
un modèle de licence hybride pour l'accès à des informations de qualité.

Recherche de contenu de confiance

Tout d'abord, essayons de rechercher "vaccin covid" pour voir quel type de contenu Google affiche dans les résultats de recherche.

Niveau de qualité Google

La première chose que nous remarquons est qu'aucune publicité n'est affichée, nous voyons des images montrant les tendances de vaccination, des graphiques, des listes de centres de vaccination, des cartes indiquant où se procurer un vaccin, une liste de vaccins disponibles auprès de différents producteurs, des informations sur la santé informations connexes sur les vaccins comme les effets secondaires, les ingrédients, etc. mais pas de publicité.

Viennent ensuite les sites liés aux termes de requête, les meilleures histoires et d'autres sites de résultats, mais il n'y a toujours aucune annonce payante sur la première page (ce qui est très inhabituel pour Google), la première (et la seule) annonce payante est sur la page 2 et est de l'OMS (Organisation mondiale de la santé, à peine un site commercial).

En regardant la liste des résultats, il semble que les résultats de la recherche ont été largement sélectionnés et probablement affinés manuellement (les hôpitaux, les centres de vaccins, les producteurs font la plupart des résultats) avec seulement des sources "de qualité" autorisées à apparaître (comme il est dit dans l'annonce ) dans la liste des résultats de la requête.

Les résultats affichés semblent confirmer que tous les "éditeurs/sources" qui apparaissent dans la liste des résultats appartiennent à un groupe "de confiance" et que seuls les résultats de ce groupe sont autorisés ; ce qui reste flou, c'est comment les sources de confiance sont définies et qui définit et efface leur statut (par exemple, je serais d'accord avec le fait que la FDA soit une source de confiance mais serais moins confiant quant à Walmart qui apparaît également dans la liste), ces critères sont inconnus.

À mon avis, ce qui s'est passé, c'est que Google a pris la liste des résultats que le moteur de recherche affichait automatiquement (seulement quelques-uns d'entre eux en fait, car il serait impossible de parcourir toute la liste : la recherche de "covid shot" affiche environ 4 380 000 000 de résultats .... c'est plus de 4 milliards de résultats ... laissez cela couler pendant un moment ...) puis un groupe de révision a parcouru manuellement la liste pour déterminer, en fonction de certains critères, lequel des résultats devait être considéré comme "de confiance" et ce qui devrait être évité, cela a probablement été fait au niveau du domaine, mais une approche au niveau de la page est également possible (mais considérablement plus coûteuse).

Google met en œuvre ce processus depuis un certain temps et dispose de critères détaillés et d'un manuel pratique pour les employés qui effectuent des "examens de réputation de domaine" ou des "évaluateurs" comme on les appelle. Un tel examen se traduit par plus ou moins de poids à attribuer aux domaines et donc implicitement aux résultats de recherche provenant de ces domaines. Ce processus complète les algorithmes de Google qui ne peuvent pas déterminer correctement la "qualité" réelle de certaines pages ou le degré de "confiance" que nous pouvons accorder à une source.

Bien que Google fasse un assez bon travail dans la sélection de sources faisant autorité, dont la plupart sont des agences gouvernementales, ce processus soulève évidemment un point important : une société commerciale établit les règles sur ce qui peut être fiable ou non, cela détermine implicitement le type d'informations que nous obtenons. accès ou non.

En l'absence de règles/lois/processus spécifiques de la part des législateurs nationaux, il est laissé à l'initiative de chaque entreprise de déterminer les règles (quels critères doivent être satisfaits pour être considérées comme une source fiable) et de les appliquer.

Qu'est-ce-que-google-e-a-t

Contenu de qualité pour tous

Pourquoi Google (et aussi Facebook, Twitter et d'autres agrégateurs sociaux en fait car ils partagent des problèmes similaires) ont-ils ressenti le besoin de rassurer leurs utilisateurs sur le fait qu'ils seraient en mesure de trouver des informations fiables via leur moteur de recherche ?

Eh bien, tout simplement parce qu'ils sont conscients que leurs algorithmes de recherche ne sont pas en mesure de bien distinguer les sources "de confiance" ou "non fiables", il s'agit d'un processus qui ne peut pas être complètement automatisé et pour cette raison ne peut pas être mis en œuvre au moment de la livraison du contenu avec le Par conséquent, sans actions préventives spécifiques, le risque de fournir du contenu "non fiable" (ordures) aux utilisateurs finaux est assez élevé, en particulier avec des mots-clés à fort trafic.

Il existe principalement 2 solutions à ce problème :

Ne prenez que du contenu provenant de sources fiables (c'est ce que Google fait pour les termes de recherche sélectionnés), minimisant ainsi le risque que le "mauvais" contenu puisse se glisser jusqu'aux utilisateurs finaux
conserver le contenu, c'est-à-dire supprimer automatiquement ou manuellement le "mauvais" contenu après sa publication ou son accès (c'est ce que Facebook fait avec ses algorithmes d'IA et ses réviseurs).

Bien que valides, ces approches souffrent également d'un certain nombre d'inconvénients :

ils ne s'adaptent pas bien : plus de contenu = plus d'examinateurs signifie une augmentation des coûts de main-d'œuvre et du temps
la complexité augmente de plusieurs ordres de grandeur avec différents contenus, termes de recherche, langues, etc. et il devient de plus en plus difficile de faire correspondre le bon ensemble de termes de recherche avec les sources. Par exemple, une recherche en italien pour "covid puntura (covid shot)" montre en première position un site très peu fiable avec une assez mauvaise réputation en termes de pratiques de référencement, de contenu ancien et peu fiable. Cela prouve à quel point il peut être difficile de fournir une couverture complète et étendue.
ils peuvent réduire considérablement les revenus générés par la publicité. Quelle entreprise est susceptible de mettre aux enchères des termes de recherche lorsque les résultats sont prédéterminés ? Si je suis une source "de confiance", j'apparaîtrai de toute façon sans frais et si je ne suis pas "de confiance", je ne serai pas classé (ou classé très bas), peu importe le niveau d'enchère pour ces mots clés ou l'effort de référencement que je mets en
la confiance est spécifique au domaine
la confiance peut devoir être limitée à une page ou à une section. Par exemple, un site d'actualités réputé peut héberger un blog qui permet la saisie des utilisateurs et qui peut être ouvert à du contenu non vérifié.

Il semble évident que les problèmes mentionnés ci-dessus n'ont pas de solution facile mais aussi que les moteurs de recherche "génériques" ont beaucoup de mal non seulement à contrôler à quel contenu ils donnent accès mais aussi à définir ce qu'est une source fiable et dans quelles conditions un tel source pourrait être de confiance.

Il y a aussi des domaines où la confiance est plus importante que d'autres, par exemple la santé par rapport aux voyages ou aux jeux. theme

If providing content from trusted sources is so great why don't they all try to follow this route?

Can Google (and other generic content platform) afford to (only) have trusted sources?

The short and somewhat harsh answer is: not at all!

At least not with their current (ads based) business model, going along the trusted route would mean higher costs, lower revenues and an uncertain outcome.

Plates-formes spécifiques à un domaine

Cela laisse la voie libre aux moteurs de recherche spécifiques à un domaine (comme myHealthbox.eu) et à une plate-forme de contenu très spécifique : en limitant le domaine de contenu, de meilleures procédures et algorithmes peut être implémenté au début, ce qui donne un contenu de haute qualité et moins de "déchets".

myHealthbox met en place plusieurs processus pour garantir la qualité des contenus :

autoriser uniquement le contenu provenant de sources officielles et fiables (c'est-à-dire le ministère de la Santé, l'agence des médicaments, le fabricant)
mise en place de procédures de vérification du contenu lors des phases d'ingestion et d'indexation du contenu
mise en œuvre d'un processus de révision manuelle du contenu lors de la réception de notifications concernant d'éventuelles erreurs de contenu de la part des utilisateurs.

Une approche de la qualité d'abord en ce qui concerne le contenu a des conséquences sur les modèles commerciaux qui peuvent être mis en œuvre, cela est dû aux coûts plus élevés de mise en œuvre des processus de qualité des données et garantit, autant que possible, des informations de qualité tout au long.

Il faut aussi ajouter qu'une approche de qualité payante est rarement acceptée dans un contexte où les internautes attendent du contenu gratuitement ou sont heureux de renoncer à des données personnelles en échange d'un accès gratuit, une approche qui serait extrêmement dangereuse dans un contexte de santé. le contexte.

Le modèle de licence myHealthbox

myHealthbox a mis en place un modèle hybride qui tente de trouver un compromis entre un accès gratuit pour les utilisateurs occasionnels, des coûts limités pour les utilisateurs récurrents à la recherche d'une source fiable d'informations fiables et des exigences minimales en termes d'accès aux informations personnelles (c'est-à-dire que seul un e-mail est requis pour l'inscription) .

Cette solution finale repose sur un certain nombre de critères dont le plus important est que l'information sur l'usage des médicaments doit être gratuite pour les usagers occasionnels, l'accès à cette information peut affecter votre santé et doit être facile d'accès et libre d'accès ( aucune inscription requise).

Au-delà d'un modèle d'utilisation gratuite et occasionnelle (qui limite essentiellement le nombre de documents pouvant être consultés au cours d'un mois donné), 3 licences sont disponibles qui permettent un accès incrémentiel à plus de documents et de données, les abonnements payants suppriment également les publicités offrant une expérience utilisateur plus rapide et meilleure , les 3 abonnements disponibles sont :

trial (par défaut pour les utilisateurs enregistrés)
lite
pro.

La question se pose alors en réalité : combien êtes-vous prêt à payer pour accéder à une information fiable et de qualité sur les médicaments ?

Les détails complets des options, des limitations et des coûts pour chaque licence sont disponibles sur la page Licence myHealthbox

Pour toute question, veuillez contacter notre Service Client à info@myhealthbox.eu

Article précédent Article suivant

Le prix de la qualité des données

Recherche de contenu de confiance

Contenu de qualité pour tous

Plates-formes spécifiques à un domaine

Le modèle de licence myHealthbox

Related Posts

Articles en relation

Tags populaires

Archives