Depuis plusieurs jours, on assiste à un recrudescence de questions sur les forums et Reddit à propos de ces restrictions de messagerie. Plusieurs joueurs ont vu leur chat restreint pendant des durées allant de 20 à plus de 120 parties, limitant les messages qu'ils peuvent envoyer en jeu. Aujourd'hui Riot a donné des précisions sur cette expérimentation, et des données sur ses résultats.
Recherche de faux positifs
La team PB&J (Player Behavior & Justice) a ardemment surveillé les forums afin de trouver des faux positifs. En répondant à un joueur, Lyte a extrait ses logs de chat et découvert qu'il insultait régulièrement ses équipiers de noobs, demandait à répétition aux joueurs de report quelqu'un, et utilisait du langage tel que "wtf are you doing".
Ce joueur en question répondait parfois de manière toxique à d'autres joueurs toxiques, mais l'idée de Riot sur le sujet est que le fait que quelqu'un soit toxique, n'autorise pas quelqu'un d'autre à l'être à son tour. Et dans beaucoup de parties les deux joueurs ont terminé avec des restrictions de messagerie car ils créaient une expérience de jeu très négative pour les - jusqu'à - 8 autres joueurs.
Lyte précise au passage que le joueur en question a des centaines de situations où il a spammé une attitude négative, et où il a été extrêmement négatif dans ses parties, mais qu'il ne souhaitait simplement pas montrer le pire de l'historique du joueur pour ne pas créer de mauvaises réactions à son encontre. Il n'a pas reçu cette pénalité juste à cause de ces 3 exemples.
Combien de mauvais comportements pour obtenir ces restrictions ?
Alors, quel type d'attitude faut-il montrer pour arriver à ces restrictions ? Évidemment, Lyte ne donne pas tous les détails sur le sujet, l'idée étant d'administrer une sanction à des joueurs qui ne mériteraient peut-être pas un ban, car leurs propos seraient négatifs, mais pas suffisamment pour atterrir au tribunal. Cependant, traiter quelqu'un de noob, spammer les reports ou des choses telles que "wtf u doing" pourraient conduire à cette restriction de messagerie.
Des sanctions trop poussées ?
Les joueurs se demandent du coup si sanctionner des "wtf are you doing" n'est pas quelque chose de trop poussé dans un environnement compétitif. Pour Lyte, il y a cependant une différence entre "wtf are you doing" une fois dans la partie et :
"wtf what are you doing"
"wtf this yasuo noob"
"report him pls"
"****, do you even know how to play"
"what the fuk, uninstall"
"wtf this yasuo noob"
"report him pls"
"****, do you even know how to play"
"what the fuk, uninstall"
Par ailleurs, ces exemples n'étaient qu'une petite partie (1%) des choses qui étaient surveillées. Autant que possible et particulièrement dans les derniers mois, Riot a préféré éviter les habituels extraits de logs du chat d'un joueur, et leurs plus mauvais comportements car cela créer comme on l'a vu de mauvaises réactions à son encontre. Ainsi, lorsque Lyte a répondu au joueur en question, il a montré une attitude générale plutôt que la liste complète de ses mauvais comportements.
Combien de joueurs affectés ? Comment ?
D'après Lyte, 95% des joueurs n'ont pas été affectés par les bans du tribunal, et 95% n'ont pas été affectés par les restrictions de messagerie. Et de pour lui, la plupart des joueurs restent corrects en jeu, et n'ont pas de problèmes à rester dans le droit chemin.
Les joueurs affectés par ces restrictions de messagerie ont donc pour Riot clairement dépassé les limites, soit par la nature du langage, soit par la sévérité du langage, et bien au delà de ce que Riot aimerait avoir dans son jeu.
Lyte signale également que le système n'a pas sanctionné de joueurs ayant utilisé des termes offensant d'une manière non-négative (Comme par exemple "fuck, i missed that skill shot" ou "fuck, close fight, we almost had that").
Comment ça se passe en coulisse ?
Avant de lancer le système, Riot avait parlé d'un système "automatisé", qui visiblement, n'est pas le terme le mieux approprié. D'après Lyte, cela signifiait plus qu'il était possible de donner une pénalité plus rapidement après une action négative. Parfois au tribunal, une action négative peut mettre un mois à être sanctionnée, et le joueur ne reçoit donc une notification à ce sujet que tardivement.
Avant cependant de rentrer dans les détails du système, Lyte a souhaité expliquer les détails du système de report. Le rôle de ce système est de calculer la précision des reports d'un joueur. Beaucoup d'algorithmes régissent ce système pour s'assurer que les reports sont pris en compte uniquement lorsqu'ils sont justifiés. Ainsi, si un joueur est constamment négatif lui-même, ses reports peuvent devenir moins impactant parce que le système va considérer qu'ils ne seront pas bon à juger les attitudes des autres joueurs. Si un joueur choisit de report un joueur avec ses 3 camarades premade pour troller, alors le système n'en tiendra pas compte. Toutes les expérimentations qui utilisent le système de report sont donc assurées que les joueurs ne sont pas capables d'en abuser avec de faux reports.
Deuxièmement, Riot dispose d'un système qui a analysé des millions de logs de chat, et qui est devenu très bon pour déterminer si une conversation en jeu est négative ou positive. Une partie de ce travail a été présentée à la dernière GDC (Game Developer's Conference), et c'est un système intéressant car plus on donne de logs de chat à analyser au système, meilleur il devient pour déterminer si un joueur communique négativement ou positivement.
Ainsi, en combinant les reports, les retours du support, l'analyse des logs de chat, et les différentes formes de métriques en jeu, il est possible de faire des expérimentations intéressantes et précises. De plus, quand il s'agit d'expérimentations impliquant les joueurs, Riot se montre toujours conservateur avec les pénalités. Par exemple, si un joueur peut avoir un score entre 1 et 100, où 100 est très positif, et 1 très mauvais, même si on peut s'accorder sur le fait que 25 est en dessous et mérite une pénalité, Riot fait en sorte que les expérimentations ciblent initialement le pire du pire, avec 5 et moins par exemple. Ainsi, il est possible d'améliorer la précision du système avant d'étendre son champ d'action.
Pourquoi ne pas juste empêcher les joueurs de spammer ?
Alors pourquoi ne pas simplement empêcher les joueurs de spammer le chat, et les laisser communiquer normalement quand ils le font ? Pour Lyte, c'est une possibilité envisageable, et qui a même été discutée en interne. Mais il faut d'abord tester les expérimentations initiales d'abord et voir ce qui fonctionne le mieux. Si les restrictions de chat actuelles sont trop contraignantes pour les joueurs, alors Riot cherchera une meilleure solution.
Mais beaucoup de joueurs oublient qu'il ne s'agit pas d'un mute complet. Beaucoup d'études ont été menées dans cette restriction de chat pour déterminer quel est le montant nécessaire de "ressources" pour le joueur afin qu'il puisse communiquer sans problèmes. Et si un joueur utilisait ces ressources uniquement pour le travail d'équipe, il peut continuer à le faire efficacement. Le système actuel force les joueurs négatifs à considérer le fait de valoriser le travail d'équipe (Et la victoire !) plus que d'être offensant et agressifs sur le chat. Et au final, la plupart des joueurs optent pour l'utilisation du chat à bon escient, et gagnent plus de parties qu'avant.
Quelle est la précision du système ?
Après avoir observé un large échantillon des restrictions de messageries, la précision serait plus grande que 99.9%, signifiant pour Lyte qu'il n'y a pas besoin d'annuler des restrictions de messagerie.
Comment est-ce que ce chiffre a été mesuré ?
Pour déterminer la précision d'un système, Riot utilise des méthodes plus précises que celles utilisées par les académiciens du fait que les actions impliquent les joueurs à chaque fois. Pour les premières expérimentations (Même très loin en arrière avec les débuts du tribunal), chaque cas a été revu, et cela par plusieurs personnes, 100% du temps. Il y a même eu des tests où plusieurs personnes devaient revoir des cas indépendamment, et débattre de ceux où il y avait des désaccords.
Il y a pour Lyte beaucoup de raisons d'approcher les 100% de précision. 100% n'est pas possible à atteindre car aucun système ne fait pas d'erreur à moins de revoir chaque cas manuellement. Cependant, s'il y a 100 personnes à un moment, et que 99 de ces cas ont été vérifiés par au moins une personne du support. Dans ce cas-là, s'il n'y a pas de faux positif, il est possible de dire que le système a été efficace à presque 100%... ou 99.9%.
Ou encore, si on utilise un modèle d'analyse de langage qui est très sophistiqué et analyse des millions de logs de chats et détermine les 1% pires cas qui sont les plus impliqués dans du harcèlement verbal, si jamais les restrictions avaient été appliquées aux pires cas de ces pires cas, qui représenteraient par exemple 0.5%, alors il est possible de dire sans trop prendre de risque qu'il n'y a probablement pas de faux positif.
Pour Lyte, il y a beaucoup de manières pour qu'un système soit proche de 100% de précision. Tout dépend de la méthodologie et du contexte.
Pourquoi limiter le chat au lieu de bannir simplement les joueurs ?
Si Riot est si certain de son système de détection, alors pourquoi ne pas simplement bannir les joueurs ? La réponse tient au fait que les restrictions de messagerie sont plus efficaces que les bans. Les bans provoquent chez certains joueurs l'utilisation de smurfs pour continuer à être toxique, et à outrepasser les sanctions, ce qui créer une expérience de jeu très négative à bas niveau. Les restrictions de chat actuelles permettent cependant à la plupart des joueurs de communiquer décemment avec son équipe, selon Lyte. Les junglers peuvent cependant rencontrer quelques difficultés dans le contexte actuel.
Un fait intéressant à noter pour Riot, est que les joueurs actuellement sanctionnés par les restrictions de messagerie gagnent pour beaucoup plus de parties qu'avant. Cela laisse penser que le système n'est pas aussi pénalisant pour une team que les joueurs ne le penseraient.
Pourquoi ne peut-on pas voir si on est proche d'une restriction de chat ?
Comme pour tous les systèmes de sanctions, un tel indicateur donnerait aux joueurs la possibilité de faire ce qu'ils veulent jusqu'à être proche de la limite, et d'agir normalement le temps de s'en éloigner de nouveau.
En attendant, d'autres expérimentations sont prévues avec ce système, qui pourraient être implantées dans sa version finale.
L'avis de Philidia :
J'attendais surtout les redposts avant de donner mon avis sur le sujet. Rien de bien étonnant dans la procédure, tout comme avec les sanctions du tribunal, ça cible souvent le pire du pire du pire, donc peu de chances de faire des fautes. Par ailleurs, Riot étant bien plus sévère que les joueurs (On l'a notamment vu sur certains dossiers du tribunal), il est normal que ça soit poussé aussi loin (Et je pense que ça va en surprendre certains).
Le système d'analyse des logs du chat n'a lui aussi rien de bien surprenant. On a déjà vu passer sur Reddit des posts indiquant quels étaient les mots les plus prononcés en jeu. Il est alors facile en corroborant les informations sur les joueurs (Reports envoyés/reçus, bans éventuels, etc...) avec ces données de savoir si une partie se déroule bien ou mal. J'imagine que dans la revue des cas des joueurs détectés par le système, il y avait de ça. Les mots/phrases revenant le plus souvent, combinées avec les fois où le joueur a été report ou non. Je m'avance peut-être un peu trop cependant.
L'algorithme ne se base donc pas seulement sur ce qui est dit, mais aussi sur d'autres facteurs, y compris les reports (Contrairement à ce que je pensais initialement). Ces métriques embarquées permettent donc d'avoir un jugement plus précis.
Je n'ai pas grand chose de plus à dire. Cela reste une expérimentation dont on a pas encore beaucoup de résultats pour le moment, et je pense que cela deviendra plus intéressant quand on en aura. Par contre, les parties classées sont devenues bien calmes je trouve... Évidemment, il y a toujours des conflits, et de la pression, mais j'ai noté une différence en tout cas, différence qui m'a presque surpris. Peut-être parce que j'ai tendance à essayer de calmer le jeu en général... Et vous, avez-vous constaté une différence ?
Si vous avez des questions sur le système, laissez ça dans un commentaire. J'essayerai de répondre du mieux que je peux. Attention par contre, je sais que le sujet est sensible, donc si jamais ça part en vrille, je modèrerai x) .
Quelques discussions supplémentaires avec Lyte et WookieCookie
À propos des statistiques, il y a une grande différence entre obtenir des chiffres, et interpréter mathématiquement ces derniers pour prouver qu'une variable a eu un impact significatif sur les résultats de l'expérience...
Tu sais, c'est un peu injuste de traiter les gens qui effectuent ces recherches de cette manière. La plupart des joueurs n'a jamais travaillé avec ce nombre et ce type de données, particulièrement quand cela a un rapport avec le comportement des joueurs. En fait, la plupart des scientifiques n'ont jamais travaillé avec ce genre de données avant.
Par exemple, tu parles de taille d'échantillon, de valeurs P, et d'hypothèses. Penses-tu vraiment que révéler toutes les données et valeurs que nous utilisons sont le problème ? Et que si nous le faisions, nous réussirions à convaincre les joueurs que nous utilisons une science robuste ici ? Comprends-tu pourquoi calculer des valeurs P peut ne pas être la meilleure approche lorsque ton échantillon dépasse les mille milliards ? Tu obtiens un effet significatif avec presque toutes les comparaisons par paires. Cela ne veut rien dire. Donc comment peux-tu analyser une expérimentation avec des millions d'interactions ? Quelles techniques de comparaisons multiples sont appropriées ? Faut-il en développer de nouvelles parce que cette proportion de données n'a encore jamais été analysée avant ? Est-ce que prendre 1% des effets est significatif quand il y a des milliards d'échantillons ? Peut-être, peut-être pas. Si tu sais que 1% des parties sont pires à cause d'une expérimentation, et regarde les millions de parties jouées toutes les heures... Cela a un impact énorme en pratique non ? Il y a des questions difficiles, et rarement des réponses faciles à donner. Les chercheurs chez Riot sont les meilleurs dans leur domaine, qu'il s'agisse de neuroscience, d'aéronautique, de bioinformatique, ou d'économie. Ils ont publié de nombreux de nombreux papiers dans les meilleurs journaux de leur domaine, ils ont travaillé avec d'anciens lauréats de prix nobels et leurs protégés. On continue à dépenser du temps pour atteindre de grandes institutions comme Harvard, MIT, Stanford, York, USC, etc... Pour collaborer dans les études, et faire des revues pour les journaux.
Nous demandons à nos chercheurs à Riot d'avoir des standards plus élevés que les académies. Pourquoi ? Par que nous nous soucions des joueurs et de leur expérience. En académie, des scientifiques sont OK avec des taux de confiance de 95% ou de 99%. Est-ce que vous vous moquez d'eux et de leurs suggestions pour autant ? Pourtant ici, 95% comme 99% est un gros chiffre. Une erreur pourrait impacter un joueur pour toujours s'il perd ses récompenses classées, ou son compte, et nous traitons cette responsabilité très sérieusement. Il y a eu une fois où une de nos analyses aurait pu fournir une expérience négative pour 6 joueurs. Juste 6. Cependant, 6 c'est trop, et nous sommes revenus sur cette analyse pour l'améliorer. Est-ce qu'on fait des erreurs ? Bien sûr. Les erreurs arriveront toujours. Mais discréditer les chercheurs de Riot parce qu'ils ne sont pas des "scientifiques" et n'adhèrent pas aux standards de la communauté scientifique est complètement idiot.
Est-ce que le problème est réellement la science ? Ou alors, c'est que certains joueurs sont en colère d'avoir reçu une punition, et qu'ils l'ont peut-être mérité ? Un joueur négatif peut être en désaccord avec ce que nous pensons être un comportement normal dans League of Legends, mais ça n'a jamais été uniquement l'opinion de Riot qui a décidé ce qui était OK ou non. C'est le choix de la communauté. Un joueur négatif peut être en désaccord avec la perspective de la communauté sur ce qui est OK ou non, mais ça ne rend pas la science mauvaise. Si le problème est réellement la science, parlons-en.
Note de Philidia : Ya un énorme wall of text sur les valeurs P après ça, c'est franchement indigeste, et je pense que rien que ça vous donne l'idée de la suite, donc je ne l'ai pas traduit. Mais vous avez probablement compris le principe, Lyte défend la méthodologie utilisée car il s'agit de données encore jamais exploitées par les meilleurs du domaine.
Pourquoi ne pas publier les résultats ?
Est-ce que les joueurs veulent qu'on se focalise sur la publication des résultats, ou sur les nouvelles fonctionnalités ? Si le temps n'était pas un problème, alors évidemment, on ferait plus de choses à la fois. De plus, même avec des résultats, on aurait tout de même à faire à des sceptiques. Les scientifiques font avec tous les jours.
Nous avons déjà révélé plus de données et de méthodologie que la plupart des studios. Jetez un oeil à la GDC, et aux conférences de Harvard, York, USC, MIT, etc... Les joueurs ont de plus été capable depuis longtemps de mener leurs propres analyses sur les données du tribunal quand il était en fonctionnement, et sans surprise, ils ont souvent les mêmes résultats que nous, avec peut-être un peu moins de précisions.
Les joueurs n'ont pas vraiment d'informations sur ce qui a causé leur restriction de chat, c'est dommage...
Complètement d'accord, il n'y a pas le même système de dossiers qu'au tribunal, mais c'est parce qu'il s'agit d'une expérimentation, et non d'une fonctionnalité définitive.
Dans le passé, nous avons utilisé les bans souvent. Nous avions des données sur les cas du tribunal, avant et après la mise en place de la possibilité de voir les dossiers pour les condamnés. Mais nous n'avions pas énormément de données sur les restrictions de messageries. À quel point sont-elles efficaces sans la possibilité pour le joueur de voir ce qu'il a fait ? Quelle est l'efficacité face aux problèmes qui ne sont pas relatifs à la communication ? Ce sont des questions qui trouveront leur réponse avec cette expérimentation, et nous saurons ainsi quoi mettre dans notre nouveau tribunal.
En parlant du tribunal, qu'est-ce qu'il devient ?
Concrètement, il a quelques problèmes :
- Le tribunal est conservateur dans beaucoup de cas, donc les joueurs n'ont leur punition qu'assez tard, le temps que le tribunal récupère davantage de preuve contre eux.
- Le tribunal n'a pas beaucoup bénéficié des recherches que nous avons fait pendant le développement du créateur d'équipe. Une des conséquences est qu'un cas du tribunal prend plus de temps à être clos qu'il ne devrait. Par exemple, disons qu'un cas nécessite 1000 votes. Nous avons actuellement beaucoup de données et pouvons examiner le chemin des votes pour déterminer quand un cas devrait être clos rapidement avec une très grande précision. Ainsi, nous pourrions clore ce genre de cas avec 20 votes et appliquer la pénalité (Ou la récompense, dans le futur).
- Le tribunal n'a pas amélioré sa technologie avec le temps et n'était pas vraiment conçu pour. C'est pourquoi les joueurs ont vu à plusieurs reprises le système en ligne puis hors ligne, essayant de faire de nouveaux cas.
Quels sont les résultats de l'expérimentation pour le moment ?
Nous avons jeté un oeil aux données collectées après avoir placé des restrictions de messagerie sur les comptes avec de hauts niveaux de toxicité. Nous sommes contents des résultats, une large majorité des joueurs a montré moins de toxicité.
Malheureusement, un petit pourcentage de compte a augmenté sa mauvaise attitude. Pour ces joueurs, nous avons décidé de placer des suspensions de 3 jours sur leur compte.
Même si le tribunal est en cours de mise à jour, nous avons des outils pour prendre des actions contre les mauvaises attitudes, et nous ne laisserons pas ces mauvais comportements impunis. Dans ce cas de figure, nous avons envoyé des mails aux comptes affectés.
Mais rien n'empêche dans cette expérimentation de se défouler sur le chat pré et post game...
Si, ces deux chats sont un motif de report, et certaines de nos expérimentations ciblent spécialement ces deux endroits.
Certains joueurs reviennent après leur pénalité, encore plus énervés, et agissent de sorte à ne plus être sanctionné par le système, avec du feeding volontaire par exemple
C'est vrai, certains joueurs reviennent plus énervés, mais ce n'est pas le cas pour la plupart d'entre eux. La majorité améliore sa communication, et ne sont pas touchés par une deuxième vague de restriction. Pour ceux qui continuent à afficher une attitude négative, ils auront juste plus de restrictions de messagerie, perdront les récompenses du mode classé, ou seront bannis définitivement du jeu.