LoLTracker

4 minutes reading time (822 words)

Message post-incident : 29/03

lundi 31 mars 2014

Lorsqu'on commence à lire le titre d'un tel article, on a de suite une impression de déjà vu, ou alors une certaine habitude. Il faut dire que jouer sur l'EUW n'est pas de tout repos. En tout cas, Riot continue à communiquer sur la cause des incidents. Notez au passage que Draggles a signalé qu'on devrait avoir des nouvelles du datacenter d'Amsterdam avec l'habituel post d'Errigal, venant à chaque fin de mois (Ou début du mois suivant).

J’ai fait un post l’autre jour concernant les problèmes affectant EUW. Voici un nouveau post pour vous dire ce que nous avons fait ces derniers jours.

1) Nous avons fait quelques réglages aux scripts de démarrage du logiciel du mise en cache de mémoire pour éviter le redémarrage automatique des nodes en pénurie de mémoire.
Ce changement nous a déjà permis d’éviter des pannes complètes de la plateforme lorsqu’une ou plusieurs nodes n’ont plus de mémoire et limite l’impact de problèmes à une panne de moindre envergure et qui ne dure que quelques minutes. Un inconvénient de ces petites pannes est la file d’attente de 15-20 minutes avant que tout le monde puisse se reconnecter.

2) Hier soir nous avons fait une brève maintenance pour réduire une partie de la capacité excessive que nous avions ajouté le 6 mars. Nous n’avons pas enlevé toute la capacité en excédent, nous l’avons juste réduite pour ramener les choses au niveau où elles étaient le mois dernier.

3) Nous avons identifié un bout de code inefficace qui causait la file d’attente indirectement en éjectant des joueurs quand le problème de mémoire survenait. Nous sommes en train de recoder cela en ce moment.

4) Nous conduisons des tests de charge sur des améliorations de code que nous avons fait pour le prochain patch pendant plus de 24 heures dans un environnement de test qui correspond à l’environnement d’EUW pour nous assurer qu’elles soient prêtes à sortir. Nous voulons être sûrs que ces améliorations de code ne causeront pas de nouveaux problèmes.

5) Nous allons faire des changements par étapes pendant les prochains jours. La raison de les faire par étapes est de comprendre les effets de chaque changement, plutôt que de les faire tous en même temps et ne pas pouvoir mettre le doigt sur quel changement a causé une amélioration, ou d’autres problèmes.

Post de l'autre jour (26/03) :

En ce qui concerne les récents problèmes survenus sur EUW.

Nous avons rassemblé une équipe chargée de les traiter. Cette équipe est composée d'ingénieurs plateforme, d'un producteur live, d'ingénieurs réseau et de moi-même.

Le problème en question implique des difficultés de communication entre requêtes envoyées par les connexions des utilisateurs et les systèmes prévus pour eux, par conséquent ces requêtes parviennent difficilement à aboutir, ce que nous appelons dans notre jargon des « time-out ». Des déconnexions massives en résultent. Évidemment les joueurs impactés souhaitent tous se reconnecter en même temps, créant une file d'attente grandissante de manière exponentielle.

Pourquoi cela arrive ?
Un ou plusieurs de nos systèmes de gestion de la mémoire ont rencontré un problème particulier de mémoire insuffisante, créant un effet domino impactant plusieurs sous-systèmes.

Les détails. (plus d'informations sur le post originel, en bas de page).
Note architecture consiste en de multiples systèmes qui communiquent au travers d'une couche que nous appelerons « couche de mise en mémoire cache ». Bien que ce phénomène soit standard, il est cependant exceptionnel en taile à notre échelle. En fait, le système qui est tombé à court de mémoire de communiquait pas correctement les données vers le réseau créant une congestion. Bien que nous ayons un système automatisé pour éviter ce type d'erreurs, qui jusqu'à maintenant a parfaitement bien fonctionné, s'est avéré déficient pour la première fois. Sans rentrer dans les détails techniques, nous avons rencontré un bogue et avons par conséquent contacté le concepteur du logiciel mis en cause.

Ce que nous faisons de notre côté ?
1) Nous désactivons les systèmes automatisés mis en cause pour éviter la récurrence de ces problèmes
2) Nous effectuons des tests sur la version la plus récente du logiciel en prévision de son implémentation
3) Nous souhaitons séparer les statistiques en fin de partie vers une nouvelle file afin de permettre aux joueurs de revenir en jeu plus rapidement.

Riot Ricewind

Note de Philidia :

Si vous vous souvenez de mon article (Ou de mon post, selon l'endroit où vous l'avez lu) qui clarifiait les choses sur les différentes rumeurs, je pense qu'aujourd'hui, on est arrivé au même niveau que les Coréens. Ce n'est pas quelque chose de "phénoménal", mais, j'en tiendrai compte par la suite. On verra ce que fera Riot, une fois posé dans le datacenter d'Amsterdam, mais ils sont attendu au tournant par les joueurs, ça c'est sûr.

Mots-clés :

Problèmes serveurs