Page 1 sur 1

Remontée des agents en erreur

Publié : 01 avr. 2019 - 14:08
par cchatoux
Bonjour,

Depuis le milieu de semaine dernière, nous avons prêt d'un tiers de nos machines qui sont à l'état déconnecté dans WAPT bien que accessible depuis le réseau.

Dans les logs de l'agent, je retrouve ceci :

2019-04-01 13:49:16,072 WARNING Websocket connect params: HTTPSConnectionPool(host='srv00-wapt01', port=443): Max retries exceeded with url: /get_websocket_auth_token (Caused by NewConnectionError('<urllib3.connection.VerifiedHTTPSConnection object at 0x4626EA50>: Failed to establish a new connection: [Errno 10055] Une op\xe9ration sur un socket n\x92a pas pu \xeatre effectu\xe9e car le syst\xe8me ne disposait pas de suffisamment d\x92espace dans la m\xe9moire tampon ou parce que la file d\x92attente \xe9tait satur\xe9e',))
2019-04-01 13:50:16,082 WARNING Websocket connect params: HTTPSConnectionPool(host='srv00-wapt01', port=443): Max retries exceeded with url: /get_websocket_auth_token (Caused by NewConnectionError('<urllib3.connection.VerifiedHTTPSConnection object at 0x4626ACD0>: Failed to establish a new connection: [Errno 10055] Une op\xe9ration sur un socket n\x92a pas pu \xeatre effectu\xe9e car le syst\xe8me ne disposait pas de suffisamment d\x92espace dans la m\xe9moire tampon ou parce que la file d\x92attente \xe9tait satur\xe9e',))
2019-04-01 13:51:16,095 WARNING Websocket connect params: HTTPSConnectionPool(host='srv00-wapt01', port=443): Max retries exceeded with url: /get_websocket_auth_token (Caused by NewConnectionError('<urllib3.connection.VerifiedHTTPSConnection object at 0x4626A710>: Failed to establish a new connection: [Errno 10055] Une op\xe9ration sur un socket n\x92a pas pu \xeatre effectu\xe9e car le syst\xe8me ne disposait pas de suffisamment d\x92espace dans la m\xe9moire tampon ou parce que la file d\x92attente \xe9tait satur\xe9e',))
2019-04-01 13:52:16,108 WARNING Websocket connect params: HTTPSConnectionPool(host='srv00-wapt01', port=443): Max retries exceeded with url: /get_websocket_auth_token (Caused by NewConnectionError('<urllib3.connection.VerifiedHTTPSConnection object at 0x46264AF0>: Failed to establish a new connection: [Errno 10055] Une op\xe9ration sur un socket n\x92a pas pu \xeatre effectu\xe9e car le syst\xe8me ne disposait pas de suffisamment d\x92espace dans la m\xe9moire tampon ou parce que la file d\x92attente \xe9tait satur\xe9e',))
2019-04-01 13:53:16,121 WARNING Websocket connect params: HTTPSConnectionPool(host='srv00-wapt01', port=443): Max retries exceeded with url: /get_websocket_auth_token (Caused by NewConnectionError('<urllib3.connection.VerifiedHTTPSConnection object at 0x46264BF0>: Failed to establish a new connection: [Errno 10055] Une op\xe9ration sur un socket n\x92a pas pu \xeatre effectu\xe9e car le syst\xe8me ne disposait pas de suffisamment d\x92espace dans la m\xe9moire tampon ou parce que la file d\x92attente \xe9tait satur\xe9e',))
2019-04-01 13:54:16,134 WARNING Websocket connect params: HTTPSConnectionPool(host='srv00-wapt01', port=443): Max retries exceeded with url: /get_websocket_auth_token (Caused by NewConnectionError('<urllib3.connection.VerifiedHTTPSConnection object at 0x462640D0>: Failed to establish a new connection: [Errno 10055] Une op\xe9ration sur un socket n\x92a pas pu \xeatre effectu\xe9e car le syst\xe8me ne disposait pas de suffisamment d\x92espace dans la m\xe9moire tampon ou parce que la file d\x92attente \xe9tait satur\xe9e',))
2019-04-01 13:55:16,970 WARNING Websocket connect params: HTTPSConnectionPool(host='srv00-wapt01', port=443): Max retries exceeded with url: /get_websocket_auth_token (Caused by NewConnectionError('<urllib3.connection.VerifiedHTTPSConnection object at 0x4626E7D0>: Failed to establish a new connection: [Errno 10055] Une op\xe9ration sur un socket n\x92a pas pu \xeatre effectu\xe9e car le syst\xe8me ne disposait pas de suffisamment d\x92espace dans la m\xe9moire tampon ou parce que la file d\x92attente \xe9tait satur\xe9e',))

Comment puis je corriger cela ?

Version 1.7.3.5 installé sur un windows server 2016 (1607)

Merci pour votre aide.

Re: Remontée des agents en erreur

Publié : 03 avr. 2019 - 19:54
par cchatoux
Bonjour,

J'ai essayé d'avancer un peu sur le sujet.
Il semble que les agents ouvrent beaucoup de socket vers le serveur et qu'a un moment donné, il n'y ai plus de port disponible pour communiquer. Je pensais que cela venait des ports d'écoute sur le serveur, mais cela semble plutôt être sur les machines clientes.
J'ai installé un nouveau serveur WAPT sur centOS 7 et j'ai le même souci avec 3 machines sur 5 qui communiquent avec ce nouveau serveur ...

D'apres le message d'erreur (10055) et de nombreux forum, il semble que Python (ou windows) ne clos pas correctement les connexions et que l'OS arrive rapidement à épuisement des ports disponibles.

Avez vous déjà rencontré ce problème ?

Cordialement,

Re: Remontée des agents en erreur

Publié : 04 avr. 2019 - 10:20
par htouvet
Bonjour,
Je ne me souviens pas avoir vu ce problème jusqu'à présent...
Il serait intéressant de voir pourquoi initialement la requête /get_websocket_auth_token vers le serveur est refusée (et potentiellement mal libérée laissant une socket ouverte)

Dans un cmd en administrateur avec élévation de privilèges, lancer runwaptservce.bat -ldebug et observer le comportement.
Vérifier les interception éventuelles des connections https par un antivirus local ou distant...

Vous pouvez aussi faire un "netstat -a -n" sur le client pour voir toutes les sockets et vérifie qu'il y en a bien trop vers le serveur wapt sur le port 443

Normalement il y en a une en mode ESTABLISHED de façon permanente (la connection websocket du client vers le serveur pour les actions depuis la console) et d'autres éventuellement en TIME_WAIT issue des update ou autres requêtes précédentes.
Les sockets en TIME_WAIT ou CLOSE_WAIT ne doivent pas rester plus de quatre minutes.

Re: Remontée des agents en erreur

Publié : 12 avr. 2019 - 10:44
par cchatoux
Bonjour,

Je n'arrive pas à vous fournir des logs du service.
Lorsque le problème arrive et que nous lançons la commande, cela redémarre le service et cela fonctionne ... Je vais voir pour laisser le debug tourner plusieurs jours sur un poste.

Cordialement,