Lauantaina 10.6. ja sunnuntaina 11.6. palvelumme kärsi vakavista ongelmista. Lauantain ongelma liittyi Helsingin verkkoon, kun sunnuntaina Ranskassa havaittiin levyongelma. Kyseessä on vakavin katastrofi mihin Net9 Oy on törmännyt.

Lauantai 10.6.

Mitä tapahtui?

Noin kello 16.00 huomasimme Helsingin verkossa vakavan ongelman. Pääreitittimemme oli täysin saavuttamattomissa ja ongelman syy ei ollut tiedossa. Tämä johti laajaan katkokseen Suomen puoleisessa verkossamme.

Ratkaisu

Hälytimme välittömästi palvelinsalin päivystäjän paikalle tutkimaan tilannetta. Päivystäjä yritti käynnistää reititintä uudelleen tuloksetta. Vaikutti siltä, että reitittimessä olisi jonkin tason laitteisto-ongelma joka ei ollut päivystäjän ratkottavissa. Lähin asiantuntijamme oli 2 tunnin ajomatkan päässä palvelinkeskuksesta, kun kyseessä sattui juuri olemaan lauantai-ilta.

Asiantuntija ajoi palvelinkeskukselle ja ongelma ratkaistiin noin kello 19.00 poistamalla virheellinen kytkentä reitittimestä.

Syy

Ongelman osasyynä oli asentajan tekemä virheellinen kytkentä reitittimessä, joka  sattui tässä tilanteessa estämään reitittimen käynnistymisen. Virheellinen kytkentä ei pelkästään johtaisi tällaiseen tilanteeseen.

Jokin odottamaton tapahtuma reitittimen käyttöjärjestelmässä oli saanut reitittimen käynnistymään uudelleen hallitsemattomasti, jolloin virheellisestä kytkennästä johtuen reititin oletti ihmisen yhdistäneen siihen paikallisesti kaapelilla. Reititin odotti komentoa ennen käyttöjärjestelmän lataamista tältä "ihmiseltä". Tätä voi verrata esimerkiksi oman koneen käyttöjärjestelmävalikkoon.

Nämä kaksi syytä siis yhdessä aiheuttivat sen, että paikan päälle vaadittiin henkilö poistamaan virheellinen kytkentä ja toimittamaan manuaalinen uudelleenkäynnistys.

Jatkotoimenpiteet

Pyrimme hankkimaan pääkaupunkiseudulta yritykselle oman päivystäjän, joka kykenee tekemään operaatioita laitteistossamme pienemmällä varoitusajalla. Palvelinsaliin on tuotu varareititin mahdollista laiterikkoa korvaamaan, joka on vaihdettavissa tilalle tarpeen vaatiessa. Tutkimme mahdollisuutta kuormanjakoon kahden reitittimen kesken, taikka ns. hot spare -varmennuksen toteuttamista palvelinsalimme reitittimiin.

Sunnuntai 11.6.

Mitä tapahtui?

Kokonainen levypakka hävisi palvelimestamme Ranskassa ilman mitään syytä noin kello 9:00. Tämä johti siihen, että noin 1/3 Ranskassa olevista palvelimista menetettiin.

Ratkaisu

Kaikki puuttuva asiakasdata palautettiin joko 10.6. tai 11.6 aamun varmuuskopioista. Kohteeksi osuivat Minecraft-palvelimet joiden IP-osoiteet olivat 151.80.78.207, 151.80.78.211 ja 151.80.78.215. Itse Net9.fi sivuston maksuportaali menetti 24 tunnin ajalta dataa, sillä lähin varmuuskopio oli 10.6. kello 9:00. Kaikki maksut, tilaukset ja muut vastaavat jotka ovat tulleet välillä 10.6. klo 9.00 - 11.6. klo 9.00 ovat kadoksissa. Pyrimme lisäämään nämä käsin maksupalveluista mahdollisimman pian.

Jos sinulla on jokin kriittinen maksu joka puuttuu tililtäsi, ota yhteyttä asiakaspalveluumme. Voit nopeuttaa tapahtumaa lähettämällä kuitin sähköpostistasi.

Syy

Ongelman syy ei ole tiedossa. Selvitämme laitteistovalmistajan (Dell) ja operaattorin (Online.net) kanssa vian syytä. Kyseessä oletetaan olleen harvinainen laitteistovika.

Jatkotoimenpiteet

Tulemme tulevaisuudessa käyttämään replikointia tietokantamme jakamiseen kahdelle eri palvelimelle, jotta datan menetys kyetään minimoimaan vastaavan skenaarion tapahtuessa tulevaisuudessa. Pyrimme järjestämään 1-2 kertaa vuodessa katastrofitoipumisharjoitukset, jossa henkilökunta harjoittelee järjestelmän toipumista vastaavasta katastrofista, jotta toipuminen oikean sattuessa on nopeampaa.



Sunday, June 11, 2017

« Takaisin