Azienda Ospedaliera della Provincia di Lecco: Metrocluster

logo_ospedale lecco

Metrocluster

Azienda Ospedaliera della Provincia di Lecco: IT più semplice, efficiente e dinamica con MetroCluster NetApp

IT Manager, dott. Alberto Bacchi

Profilo del cliente: il Presidio Ospedaliero di Lecco

“Siamo una comunità di professionisti impegnata ad accogliere il paziente come persona nella sua integralità. Vogliamo costruire con la sua partecipazione percorsi di cura adeguati a rispondere ai suoi bisogni di salute. Lavoriamo per trovare – in un continuo cammino di miglioramento – il miglior rapporto possibile tra risorse impiegate e qualità/quantità del lavoro svolto”.

Questo recita la mission dell’Azienda Ospedaliera di Lecco: circa 3.000 dipendenti (tra medici, infermieri, operatori tecnico-sanitari, amministrativi); tre presidi ospedalieri (Manzoni di Lecco, Mandic di Merate, Umberto I di Bellano) con più di 1.100 posti letto accreditati; diverse sedi territoriali, tra poliambulatori e presidi per la salute mentale.

Una grande azienda, dunque: quella più importante del territorio, per numeri e dimensione economica, con un bilancio annuale di circa 240 milioni di euro. Un’azienda che "produce" salute e che investe costantemente in beni strutturali e tecnologici. Una realtà che è indubbiamente una risorsa e un patrimonio per il territorio e le sue comunità.

Situazione informatica precedente

La struttura informatica dell’azienda era così configurata: diversi server in DAS (direct attacched storage) un Clarion EMC ed una Netapp 2020 (che è stata integrata nella nuova struttura sul presidio di Merate).
I problemi e le limitazioni dovuti a questa impostazione sono stati principalmente: poca dinamicità, gestione eccessivamente problematica e complicata,  poca scalabilità e problemi per quanto riguardava la Business Continutiy.

La sfida

Diversi sono stati i motivi che hanno indotto l’Azienda a riprogettare alcune parti dell’infrastruttura IT:

- ottenere una maggiore dinamicità per poter operare in modo più libero e aperto;

- avere una gestione più semplice ed efficiente;

- avere una Business Continuity posizionabile su siti diversi e distanti

Nella maggior parte dei casi, quando si sviluppa un’infrastruttura cloud, si accetta il fatto che a una riduzione dei costi corrisponde una riduzione dei livelli di servizio (SLA).
Nonostante la nostra struttura sia fortemente attenta al budget, per mission e per il delicato settore in cui opera non poteva certamente permettersi una scelta del genere.

La soluzione

Per concretizzare le nostre esigenze, sapevamo che occorreva creare un'architettura basata su semplici componenti virtualizzati, dimensionabili in base alla necessità.

Per l’intera realizzazione del nuovo progetto ci siamo rivolti nuovamente al partner tecnologico Upgrade, che vanta un’ottima esperienza in campo di progettazione e gestione di strutture virtualizzate e detiene tutte le certifiche da noi richieste, in modo particolare la PSCP (ex APSP) di NetApp.

Dopo un’attenta analisi, la scelta finale è stata NetApp MetroCluster.

Metrocluster è una soluzione che permette di unire clustering basato su array con mirroring sincrono dei dati ed è quindi in grado di assicurare il funzionamento ininterrotto delle applicazioni critiche anche in caso di guasto. Inoltre, eliminando le attività ripetitive di gestione delle modifiche, si riducono notevolmente il rischio di errore umano e le spese amministrative.

La soluzione scelta ha previsto inoltre di combinare le soluzioni di storage NetApp e la virtualizzazione di VMware su server standard. Implementiamo solo i sistemi di storage NetApp più vasti disponibili per lo storage di produzione, in modo da essere certi di offrire prestazioni ottimali anche con livelli di utilizzo dello storage molto elevati.

metrocluster

Infrastruttura di storage_ NetApp MetroCluster

 

In particolare, le soluzioni offerte da NetApp ci hanno permesso di raggiungere i seguenti obiettivi:

1. Riduzione degli obiettivi RPO e RTO per un ripristino efficiente e conveniente
Rigidi requisiti di RPO e RTO dei clienti sono tra i livelli di servizio più difficili da soddisfare senza sfociare in un aumento dei costi. Per i servizi dinamici abbiamo adottato un approccio molto semplice, utilizzando il software NetApp MetroCluster per il mirroring.

Con MetroCluster viene eseguito il mirroring sincrono dei dati tra tutti i nostri data center twin-core. Se si verifica un guasto in un data center, siamo in grado di riavviare le applicazioni coinvolte presso l'altro data center senza perdite di dati (RPO pari a zero), inoltre i tempi per il riavvio delle applicazioni sono pari a 15 minuti o meno.

Utilizziamo inoltre VMware HA per fornire l'alta disponibilità per le applicazioni eseguite su macchine virtuali. In caso di guasto a un server fisico, le macchine virtuali coinvolte vengono automaticamente riavviate su altri server di produzione con capacità disponibile. Questo aspetto è complementare alla funzionalità di MetroCluster. Sia a livello di storage, sia a livello di server, un guasto fisico si traduce in un'interruzione delle attività minima o assente. 

2. Eliminazione dei tempi di inattività pianificati
Un ulteriore vantaggio apportato dalla configurazione di MetroCluster è la possibilità di eliminare la necessità di pianificare tempi di inattività per interventi di aggiornamento e manutenzione dei sistemi di storage. Con MetroCluster, eseguiamo semplicemente un failover manuale su un lato del cluster e aggiorniamo il sistema di storage dall'altro lato; eseguiamo quindi il failback e invertiamo il processo. Il risultato? Nessuna interruzione.

Lo stesso accade per le applicazioni eseguite su macchine virtuali VMware sui nostri server, utilizzando VMware VMotion. Lo stato completo della macchina virtuale viene incapsulato in un set di file su storage NetApp. VMotion consente di preservare l'esatto stato di esecuzione della macchina virtuale, l'identità di rete e le connessioni di rete attive, non vi è quindi interruzione dei sistemi né delle attività da parte degli utenti. Di conseguenza, siamo in grado di eseguire la migrazione di tutte le macchine virtuali in esecuzione su un determinato server in un'altra posizione, nello stesso data center o presso il data center gemello, aggiornare o eseguire la manutenzione del server, infine riposizionare le macchine virtuali senza alcuna necessità di interruzione.

3. Backup basato su disco e recupero file autonomo
Un altro importante cambiamento è stata l’eliminazione dei backup basati su nastro, metodo lento, di intensiva gestione e con elevato rischio di incorrere in errori che rendono difficili i ripristini
Avevamo bisogno di una soluzione più affidabile e allo stesso tempo conveniente. Abbiamo optato per una combinazione di copie NetApp Snapshot sullo storage primario e NetApp SnapVault, per backup con requisiti di conservazione più a lungo termine, sullo storage secondario. Per le applicazioni, la suite NetApp SnapManager consente backup standardizzati, in base alle applicazioni, mediante il coordinamento dell'efficiente approccio Snapshot con popolari applicazioni come SAP, Oracle e Microsoft Exchange. Possiamo così accedere autonomamente a tali copie Snapshot ed eseguire ripristini senza l'intervento tecnico. Per effettuare un ripristino occorrono pochi minuti e non più ore, e la percentuale di riuscita è praticamente del 100%.

4.
Sicurezza
Per la protezione dei dati, ci avvaliamo del software NetApp MultiStore che ci consente di creare più partizioni logiche distinte e assolutamente private su un singolo sistema di storage, in modo che più client possano condividere lo stesso sistema di storage senza compromettere la privacy e la sicurezza.

Commento dell’IT Manager e prossimi Sviluppi

Utilizzando l'infrastruttura descritta sopra come blocco di base, abbiamo ottenuto alti livelli di servizio che soddisfano completamente le nostre necessità:

- Provisioning rapido di nuove risorse
- Ripristino autonomo in pochi minuti
- 100% di riuscita per procedure di backup e ripristino
- DR a un settimo del costo
- Obiettivi RPO pari a zero e RTO di 15 minuti
- Migrazione semplificata
- Funzionalità di aggiornamento senza interruzione delle attività
- Aumento del 50% dell'utilizzo dello storage