Indhold

Indledning

Dette dokument indeholder analyse af log data fra den første performance test, som er kørt for Minlog2. Testene er kørt forår 2020. Analysen dækker

MinLog2 - Performancetest rapport borger lookup
MinLog2 - Performancetest rapport medhjælper lookup
MinLog2 - Performancetest rapport minlog1 lookup
MinLog 2 - Performancetest rapport registration

Detaljer omkring performance test vejledningen findes her. Her kan læses omkring de log filer, som ligger til grund for analysen, hvilket scope testen er kørt i, hvordan test er kørt og hvilke krav, der er til komponenten under test.

Se iøvrigt krav til performance test og rapport på siden https://www.nspop.dk/display/public/web/Performancekrav

Læsevejledning

Læseren forventes at have kendskab til National Sundheds-IT's platform NSP, samt generelt kendskab til WildFly applikation server, MariaDB, Kafka og java.

Dokumenthistorik

Version	Dato	Ansvarlig	Beskrivelse
1.0	14-12-2020	KvalitetsIT	Dokument oprettet som en kopi af test rapport Tekst, som ikke har med performance test er fjernet Test vejledning er fjernet, da dette findes andetsteds

Definitioner og forkortelser

Definition	Beskrivelse
NSP	Den nationale service platform (inden for sundheds-IT)

MinLog2 - Performancetest rapport borger lookup

Performance testen består af en række kald til opslag efter logninger på forskellige cpr numre. Et sådant enkelt opslag vil svare til, hvad en borger vil udføre, skulle han ville se, hvad der er registreret om ham.

Testen udført er komponent "minlog2", testplan "lookupidws" og distribution "test900".

MinLog 2 service er version 2.0.25perf og NSP standard performance test framework version 2.0.21.

De rå test resultater er vedhæftet denne side (minlog2_lookupidws_test900_run1.tar.gz)

JMeter log

JMeter hoved filen beskriver overordnet testens resultat. Her kan kan ses, at der er kørt 10 iterationer med test, deres tidsinterval , throughput og fejlprocent for hver.

Iteration	Tråde	Nodes	Starttid	Sluttid	Throughput	Fejlprocent
1	1	2	2020-03-12_10-02-36	2020-03-12_10-17-40	3,26 kald per sekund	0 %
2	2	2	2020-03-12_10-17-57	2020-03-12_10-33-00	5,89 kald per sekund	0 %
3	3	2	2020-03-12_10-33-19	2020-03-12_10-48-23	8,6 kald per sekund	0 %
4	4	2	2020-03-12_10-48-40	2020-03-12_11-03-45	10,89 kald per sekund	0 %
5	5	2	2020-03-12_11-04-01	2020-03-12_11-19-05	12,91 kald per sekund	0 %
6	6	2	2020-03-12_11-19-22	2020-03-12_11-34-27	14,42 kald per sekund	0 %
7	6	3	2020-03-12_11-34-47	2020-03-12_11-49-50	20,82 kald per sekund	0 %
8	6	4	2020-03-12_11-50-26	2020-03-12_12-05-39	26,93 kald per sekund	0 %
9	6	5	2020-03-12_12-06-40	2020-03-12_12-21-43	34,04 kald per sekund	0,008 %
10	6	6	2020-03-12_12-22-36	2020-03-12_12-37-41	37,12 kald per sekund	0 %

Det fremgår også af filen, at den endelige måling af throughput er 37,12 kald per sekund.

Samt at fejlprocentet på den fulde kørsel er 0 %.

Access log

Denne log findes for hver applikations server (docker container).

Her findes data for hvert enkelt kald, der er lavet til minlog servicen, herunder hvor lang tid et kald har taget (Duration), samt hvornår kaldet er udført. Ud fra loggens data kan man også beregne hvor mange kald der udføres i en given periode.

De følgende 2 grafer viser 95 % hendholdsvis 98 % percentil for kaldende. Grupperingen er 10 minutter:

Det ses af graferne, at jo flere nodes/tråde jo højere bliver svar tiden overordnet set.

Den næste graf viser antal kald per sekund:

Af grafen fremgår det, at jo flere nodes og tråde (disse øges over tid, per iteration) jo flere kald kommer der igennem per sekund overordnet set.

Vurdering

Performance kravene

under 2,50 sekund for 95 % af tilfældende; dette overstiges ifølge "95 % percentil grafen" ikke. Max svartiden er her under 2 sekund
under 5,5 sekund for 98 % af tilfældende; dette overstiges ifølge "98 % percentil grafen" ikke. Max svartiden er her under 2,6 sekunder

Vi er inden for performance kravene i testens fulde køretid.

Vmstat log

Denne log findes for hver applikations server (docker container). Den viser resultatet af kommandoen vmstat

Udtræk omkring cpu fra denne log vises i de følgende grafer:

Data serier i grafen er:

cpuNonKernel (rød): tid brugt på non-kernel opgaver
cpuKernel (blå): tid brugt på kernel opgaver
cpuIdle (grøn): tid brugt på ingenting
cpuWaitIO (gul): tid brugt på at vente på i/o
iterationerne (sort) er en cirka placering, da wmstat loggen ikke indeholder tidstempel

Man kan se at cpuIdle og cpuNonKernel påvirkes lidt som servicen presses mere. cpuIdle ligger lavere over tid, mens cpuNonKernel grafen ligger en smule højere over tid. Den generelle flyt af kurverne er dog ikke faretruende.

Man kan også se, at cpuIdle dykker til 0 nogle få gange hen over iterationerne. Når dette sker er der en stigning i cpuKernal. Udsvingende vender dog retur til udgangspunktet.

Udtræk omkring io læs og skriv fra vmstat vises i de følgende grafer:

Data serier i grafen er:

ioBlockRead (rød): læsning på disk (blokke)
ioBlockWrite (blå): skriving på disk (blokke)
iterationerne (sort) er en cirka placering, da wmstat loggen ikke indeholder tidstempel

Der er lidt løbende skriv til disken mens testen kører, og sammenligner man graferne fra før på cpu forbrug, ses det, at de få store udsving i skrivninger falder sammen med at cpuKernal går op og cpuIdle går ned.

Vurdering

Der er intet negativt at bemærke omkring cpu forbruget eller io.

Jstat log

Denne log findes for hver applikations server (docker container). Loggen viser resultatet af kommandoen jstat. Jstat siger noget om, hvordan JVM'en har det.

Udtræk omkring hukommelse og garbage collection fra denne log vises i de følgende grafer:

Data serier i grafen er:

YGC (rød): young generation garbage collection events, antal af "ung" garbage collection siden start
FGC (blå): full garbage collection events, antal af fuldstændig garbage collection siden start
HeapU (gul): består af S0U+S1U+EU fra jstat loggen. Young generation memory utilization. "Ung" hukommelses forbrug
HeapC (grøn): består af S0C+S1C+EC fra jstat loggen. Young generation memory capacity. "Ung" hukommelses kapacitet
OU_MB (pink): old space utilization. "Ældre" hukommelses forbrug
OC: old space capacity. "Ældre" hukommelses kapacitet er ikke en del af grafen men er konstant på 1.398.272 KB.
Iterationer (sort) er baseret på det tidstempel, som findes i jstatloggen

Det kan være lidt svært at se graferne for full garbage collection (FGC). Kigger man nærmere på datagrundlaget bag graferne, ses det, at der ikke er full garbage collection for servicen under testen.

Der er en meget svag stigende tendens på den ældre hukommelse (OU_MB). Man må gå ud fra, at kommer den op på en kritisk grænse, da vil systemet køre en full garbage collection (FGC).

Der køres ofte garbage collection på den yngre hukommelse, hvilket holder HeapU - yngre hukommelses forbrug - nede så den kun svinger inden for et konstant interval.

Vurdering

Den yngre forbrugte hukommelse eskalerer ikke. Garbage collecteren gør sit arbejde.

Docker stats log

Denne log findes for hver applikations server (docker container). Loggen viser resultatet af kommandoen docker stats. Docker stats siger noget om, hvordan containeren forbruger sine ressourcer.

Udtræk omkring hukommelse, cpu og netværkstrafik vises i følgende grafer.

Hukommelse:

Data serier i grafen er:

memoryUsage (rød): den totale mængde hukommelse containeren bruger
memoryLimit (blå): den totale mængde hukommelse contaneren kan bruge

Den forbrugte hukommelse er meget stabil.

Cpu og hukommelse procent:

Data serier i grafen er:

cpuPct (rød): hvor mange procent af hostens cpu containeren bruger
memoryPct (blå): hvor mange procent af hostens hukommelse containeren bruger

Servicen viser et stabilt forbrug af hukommelse. Den envendte cpu er svagt stigende som servicen bliver presset.

Netværk:

Data serier i grafen er:

netIn (rød): den mængde data som er modtaget af containeren over netværket
netOut (blå): den mængde data som er sendt ud af containeren over netværket

De 2 grafer for ind- og udsendt data følges ad, hvilket er forventeligt; indkomne kald skaber trafik til database og igen retur til kalder. netOut stiger mest.

Vurdering

Der er intet at bemærke som kan påvirke servicens performance i negativ retning.

Konklusion

Efter at have analyseres data fra performance testen kan følgende trækkes frem:

Throughput på testen er 37,12 kald per sekund
Gennemsnitlig højeste svartid per kald til servicen:
For 95 % percentil: under 2 sekunder
For 98 % percentil: under 2,6 sekunder
Kravene på under 2,5 henholdsvis 5,5 sekunder er overholdt
Cpu status: cpu forbruget stiger lidt over test perioden, som servicen presses mere. Dog kun kortvarigt.

io på netværk: stiger over tid, hvilket er forventet
Hukommelses forbrug: servicen håndterer brug af hukommelse fint
Garbage collection: servicen kører jævnligt garbage collection og dermed stiger hukommelses forbruget ikke over tid. Dette er et tegn på, at vi ikke har memory leaks.

Analysen af performance test data har ikke givet anledning til bekymring eller identificering af flaskehalse.

MinLog2 - Performancetest rapport medhjælper lookup

Performance testen består af en række kald til opslag efter logninger på forskellige cpr numre i medhjælper loggen. Et sådant enkelt opslag vil svare til en læge, der vil verificere, hvilke logninger en given medhjælper har givet anledning til.

Testen udført er komponent "minlog2", testplan "lookup_onbehalfof" og distribution "test900".

MinLog 2 service er version 2.0.24perf og NSP standard performance test framework version 2.0.19

De rå test resultater er vedhæftet denne side (minlog2-lookup_onbehalfof_test900_run1.tar.gz)

Indledningsvis skal siges, at servicen kørende på docker1 gik i fejl sidst i testen pga memory problemer. Der mangler derfor access log data for ca. 10 minutter i slutningen af testen.