fredag den 23. september 2016

LibreOffice Calc er det sikre valg for videnskabelige artikler

Medier over hele verden har på det seneste omtalt resultatet af en australsk undersøgelse af en lang række videnskabelige artikler, som påstår at regnearksprogrammer fejlagtigt konverterer f.eks. navne på gener til datoer og flydende tal. Undersøgelsen er baseret på resultater fra Microsoft Excel men det påstås at det også gør sig gældende I LibreOffice Calc.

Før vi dykker ned I problemets detaljer, er det vigtigt at understrege at regneark som program ikke er egnet til at håndtere rådata, men derimod er beregnet til at foretage beregninger. Problemets kerne er i virkeligheden, at regneark anvendes til noget som regneark ikke er beregnet til, og de pågældende brugere i stedet burde anvende et mere passende program.

Data som importeres fra fremmede kilder bør håndteres I et databasesystem (som navnet antyder). Regneark er beregnet til at håndtere tal og foretage matematiske beregninger, og reagerer ofte på tekst ved at forsøge at fortolke teksten som tal.

For at gøre en lang historie kort, så konverterer LibreOffice Calc ikke MARCH1 eller SEPT2 til datoer, og det hverken på engelsk eller dansk. Uheldigvis påstår den australske undersøgelse at det modsatte gør sig gældende, og frembringer derved usandfærdige oplysninger.

LibreOffice har indtil version 4.2.4 (april 2014) konverteret MARCH1 til dato, men ikke  SEPT2. Fejlen er rettet i version 4.2.5 (juni 2014).

Omvendt konverterer LibreOffice Calc tallet 2310009E13 korrekt til 2.310009E+019 og ikke til 2.31E+13 som det påstås i undersøgelsen. Denne talgenkendelse er ikke bare forventet men påkrævet af et regnearksprogram, når tallet importeres som rådata.

I tilfælde hvor alle data i et datasæt skal betragtes som ren tekst, bør brugeren anvende LibreOffices specielle typografi-funktioner og oprette en skabelon, hvor alle celler på forhånd er formateret som tekst.

Alternativt kan brugeren anvende en af følgende metoder til korrekt import af rådata:
  1. Tilknytte tekstformat til alle anvendte celler
  2. Indsætte alle data som uformateret tekst i stedet for som HTML (eller hvilket format rådata kommer fra), og anvende tekstformat som kolonnetype i importdialogen.
  3. Anvende et passende dataformat til tabuleret tekst, f.eks. CSV eller TSV, og også her vælge tekstformat som kolonnetype i importdialogen.
Kort fortalt vil LibreOffice Calc, hvis programmet anvendes korrekt, have undgået de fejl som er omtalt i den australske undersøgelse.