Har ikke mulighet til å være med på rekonstruksjonen av arkivene, men lurer på om community på epostlisten Mailman-users vet om noen flere verktøy eller skript som kan forenkle eller redusere arbeidsbyrden.
https://mail.python.org/mailman/listinfo/mailman-users
Ellers fikk jeg nettopp invitasjon til gravøl i PING -- jeg tolker det som et signal om at prosessen med flytting av språklistene til ny Mailman-installasjon gjerne kan opptrappes eller opp-prioriteres litt.
Som nevnt i en annen epost mener jeg at NUUG fremstår som det klart beste alternativet, og foreslår å gi Solbu fullmakt til å sette igang prosessen med å flytte listene. Og at vi får på plass en egen Mailman-driftsgruppe under NUUG-paraplyen.
Thomas Gramstad
On Sat, 9 Jun 2018, Karl Ove Hufthammer wrote:
Eg har som tidlegare nemnt lasta ned arkiva for i18n-*-listene, slik at me kan få desse med oss til ei ny liste. Arkivet går heilt tilbake til år 2000, og inneheld svært mykje interessant, både terminologidiskusjonar og andre diskusjonar som fortel om kva som har blitt gjort i omsettingsmiljøet opp gjennom åra. Og her kan ein slå opp dersom ein lurer på korfor noko vart som det vart i fellesordlista.
Men no viser det seg at arkivet dessverre har store tekniske problem. Det er det tilsynelatande evige problemet med teiknkoding … At tekst er feilmerkt når det gjeld teiknkoding er rimeleg lett å retta opp i, men når det gjeld listearkivet, har visst arkivprogramvara nokre gongar *fjerna* teikn ho ikkje forstår og erstatta dei med ?-teikn. Informasjon om kva som opphavleg stod der er altså *tapt*. Dette gjeld typisk våre særnorske bokstavar, æ, ø og å, som me naturleg nok har brukt ein del av …
Merkeleg nok er det på *nokre* meldingar ingen problem, mens på andre er det fullt av ?-teikn. Og det er ikkje slik at det er dei *eldste* meldingane som nødvendigvis har problem. Eg tippar det har noko å gjera med kva teiknkoding (eks. ISO 8859-1 vs. UTF-8) og anna koding (Quoted-Printable vs rå 8-bits byte) som e-postprogrammet til avsendaren har brukt.
Eksempel: November 2009 (problem): https://lister.ping.uio.no/pipermail/i18n-no/2009-October.txt Mars 2000 (ikkje problem): https://lister.ping.uio.no/pipermail/i18n-no/2000-March.txt
Men så viser det seg at *visingsversjonane* av innlegga på listene, der meldingshovud er fjerna og sjølve innleggsteksten er gjort om til HTML (med ting som liknar på lenkjer gjort om til ekte lenkjer), har bevart teikna. Sjå for eksempel vising av første innlegg frå november 2009, som var feil i arkivfila lenkja til ovanfor:
https://lister.ping.uio.no/pipermail/i18n-no/2009-October/007114.html
Så det går truleg an å *rekonstruera* det faktiske innhaldet i arkivfilene der æ, ø og å (og andre ikkje-ASCII-teikn) er erstatta med ?-teikn, ved å kopiera teksten frå HTML-sidene over til arkivtekstfilene (og ev. gjera andre smårettingar der HTML-konverteringa har vore overivrig).
Men visingsversjonane er heller ikkje til å stola på. Om den opphavlege e-posten er koda med Quoted-Printable, er kanskje visingsversjonen heller uleseleg, eks.:
https://lister.ping.uio.no/mailman/lister.ping.uio.no/private/i18n-no/2006-F...
Og for nokre innlegg var sjølv *originalinnlegga* feil, då deltakarane brukte ulike e-postprogram, og desse var ikkje heilt kompatible når det gjaldt teiknkoding, slik at delar av ein e-post er i éi teiknkoding og delar av han er i ei anna.
Og for ganske mange innlegg er faktisk arkivfilversjonane heilt OK!
Men uansett ser det ut til at me kan rekonstruera den opphavlege meinte teksten i dei fleste tilfella, slik at me får eit lesbart arkiv. Dette er dessverre arbeid som iallfall *dels* må gjerast manuelt. No lurer eg på om det er nokon frivillige her på lista som er interessert i å bidra, slik at me kan få eit komplett, fungerande arkiv. Det krev stort sett ikkje veldig tekniske kunnskapar. Så lenge ein kan bruka eit vanleg skriveprogram (som Kate, KWrite, Vim eller Emacs) bør ein få det til.
Det er litt putlearbeid, som me kanskje kan få gjort over tid. Mitt forslag er:
Me (eg) opprettar eit Git-depot (ein eller annan plass) med dei opphavlege innlegga.
Kanskje delt opp i éi fil per e-post (om det er lett å få til) og organisert i mapper med namn ÅÅÅÅ-MM?
Frivillige går manuelt gjennom e-postane og rettar opp (kan få ein arbeidsplan der ein for eksempel får eitt månadsarkiv kvar om gongen). Rettingane kan føregå via direkteinnsending (der vedkommande har fått skrivetilgang til Git-depotet), diff-filer på e-post eller «pull requests» dersom me brukar GitHub eller liknande.
Til slutt får me eit komplett, fint arkiv som me kan importera til den nye lista vår. :) Eller visa på nettet på ymse vis. Og me vil òg ha ein logg over alle endringar som er gjort på filene, i tilfelle noko har gått gale.
Innspel? Kommentarar? Nokon som er frivillige til å vera med på arbeidet?