Møtet fant sted på Akershus fylkeskommune (AFK), tirsdag 26. februar 2008 kl. 18–20:30.
Forrige møte fant sted på AFK, fredag 1. februar. 2007. Informasjon om møtet ligger på SpellNorwegian/Møte/2008-02-01.
Neste møte blir ? ---------------------------------------------------------- NB: --> Skal vi si neste møte blir mandag 10.3 kl. 17:30? ---------------------------------------------------------
Tilstede ======== Petter Reinholdtsen, Terje Erlend Reite og Axel Bojer.
Referent ======== Axel Bojer
Møtereferat ===========
Om skriptet «speling2words» og den tilhørende «make»-fila ========================================================== * Vi fortsatte med å se på «speling2words» -- hvordan den virker og hva den gjør, i sammenheng med Make-skriptet som den er koblet til (skriptet ligger i mappa «speling.org/src/spell-norwegian» i cvs-en til no.speling.org). Vi prøvde også å kjøre det, noe vi denne gang fikk til :-) Videre kommentarer/dokumentasjon (litt spredt, men mer finnes på nettsiden nevnt nedenfor): * Petters annonsering av skriptet: https://lister.ping.uio.no/pipermail/i18n-no/2007-November/005610.html * Noen byggeavhengigheter måtte løses, se: http://no.speling.org/lagNyeOrdlister.html * «apt-get build-dep inorwegian» skulle tatt hånd om alle avhengighetene (på Debian etch), men det virket ikke på Kubuntu 7.10 * «make update-from-spelingorg speling-new.nb speling-new.nn» eller bare «make update-from-spelingorg» skal altså virke, sist gjorde vi den feilen å bruke makefila i undermappa scripts, derfor virket det ikke. * Skriptet trenger minst 1 GB for å kjøres innen rimelig tid (ikke bruke vekselminne) fordi det er såpass mange ord som skal hentes inn i minnet og behandles. Axels bærbare taklet ikke dette :-/ * speling-good.nb/nn, som er nevnt i skriptet opprettes av skriptet underveis, det var derfor vi ikke fant disse filene noe sted :-) * Alle skripfilene er kodet i Latin1, da det er det eneste ispell forstår. Dette påvirker altså også aspell, myspell og hunspell. * Linje 114 er en lengre streng som skal filtrere ut uønskede ord, som antatt. Meningen med linja:
return unless m/^[a-cçd-eéêèëf-oóôòp-uüv-zæäøöåA-CÇD-EÉÊÈËF-OÓÔÒP-UÜV-ZÆÄØÖÅ]+$/;
er altså å bare bruke de ordene som inneholder gyldige norske tegn, og ingen andre. Dette fordi bl.a. en god del tall og uttrykk (setninger, altså mer enn ett ord) o.a også er med i ordbankens liste. Disse behøver vi ikke og/eller kan vi ikke bruke i stavekontrollen, så de filtrerer vi ut. * «make distcheck» sjekker at alt lar seg bygge (men ikke om innholdet er i orden) * Både nn.phonet.dat og nb.phonet.dat er symbolske lenker til samme fil (aspell-phonet.dat) * Ord på færre enn 3 bokstaver (altså ett eller 2 tegn) fjernes av speling2words, dette da de fleste 8eller alle) disse ordene er lagt inn allerede, dessuten finnes en god del enkelttegn i ordbankens liste som vi slik filtrerer ut. Med men funksjonen på linje 114 (se over) er ikke dette siste lenger viktig. * Som før nevnt er altså rekkefølgen: Ordbankens ordliste(1) --> Tyges database(2) --> Norsk.words(3). Fra (1) må endel ord filtreres bort (se nedenfor). Til (2) retter vi altså ved å sende inn rettede og sjekkede ord via e-post til en egen e-postliste. Alt på (3) ligger også på Tyge. * Følgende ord filtreres bort (se kildekoden til speling2words der dette er dokumentert nærmere): o Enkelttall, enkelttegn o Ord med punktum, hermetegn, apostrof, skråstrek og mellomrom, da ordlistene ikke klarer å håndtere dette (dette gjelder uttrykk som «hoppe over bord» o.a.). -- Som nevnt tas bare de ordene med som inneholder de tegnene som er listet opp ovenfor. (Hvis noen mener noen er utelatt, kan lista forlenges) o Ord med bindestrek (som ikke skriptet vårt håndterer).
Hva vi gjorde =========================================== * I tillegg til å gå igjennom dokumentasjonen ovenfor kjørte vi skriptet for å lage en ny ordliste. 18.947 ord ble avvist (se ovenfor for hva slags ord dette er).
Om ordbankens liste =========================================== Denne lista inneholder omtrent 1,6 millioner ord, som en fullformordliste. Lista er lagt ut til fri benyttelse under GPL på http://www.edd.uio.no/prosjekt/ordbanken/ Sida krever at du registrerer deg.
Gjøremål (både langsiktige og kortsiktige) =========================================== * Vi ble enige om å gi ut en ny versjon snarest. Vi velger å utelate ord som inneholder ordelingsregler, da vi fant mange feil der og ikke har tid nå til å sjekke alle. Dette er uansett nye ord, så vi får bare færre nye ord på denne måten (det vil si færre av ordbankens ord og færre av de som er lagt inn siden sist via e-post-innmeldingssystemet). Petter bygger. * I makefila kan ssed-kommandoene forbedres slik at den sjekker om de filene som er opprettet er i orden før den legger inn de foreløpige filene som nye filer. * Legge inn lenke til og siste versjon av Ordbankens liste i no.speling.orgs cvs og de tilhørende nettsidene. Disse ligger her: http://www.edd.uio.no/prosjekt/ordbanken/ * Legg inn nærmere informasjon om et skript på Tyge som lar en legge inn mange ord på en gang, skal være postet på i18n-lista. * Samle informasjonen fra e-postlistene, møtereferatene og andre kilder til et enhetlig dokument med lenker slik at alt ligger samlet og oversiktlig. Først når vi forstår det systemet vi har kan vi bestemme hvor vi bør forbedre det og bestemme hva som er kortsiktig og hva som er langsiktige planer. * Flere gjøremål er nevnt i tidligere møtereferater.
Axel Bojer wrote:
Møtet fant sted på Akershus fylkeskommune (AFK), tirsdag 26. februar 2008 kl. 18–20:30.
(...)
Gjøremål (både langsiktige og kortsiktige)
- Vi ble enige om å gi ut en ny versjon snarest. Vi velger å utelate
ord som inneholder ordelingsregler, da vi fant mange feil der og ikke har tid nå til å sjekke alle. Dette er uansett nye ord, så vi får bare færre nye ord på denne måten (det vil si færre av ordbankens ord og færre av de som er lagt inn siden sist via e-post-innmeldingssystemet). Petter bygger.
Henviser spesielt oppmerksomheten på dette punktet. Noen må gjøre den vanskelige jobben å avgjøre om 200.000 nye ord skal inn og hvor mye og hvor grundig de skal sjekkes. Ordene kommer fra ordbankens liste *og* fra e-postinnmeldte ord. (korrektur krøllalfa nb speling org) De fleste av disse ordene er sikkert greie (se referatet for detaljer om hvilke sjekker som foretas), men det er en mulighet for feil. Såvidt jeg ser det blir sjansene for feilstavinger slik færre, og den eneste faren jeg kan se er at noen feilstavede ord kan unnslippe sin velberettigede røde strek. vet ikke hvor stor denne faren er. Petter?
Hilsen Axel
[Axel Bojer]
Såvidt jeg ser det blir sjansene for feilstavinger slik færre, og den eneste faren jeg kan se er at noen feilstavede ord kan unnslippe sin velberettigede røde strek. vet ikke hvor stor denne faren er. Petter?
Aner ikke hvor stor sjansen er, men tror den er på nivå med, eller mindre enn, sjansen for at det allerede er feil i ordene som ligger i norsk.words. Dermed tror jeg vi enten holder oss på samme nivå av feil som tidligere, eller reduserer nivået litt.
Vennlig hilsen,
Petter Reinholdtsen wrote:
[Axel Bojer]
Såvidt jeg ser det blir sjansene for feilstavinger slik færre, og den eneste faren jeg kan se er at noen feilstavede ord kan unnslippe sin velberettigede røde strek. vet ikke hvor stor denne faren er. Petter?
Aner ikke hvor stor sjansen er, men tror den er på nivå med, eller mindre enn, sjansen for at det allerede er feil i ordene som ligger i norsk.words. Dermed tror jeg vi enten holder oss på samme nivå av feil som tidligere, eller reduserer nivået litt.
I så fall bør jo alt tale for at vi gjør som planlagt :-) -- Og at flere aktiveres i retteprosjektet :-P
Hilsen Axel
Axel Bojer wrote:
Møtet fant sted på Akershus fylkeskommune (AFK), tirsdag 26. februar 2008 kl. 18–20:30.
Forrige møte fant sted på AFK, fredag 1. februar. 2007. Informasjon om møtet ligger på SpellNorwegian/Møte/2008-02-01.
Neste møte blir ?
NB: --> Skal vi si neste møte blir mandag 10.3 kl. 17:30?
Fikk ingen svar på dette. Er det greit å holde møtet i kveld? Hvem kan?
Ellers er jo morgendagen en mulighet ...
Hilsen Axel
[Axel Bojer]
Fikk ingen svar på dette. Er det greit å holde møtet i kveld? Hvem kan?
Ellers er jo morgendagen en mulighet ...
La ikker merke til den før nå. Jeg kan ikke hele uka. Er ledig og i Oslo i starten av påskeuka.
Vennlig hilsen,
Petter Reinholdtsen wrote:
[Axel Bojer]
Fikk ingen svar på dette. Er det greit å holde møtet i kveld? Hvem kan?
Ellers er jo morgendagen en mulighet ...
La ikker merke til den før nå. Jeg kan ikke hele uka. Er ledig og i Oslo i starten av påskeuka.
Michael Foegberg svarer også at han er opptatt i kveld og i morgen. Skal vi ta mandag neste uke? (ev. tirsdag)
Hilsen Axel