Wops, denne blei sendt av gårde i feil retning... prøver igjen ;-)
2009/5/19 Petter Reinholdtsen pere@hungry.com:
[Sjur Nørstebø Moshagen]
Som nemnt før på denne lista, så kjem vi ikkje til å gjera meir for å forbetra Hunspell-versjonen. Vi vil i staden arbeida i lag med språkteknologimiljøet ved Helsingfors universitet med å laga ein stavekontroll bygd på HFST-teknologien [1].
Er denne HFST-teknologien tilgjengelig i OpenOffice.org på Linux? Jeg har ikke sett den i Debian. Hvis ikke, så vil samisk stavekontroll ikke blir tilgjengelig i linux-distribusjonene. Hunspell-utgaven er tilgjengelig i Debian fra utgave Lenny (dagens stabile), Ubuntu fra utgave intrepid (forrige utgave). Hvis den ikke blir vedlikeholdt fremover, så vil den nok falle ut fra både Debian og Ubuntu.
Vennlig hilsen,
Petter Reinholdtsen
[HFST] Does not implement yet another finite-state calculus, but rather utilizes existing free open source implementations: SFST, OpenFST [...]
frå ein veldig bra presentasjon som du finn lenkje til på http://wiki.apertium.org/wiki/HFST , der står det au kva som krevst om du vil prøve ut den finske HFST-en. Sjå http://packages.debian.org/sid/sfst for SFST-pakken. (HFST er vel meir ein «plattform» enn ei pakke?)
mvh, Kevin Brubeck Unhammer
PS: mens me er inne på fri datalingvistikk, http://www.d.umn.edu/~tpederse/Pubs/pedersen-last-word-2008.pdf er obligatorisk lesning...
Den 19. mai. 2009 kl. 11.53 skrev Kevin Brubeck Unhammer:
[HFST] Does not implement yet another finite-state calculus, but rather utilizes existing free open source implementations: SFST, OpenFST [...]
frå ein veldig bra presentasjon som du finn lenkje til på http://wiki.apertium.org/wiki/HFST , der står det au kva som krevst om du vil prøve ut den finske HFST-en. Sjå http://packages.debian.org/sid/sfst for SFST-pakken. (HFST er vel meir ein «plattform» enn ei pakke?)
HFST er ein abstraksjon og kompatibilitetsnivå over to andre transducerimplementasjonar: * SFST * OpenFST
Kompatibiliteten ligg i å gjera dei to andre implementasjonane i stand til å lesa kjeldefiler i formatet til de facto-standarden, dvs i LexC- formatet brukt av Xerox sin kommersielle transducerteknologi.
SFST er ein tradisjonell transducerkompilator, og OpenFST (frå AT&T/ Bell laboratories) er ein vekta transducerkompilator. Detaljane kan vi hoppa over her, men vekter betyr m.a. at det er mogleg å laga ein transducer som returnerer t.d. forslag til rettingar ferdig i prioritert rekkjefylgje (dvs med ein transducer brukt som stavekontroll) - ein treng altså ikkje postprosesserera forslaga for å sortera dei, og heller ikkje leggja inn komplekse algoritmar for dette formålet - vektinga og dermed rekkjefylgjen er ein del av språkmodellen... Det burde gje ein svært rask og fleksibel stavekontroll, og det er den vekta transducerteknologien vi satsar på i stavekontrollprosjektet med Helsingfors universitet.
Abstraksjonen gjer det òg relativt enkelt å byta ut eller komplementera SFST eller OpenFST med andre transducerkompilatorar i framtida, så ein er ikkje låst til dei to kompilatorane nemnde over.
Beste helsing Sjur