FinnWordNetin sanastoon perustuvat HFST-transduktorit ===================================================== Tämä paketti sisältää FinnWordNetin sanastodatan pohjalta luotuja HFST-transduktoreita, joita voi käyttää (taivuttavina) suomen tai englannin synonyymisanastoina tai käännössanakirjoina. FinnWordNet ----------- FinnWordNet on suomen wordnet. Se on luotu käännättämällä ammattikääntäjillä alkuperäisen englanninkielen Princeton WordNetin (PWN) version 3.0 sanat (sananmerkitykset) suomeksi ja yhdistämällä käännökset PWN:n rakenteeseen. FinnWordNet on osa FIN-CLARIN-infrastruktuurihanketta: http://www.ling.helsinki.fi/finclarin/ Lisätietoja FinnWordNetistä saa FinnWordNet-projektin WWW-sivulta: http://www.ling.helsinki.fi/kieliteknologia/tutkimus/finnwordnet/ HFST – Helsinki Finite-State Transducer Technology -------------------------------------------------- Lisätietoa HFST:stä (englanniksi) saa projektin WWW-sivulta: http://www.ling.helsinki.fi/kieliteknologia/tutkimus/hfst/ FinnWordNetin transduktorit ovat HFST:n optimized lookup -muodossa: https://kitwiki.csc.fi/twiki/bin/view/KitWiki/HfstOptimizedLookupFormat Transduktoritiedostoissa on pääte .hfstol. Niiden käyttäminen edellyttää joko HFST-kirjastoa ja -työkaluja (versiota 3.2.0 tai uudempaa) tai erillistä HFST optimized lookup -ohjelmaa, jolla niitä voi ajaa: http://sourceforge.net/projects/hfst/files/optimized-lookup/ Transduktorit tarvitsevat optimized lookup -ohjelman version 1.3 (tai uudemman) tai Java-toteutuksen (hfst-ol.jar, 2011-05-23 tai uudempi); ne eivät toimi Python-toteutuksella (2011-05-24). FinnWordNetin transduktoripaketit --------------------------------- FinnWordNetin transduktorit on jaettu kolmeen pakettiin, joista jokaisessa on hiukan erilaiset transduktorit (YYYYMMDD viittaa paketin julkaisupäivään): fiwnsyn-fi-YYYYMMDD.zip – Suomen synonyymisanastot fiwnsyn-en-YYYYMMDD.zip - Englannin synonyymisanastot (perustuvat Princeton WordNetiin) fiwntransl-YYYYMMDD.zip - Suomi–englanti ja englanti–suomi käännössanakirjat Tämä LUEMINUT-tiedosto on yhteinen kaikille paketeille. Synonyymisanastotransduktorien nimet ovat muotoa fiwnsyn-KL-TYYPPI.hfstol, missä KL on kielikoodi ”fi” tai ”en” ja TYYPPI on yksi seuraavista: infl – Transduktori tunnistaa syötesanan taivutusmuodon ja tuottaa synonyymit samassa taivutusmuodossa. Transduktori ei tunnista ei tuota monisanaisia synonyymeja. Sanaa ei lasketa itsensä synonyymiksi. infl-refl – Sama kuin edellä, mutta synonymia on refleksiivistä: sana lasketaan itsensä synonyymiksi. Tämä mahdollistaa syötesanan mahdollisten vaihtoehtoisten taivutusmuotojen tuottamisen, kuten ”omenoiden”, ”omenoitten”, ”omenien”, ”omenojen”, ”omenain”. noinfl - Transduktori tunnistaa syötesanan taivutetuissa muodoissa, mutta tuottaa synonyymit perusmuodoissaan. Englannin transduktorit tunnistavat ja tuottavat myös monisanaiset ilmaukset ja suomen transduktorit tuottavat. Sanaa ei lasketa itsensä synonyymiksi. noinfl-refl – Sama kuin edellä, mutta synonymia on refleksiivistä. Käännössanakirjatransduktoritiedostojen nimet ovat fiwntransl-fien.hfstol (suomi–englanti) ja fiwntransl-enfi.hfstol (englanti–suomi). Ne tunnistavat syötesanan taivutettuja muotoja, mutta tuottavat käännökset perusmuodossa. Englanti–suomi-sanakirja sekä tunnistaa että tuottaa monisanaisia ilmauksia, kun taas suomi–englanti-sanakirja vain tuottaa niitä. Lähteitä -------- FinnWordNetin ja Princeton WordNetin datan lisäksi transduktorien tekemisessä on käytetty Omorfia, suomen avointa morfologista työkalua (http://gna.org/projects/omorfi), ja HFST:n englannin morfologiaa (http://sourceforge.net/projects/hfst/files/morphological-transducers/hfst-english.tar.gz/download), joka on alunperin Måns Huldenin Princeton WordNetin datan pohjalta tekemä. Puutteita --------- * Monisanaisten ilmausten käsittely on osittain epäyhtenäistä. * Suomen synonyymisanastot, erityisesti taivuttavat sanastot, tuottavat usein monia identtisiä tulostesanoja. * Englannin taivuttava synonyymisanasto yligeneroi joitain sananmuotoja, kuten virheellisen kaksinkertaisen monikon genetiivin (”nets’s”) oikean (”nets’”) lisäksi. * Ei-taivuttava englannin synonyymisanasto ja englanti–suomi-sanakirja tunnistavat taivutuksen monisanaisen ilmauksen viimeisessä sanassa, vaikka olisi oikein taivuttaa jotain aiempaa sanaa. Ne tunnistavat esimerkiksi ”arrive ated” oikean muodon ”arrived at” sijaan. * Monitulkintaisen tai monimerkityksisen sananmuodon kaikki synonyymit tai käännökset luetellaan yhdessä, ilman järjestystä tai ryhmittelyä sanaluokan tai sananmerkityksen mukaan. Lisenssi -------- Koska FinnWordNet käyttää Princeton WordNetin rakennetta ja merkitysten selitteitä, se on PWN:n johdannainen ja siten PWN:n lisenssin alainen: http://wordnet.princeton.edu/wordnet/license/ PWN:n lisenssi sallii vapaan käytön, myös kaupallisesti, kunhan sen käyttämisestä ja tekijänoikeuksista kerrotaan: WordNet Release 3.0 This software and database is being provided to you, the LICENSEE, by Princeton University under the following license. By obtaining, using and/or copying this software and database, you agree that you have read, understood, and will comply with these terms and conditions.: Permission to use, copy, modify and distribute this software and database and its documentation for any purpose and without fee or royalty is hereby granted, provided that you agree to comply with the following copyright notice and statements, including the disclaimer, and that the same appear on ALL copies of the software, database and documentation, including modifications that you make for internal use or for distribution. WordNet 3.0 Copyright 2006 by Princeton University. All rights reserved. THIS SOFTWARE AND DATABASE IS PROVIDED "AS IS" AND PRINCETON UNIVERSITY MAKES NO REPRESENTATIONS OR WARRANTIES, EXPRESS OR IMPLIED. BY WAY OF EXAMPLE, BUT NOT LIMITATION, PRINCETON UNIVERSITY MAKES NO REPRESENTATIONS OR WARRANTIES OF MERCHANT- ABILITY OR FITNESS FOR ANY PARTICULAR PURPOSE OR THAT THE USE OF THE LICENSED SOFTWARE, DATABASE OR DOCUMENTATION WILL NOT INFRINGE ANY THIRD PARTY PATENTS, COPYRIGHTS, TRADEMARKS OR OTHER RIGHTS. The name of Princeton University or Princeton may not be used in advertising or publicity pertaining to distribution of the software and/or database. Title to copyright in this software, database and any associated documentation shall at all times remain with Princeton University and LICENSEE agrees to preserve same. FinnWordNetin sisältämien sanojen suomenkielisten käännösten tekijänoikeudet ovat Helsinin yliopistolla. Ne lisensoidaan Creative Commons Nimeä (CC BY) 3.0 -lisenssillä, joka on samantapainen kuin PWN:n lisenssi: http://creativecommons.org/licenses/by/3.0/deed.fi Kun viittaat FinnWordNetiin, viittaa seuraavaan artikkeliin: Krister Lindén and Lauri Carlson. 2010. FinnWordNet – WordNet på finska via översättning. LexicoNordica – Nordic Journal of Lexicography, 17:119–140. Yhteystiedot ------------ FinnWordNet-projektia johtaa tutkimusjohtaja, FT Krister Lindén Helsingin yliopiston nykykielten laitoksessa (kieliteknologian oppiaineessa). Teknisissä kysymyksissä yhteyshenkilönä on projektitutkija Jyrki Niemi. Sähköpostiosoitteet ovat muotoa etunimi.sukunimi@helsinki.fi (aksentit poistettuina).