etTenTen

etTenTen korpus on internetist alla laetud eestikeelsete veebilehtede korpus.

Korpuses on 270 miljonit sõna 686 000 veebilehelt.

Algmaterjal

Korpuse tekstid korjas internetist ja teisendas utf-8 kodeeringus teksti kujule Vit Suchomel.

Veebirobotiga laeti alla 1 173 702 veebilehte, kusjuures juba olemas olevate lehtede koopiad jäeti kõrvale; kõrvale jäeti ka lehed, mis on esindatud Eesti kirjakeele koondkorpuses. (http://www.cl.ut.ee/korpused/segakorpus/). Kasutati Jan Pomikaleki doktoritöö käigus loodud programme  jusText ja onion (code.google.com/p/justext, code.google.com/p/onion)

Saadud korpus asus 2013 märtsis siin: http://downloads.sketchengine.co.uk/ettenten13.processed.prevert.xz

Märgendus

Lähtetekstid on lausestatud, morfoloogiliselt analüüsitud ja automaatselt ühestatud OÜ Filosoft poolt. Töötlemisega seotud probleeme on kirjeldatud artiklites:

Iga rea ees on allikaviide, mis on muutumatuna pärit vastava veebilehe allalaadimise ajast ja millele on lingvistilise märgendamise käigus lisatud ainult info tekstitüübi kohta (texttype=...), nt

<doc id="0" length=" 100k-1M" crawl_date="2013-01-10" url="http://www.lap.ttu.ee/erki/failid/konspekt/oigusopetus_tto3160/tto3160_konspekt_ii.html" web_domain="www.lap.ttu.ee" langdiff="0.18" texttype="unknown">

Tekstitüübid

Võimalikud tekstitüübid on:

Tekstitüüp

Sõnu

Veebilehti

Seletus

government

6682672

7113

Valitsus, riigikogu, välisministeerium, ...

forum

54570141

103513

Foorumid, kommentaarid

religion

8750787

21107

Usulise sisuga asjad

unknown

86949511

243716

Klassifitseerimata

blog

27082508

51882

Blogid ja rahva-ajakirjandus (s.h. isemõtlejate väljaanded)

periodicals

66427900

200586

Ametlikud uudised, soliidsem ajakirjandus

informative

19404658

58416

Õpetused, nõuanded, teatmekirjandus (s.h. wikipedia 1 miljon, entsüklopeedia 0,5 miljonit)

Iga dokument kuulub täpselt ühte tekstiklassi.

Tekstitüüpide määramisel kasutati järgmisi allikaid:

Muutused algses tekstis