KépződésFőiskolák és egyetemek

Mi Corpus Linguistics?

Csak néhány évtizeddel ezelőtt, hogy automatizálják a nyelvészeti kutatások, a tudósok csak álmodni. A munkát kézzel végezték, ez vonzza a nagyszámú diák is van, nagy a valószínűsége „gondatlan” hibák, és ami a legfontosabb - mindez vett hosszú, hosszú ideig.

A számítástechnika fejlődése lehetővé vált, hogy végezzen kutatást a nagyságrenddel gyorsabb, és ma is az egyik legígéretesebb irányba a tanulmány a nyelv korpusznyelvészeti. Fő jellemzője a használata nagy mennyiségű szöveges információk, adatok egy egységes adatbázis, különleges módon, és felhívta a megjelölt szervezet.

A mai napig sok kialakított épületek különböző célokra alapján különböző nyelvi anyag átívelő több millió több tízmilliárd lexikai egységek. Ez az irány elismerten ígéretes és bemutatja jelentős előrelépés a bejelentési és kutatási célra. A szakértők, ilyen vagy olyan módon foglalkozó természetes nyelv, ajánlott megismerni a test szövegek legalább alapszinten.

History korpusznyelvészeti

A formáció ez a tendencia kialakulása miatt az Egyesült Államokban Brown test a korai 60-es években a múlt században. A gyűjtemény tartalmazza a szövegek minden 1 millió a szóalakok, és ma a szervezet ilyen méretű lenne teljesen versenyképtelen. Ez főként annak köszönhető, hogy a fejlődés üteme a számítógépes technológia, valamint a növekvő igények új kutatási források.

A 90-es évek korpusznyelvészeti kilépett a teljes és független fegyelem, a gyűjtemény szövegeket dolgozták fel, és megjelölni több tucat nyelven. Ebben az időszakban jött létre, például a British National Corpus 100 millió zsetont.

A fejlesztés ezen a területen a nyelvészet, a szöveg kötetek egyre (és eléri milliárd szótár egység), és az elrendezés egyre változatosabb. A mai napig, az internet térben megtalálható tetemek írott és beszélt nyelv, több nyelven beszélő, és a tanulás-orientált művészeti vagy tudományos irodalom, valamint sok más faj.

Mik a ház

Testalkathoz a szervezetben nyelvészet ellátható több okból is. Szemléletesen az alapja a besorolás lehet szöveg nyelv (orosz, német), a hozzáférési mód (nyílt, zárt, kereskedelmi), a műfaj a forrásanyag (játékfilm, dokumentumfilm, tudományos, publicisztikai).

Érdekes módon generálja anyagból beszélt nyelv. Mivel a tudatos rögzítése ilyen beszéd létrehozni egy mesterséges környezetet a válaszadók, és a kapott anyag nem az úgynevezett „spontán”, modern korpusznyelvészeti ment a másik úton. Egy önkéntes van szerelve egy mikrofon, és a nap folyamán készített nyilvántartást az összes beszélgetést, amelyben részt vesz. Emberek, persze, lehet, hogy nem tudják, hogy a kurzus a mindennapi beszélgetés hozzájárul a tudomány fejlődéséhez.

Később kapott rekord az adatbázisban tárolt és kíséri nyomtatott szöveg átirata típusát. Így lehetővé válik, hogy jelölő létrehozásához szükséges napi orális beszéd házban.

kérelem

Ahol lehetséges, a nyelvhasználat, és talán a használatát épületek szövegeket. Módszereket kell alkalmazni a hajótest nyelvészet lehetnek:

  • Létrehozása meghatározó programot a legfontosabb, széles körben használják a politika és az üzleti nyomon követni a pozitív és a negatív válaszok a választók és az ügyfelek, ill.
  • Csatlakozás információs rendszer szótárak és fordítók teljesítményük javítására.
  • A különböző kutatási feladatok, amelyek hozzájárulnak ahhoz, hogy megértsük a nyelvi egység, a történelem a fejlődés és előrejelzése változások a közeljövőben.
  • Fejlesztési információkereső rendszerek alapján a morfológiai, szintaktikai, szemantikai és egyéb jellemzőit.
  • Optimalizálása különböző nyelvi rendszerek és mások.

Az épületek

hasonló erőforrás felület egy tipikus kereső, és kéri a felhasználót, hogy adjon meg egy szót vagy szóösszetétel keresni az információs bázis. Eltekintve formában a pontos lekérdezés használhatja a továbbfejlesztett változata, amely lehetővé teszi, hogy megtalálja a szöveges információt gyakorlatilag bármilyen nyelvi kritérium.

keresés bázis lehet:

  • vagy valamely csoport szófajok;
  • nyelvtani jellemzői;
  • szemantika;
  • stilisztikai és érzelmi színezés.

Azt is kombinálni keresési feltételeket szavak sorozatát tartalmazza, például, hogy megtalálja az összes előfordulását az ige jelen időben, egyes szám első személyben, ami után jön a elöljárószó „a” és a főnév a tárgyeset. A megoldás, hogy egy ilyen egyszerű feladat a felhasználót néhány másodperc, és csupán néhány egérkattintással a megadott területeken.

A folyamat létrehozásának

A kutatás nem végezhető el minden alkorpusz és egy speciálisan kiválasztott, az igényektől függően elérésében egy adott cél:

  1. Az első lépés az, hogy meghatározza, hogy mely szövegek képezik az alapját az ügyben. Gyakorlati szempontok miatt gyakran használt újságírói, hírek, online hozzászólások. A kutatási projekt a használata sokféle csomag típusok, de a szöveg alapján kell kiválasztani, hogy közös alapot.
  2. A kapott gyűjteménye szövegek alá előkezelés, van a hibák kijavítását, ha van ilyen, által készített bibliográfiai és extra-nyelvi leírása a szövegben.
  3. Megszűnik minden nem szöveges információk: Törli a grafika, képeket, táblázatokat.
  4. Van egy elosztása token, amelyek jellemzően a beszéd, a további feldolgozásra.
  5. Végül, nem végzett morfológiai, szintaktikai és más jelölések kapott elemek sokaságát.

Az összes ügylet eredményeként által szintaktikai szerkezet eloszlásban az elemek sokaságát, amelyek mindegyike azonosított része a beszéd, nyelvtani és, bizonyos esetekben, a szemantikai attribútumokat.

Nehézségek létrehozásában épületek

Fontos megérteni, hogy nem elég, hogy összeállítunk egy sor szavakat vagy mondatokat a szervezet számára. Egyrészt, a gyűjtemény szövegek kiegyensúlyozottnak kell lennie, azaz jelölik a különböző típusú szövegek bizonyos arányban. A másik - a tartalom a burkolat kell lenniük egymástól, különleges módon.

Az első probléma megoldódott egy megállapodás: például a gyűjtemény magában foglalja a 60% az irodalmi szövegeket, 20% dokumentumfilmek egy bizonyos százaléka kap egy írásbeli nyilatkozatot a beszélt nyelv, a jogszabályok, tanulmányok és így tovább. D. A tökéletes recept egyensúlyban szervezet ma nem létezik.

A második kérdés, tartalmára vonatkozó elrendezés, megoldani kihívást jelent. Vannak speciális programok és algoritmusok használhatók automatikus jelölés szövegek, de nem adnak tökéletes eredményt, megzavarhatja és igényel kézi utómunka. Lehetőségek és kihívások foglalkozik ezzel a problémával részletesen a papír V. P. Zaharova korpusznyelvészeti.

Markup végrehajtása több szinten, amit az alábbi listából.

morfológiai címkézés

Az iskolából, arra gondolunk, hogy az orosz nyelv, vannak különböző szófajok, és mindegyiknek megvan a maga sajátosságai. Például a művelethez kategóriái hajlandóság és az időpontot, amikor nem főnév. anyanyelvi habozás nélkül csökken főnevek és igék konjugált, hanem jelölje meg a test 100 millió. zsetonok kétkezi munka nem fog működni. Minden szükséges műveletet hajthat végre a számítógép, de erre meg kell tanítani.

Morfológiai címkézés, a számítógép „meg kell érteni” minden szó, mint egy bizonyos része a beszéd, amely bizonyos nyelvtani tulajdonságait. Mivel az orosz (és minden más nyelv) működik, számos rendszeres szabályok, akkor lehet építeni egy automatikus eljárást a morfológiai elemzés, befektetés az autó számos algoritmusok. Vannak azonban kivételek a szabály, valamint a különböző bonyolító tényezők. Ennek eredményeként a nettó számítógépes elemzését ma messze nem ideális, és még 4% hiba értéket kapunk 4 millió. A szavak a testület 100 millió. Units igénylő kézi utómunka.

Részletes könyv leírja a problémát Zaharova V. P. "Corpus Linguistics".

szintaktikai annotáció

Elemzési vagy elemzésekor - olyan eljárás, amely meghatározza a kapcsolat a szavak egy mondatban. Egy sor algoritmusok lehetséges meghatározni a szöveg alany, állítmány, kiegészítések több szóképeknek. Keresse meg, melyik szó a fő szekvencia, és amely - eltartott, tudjuk hatékonyan információk kinyerése szöveges és tanítani a gép kiadja válaszul egy keresési kérést csak az információ érdekes számunkra.

By the way, modern keresőmotorok ezt adja ki konkrét számok helyett hosszadalmas szövegek válaszként releváns lekérdezéseket, mint a „hány kalóriát egy alma” vagy „a távolság Moszkva Szentpétervár.” Ahhoz azonban, hogy megértsük, még az alapokat által leírt eljárás szükségességét, hogy kikéri az „Bevezetés a Corpus Linguistics”, vagy más alapvető útmutató.

szemantikus jelölés

A szemantika a szó - van, egyszerű szavakkal, a jelentését. Széles körben alkalmazható megközelítés a szemantikai elemzése szó forrásmegjelölés címkék, tükrözve a tartozás egy sor szemantikai kategóriák és alkategóriák. Az ilyen információ értékes optimalizálására algoritmusok elemzik szöveget hang, automatikus összegzés és egyéb feladatok módszerek korpusznyelvészeti.

Van néhány „root” a fa, ami egy absztrakt szót egy nagyon széles szemantika. Mint egy ág a fa csomópontok vannak kialakítva, amely több és több egyedi lexikai elemek. Például, a „lény” összefüggésben lehet az olyan fogalmak, mint a „humán” és „állatok”. Az első szó továbbra is ágaznak a különböző szakmák, rokonsági kifejezések, nemzetiség, és a második - az osztályokról és állatfajta.

Az információk felhasználása visszakereső rendszerek

Alkalmazási területek korpusznyelvészeti terjed különböző tevékenységi területek. Házakat előállításához használt és korrekciójára szótárak, hozzon létre automatikus fordítási rendszerek adhassunk, visszakeresésére tények meghatározásáról hang és egyéb szöveges feldolgozása.

Ezen túlmenően, az ilyen erőforrások aktívan használják a tanulmány a világ nyelvek és mechanizmusok működését a nyelv általában. Hozzáférés a nagy mennyiségű előre elkészített információ megkönnyíti a gyors és átfogó tanulmányt a fejlesztési irányok nyelvek és stabil kialakulását neologizmusok beszédsebesség értékek módosítása lexikai egységek és mások.

Mivel a munka ilyen nagy mennyiségű adat igényel automatizálás, ma van szoros kölcsönhatás és a számítógép között korpusznyelvészeti.

Orosz Nemzeti Corpus

Ez az eset (rövidítve NKRYA) számos olyan alkorpusz, amely lehetővé teszi a használatát egy erőforrás a legkülönbözőbb feladatokat.

Az anyagok az adatbázisban vannak osztva NKRYA:

  • hogy a médiában közzétett 90-es években és 2000-es hazai és külföldi;
  • felvétel beszéd;
  • aktsentologicheski jelölt szövegek (azaz a jelek a stressz);
  • nyelvjárás beszéd;
  • költészet;
  • Anyagok szintaktikai és egyéb jelölések.

Az információs rendszer is alkorpusz párhuzamos művek fordítása oroszról angol, német, francia és sok más nyelven (és fordítva).

Szintén az adatbázisban van egy rész a történelmi szövegek, ami az írott beszéd orosz különböző időszakokban a fejlődését. Van is egy képzési szervezetnek, amely hasznos lehet a külföldi állampolgárok mastering az orosz nyelvet.

Orosz Nemzeti Corpus tartalmaz 400 millió lexikai egység, és sok szempontból csak egy jelentős része a nyelv Európa szervek.

kilátások

Tény javára elismerése ez a tendencia a rendelkezésre álló ígéretes laboratóriumi korpusznyelvészeti orosz egyetemeken, valamint a külföldi. Használatával és a kutatás keretében az információk és a keresési források kidolgozásával jár bizonyos területeire a magas technológiák, kérdés üzenetrögzítő rendszerek, de a fent tárgyalt.

Továbbfejlesztése korpusznyelvészeti előrejelzések minden szinten, kezdve a műszaki és a végrehajtás tekintetében új algoritmusok, amely optimalizálja a folyamatokat a keresést és az információk feldolgozásával, képessé számítógépek, több RAM, valamint a fogyasztók, mert a felhasználók egyre több és több módon lehet használni ezt a fajta erőforrás a napi az élet és a munka.

Összefoglalva

A közepén a múlt század 2017-ben úgy tűnt, távoli jövőben, ahol űrhajók utazás az univerzum és a robotok minden a munka az emberek. Tény, hogy a tudomány tele van „fehér foltok”, és kétségbeesett kísérletet, hogy válaszoljon a kérdésekre az emberiség évszázadok óta zavaró. Kérdések működő nyelvi itt foglalnak helyet a becsület, és a kabinet és a számítógépes nyelvészet segíthet megválaszolni őket.

Feldolgozása nagy adathalmazok képes észlelni mintákat, korábban hozzáférhetetlen, megjósolni a fejlesztés konkrét nyelvi funkciók követni a kialakulását szavak szinte valós időben.

A gyakorlati megvalósítás szintjén, a globális burkolatok látható, például mint potenciális eszköz annak felmérésére, a közhangulat - az internet egy folyamatosan frissített naponta különböző szövegek által létrehozott valós felhasználók: ez észrevételeket és véleményeket, és cikkek, és sok egyéb beszédet.

Ezen kívül dolgozik szervek hozzájárul a fejlődés az ugyanazon a hardveren, amelyek részt vesznek információszerzés, ismerjük a szolgáltatás „Google” vagy „Yandex”, a gépi fordítás, elektronikus szótárak.

Mi lehet magabiztosan állítják, hogy a korpusznyelvészeti teszi csak az első lépést, és a közeljövőben fog virágozni.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 hu.birmiss.com. Theme powered by WordPress.