For faster navigation, this Iframe is preloading the Wikiwand page for Dolování z textu.

Dolování z textu

Dolování z textu (anglicky text mining) je vědecká disciplína na pomezí dolování z dat, strojového učení a počítačové lingvistiky. Vyvíjí se především s potřebou automatického zpracování ohromného množství informací dostupných v podobě volného textu. Klasické metody dolování z dat totiž pracují pouze se strukturovanými daty (obsahujícími metadata důležitá pro zpracování) a většina informací jim tak zůstává nepřístupná.[1]

Typické úlohy

[editovat | editovat zdroj]

Určování druhu textů

[editovat | editovat zdroj]

Cílem určování druhu textů, anglicky text categorization, je přiřadit k danému textu jednu, či více kategorií z předem daného výčtu (např. sport, politika, krimi, …). Typicky je prováděno na základě četností slov vyskytujících se v textech jednotlivých kategorií některou z technik strojového učení.

Shlukování textů/dokumentů

[editovat | editovat zdroj]

Shlukování textů/dokumentů, anglicky document clustering,[2] je úloha principiálně podobná určování druhu textů. Místo zařazování do předem daných kategorií jsou však jednotlivé texty dávány do skupin na základě jejich vzájemných podobností. Každý dokument je tak obvykle zařazen právě do jedné skupiny. Vytvořené skupiny mohou, ale nemusí odpovídat očekávaným kategoriím (burzovní zprávy a sportovní výsledky mohou například spadnout do jedné kategorie na základě faktu, že obsahují větší množství čísel).

Shrnutí textu

[editovat | editovat zdroj]

Shrnutí textu, anglicky text summary. K vytvoření krátkého shrnutí textu se dá přistupovat dvěma způsoby, buď z textu vybrat nejdůležitější pasáže (např. věty) a ty vhodně seřadit (summary extraction) anebo je možné text hlouběji analyzovat a na základě jeho sémantické reprezentace parafrázovat jeho obsah (summary abstraction). Druhý z obou přístupů by měl poskytovat lepší výsledky, ve skutečnosti však sémantická analýza ani následné generování souvislého textu dosud není na takové úrovni, aby překonala výsledky prvně zmíněného přístupu.

Analýza sentimentu

[editovat | editovat zdroj]
Podrobnější informace naleznete v článku Analýza sentimentu.

Analýza sentimentu, anglicky sentiment analysis. Na základě výskytu citově zabarvených slov lze usuzovat na autorův pozitivní či negativní postoj k předmětu zprávy. To může být užitečná informace obzvláště ve spojení s tematicky zaměřenými diskusními fóry.

Extrakce konceptů; rozpoznání pojmenovaných entit

[editovat | editovat zdroj]

V angličtině concept extraction či konkrétněji named-entity recognition (NRE). Jde o určení entit, které jsou v textu zmíněny. Nástroj pro NRE by je měl identifikovat a zároveň klasifikovat. do předem definovaných kategorií.[3] Například v článku o V. Klausovi by tedy výrazy „Václav Klaus“ a „prezident“ měly být přiřazeny stejné entitě. Problém úzce souvisí s desambiguací slovních významů a tudíž patří k těm základním problémům zpracování přirozeného jazyka.

Určení vztahu mezi entitami

[editovat | editovat zdroj]

Dokážeme-li v textu určit pojmenované entity, můžeme na základě analýzy vět (např. pomocí rámců – FrameNet) určit jejich vztahy (např. z výrazu "Sarkozy se oženil s Bruinovou" je možné získat vztah, že Bruinová je manželkou Sarkozyho).

  1. Unstructured Data and the 80 Percent Rule. www.clarabridge.com [online]. [cit. 2010-06-10]. Dostupné v archivu pořízeném dne 2010-07-02. 
  2. Wayback Machine. web.archive.org [online]. [cit. 2023-07-08]. Dostupné v archivu pořízeném z originálu dne 2023-07-08. 
  3. ROZPOZNÁVÁNÍ POJMENOVANÝCH ENTIT | Nový encyklopedický slovník češtiny. www.czechency.org [online]. [cit. 2022-04-10]. Dostupné online. 

Externí odkazy

[editovat | editovat zdroj]
{{bottomLinkPreText}} {{bottomLinkText}}
Dolování z textu
Listen to this article

This browser is not supported by Wikiwand :(
Wikiwand requires a browser with modern capabilities in order to provide you with the best reading experience.
Please download and use one of the following browsers:

This article was just edited, click to reload
This article has been deleted on Wikipedia (Why?)

Back to homepage

Please click Add in the dialog above
Please click Allow in the top-left corner,
then click Install Now in the dialog
Please click Open in the download dialog,
then click Install
Please click the "Downloads" icon in the Safari toolbar, open the first download in the list,
then click Install
{{::$root.activation.text}}

Install Wikiwand

Install on Chrome Install on Firefox
Don't forget to rate us

Tell your friends about Wikiwand!

Gmail Facebook Twitter Link

Enjoying Wikiwand?

Tell your friends and spread the love:
Share on Gmail Share on Facebook Share on Twitter Share on Buffer

Our magic isn't perfect

You can help our automatic cover photo selection by reporting an unsuitable photo.

This photo is visually disturbing This photo is not a good choice

Thank you for helping!


Your input will affect cover photo selection, along with input from other users.

X

Get ready for Wikiwand 2.0 🎉! the new version arrives on September 1st! Don't want to wait?