Automating Text Processing Using Analytics - Automating text classifications and financial news parsing
Forss, Thomas (2017-12-15)
Forss, Thomas
Åbo Akademi - Åbo Akademi University
15.12.2017
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
Julkaisun pysyvä osoite on
https://urn.fi/URN:ISBN:978-952-12-3634-1
https://urn.fi/URN:ISBN:978-952-12-3634-1
Tiivistelmä
Automating repetitive processes and replacing manual tasks with automated systems is an area of research that will greatly impact and transform our lives during the 21st century. Automation comes in many forms and we are now at the start of an era, after which repetitive non-creative tasks will be handled mainly by machines. In this thesis, two analytics approaches are presented that can be used to automate text processing tasks.
The first is an automation approach using machine learning in which we show how we can improve text classification performance, and how we, through these improvements, can reach practically acceptable performance levels even in certain abstract classification problems. We test the developed methods on problematic web content categories, such as violence, racism, and hate.
The second is an automation approach that uses network analytics to automatically process texts. We use this approach to automate processing of financial news and to automatically extract new information. We show that through automating the process, we can extract company specific sentimentrisks that a person would not identify simply by reading the news articles. Lastly, we show that the risks we have extracted can be used to identify companies that are at higher risk of stock price decrease. Att automatisera repetitiva processer och ersätta manuellt arbete med automatiska system är ett forskningsområde som kommer att ha stor inverkan på vårt samhälle och med stor sannolihet kommer att förändra våra liv under detta århundrade. Automatisering kan göras på många olika sätt. Vi är nu vid början på en era varefter repetitiva icke-kreativa arbetsuppgifter kommer hanteras till största del av maskiner. I denna avhandling presenteras två tillvägagångssätt som kan användas för att automatisera textprocessering.
Det första tillvägagångssättet beskriver en metod för automatisk klassificering av texter till fördefinierade kategorier genom användning av maskininlärning. Vi går igenom hur man kan utveckla textprocesseringsmetoder som kan nå praktisk användbar prestanda även i mera abstrakta och svårhanterliga kategorier, som t.ex. klassificering av våldsamma, rasistiska och hatiska webbsidor.
Det andra tillvägagångssättet beskriver en metod för att automatiskt processera stora mängder nyhetstexter genom nätverksanalytik. Vi använder metoden för att processera finansiella artiklar och skapa ny information. Genom automatisering av processen visar vi att vi kan beräkna företagsspecifika förväntningsrisker som en person inte kunde ha identifierat enbart från att ha läst artiklarna. Slutligen visar vi att det är möjligt att identifiera företag som har en högre risk än medeltalet, och att hög risk korrelerar med ökad risk att aktiepriset för företaget sjunker.
The first is an automation approach using machine learning in which we show how we can improve text classification performance, and how we, through these improvements, can reach practically acceptable performance levels even in certain abstract classification problems. We test the developed methods on problematic web content categories, such as violence, racism, and hate.
The second is an automation approach that uses network analytics to automatically process texts. We use this approach to automate processing of financial news and to automatically extract new information. We show that through automating the process, we can extract company specific sentimentrisks that a person would not identify simply by reading the news articles. Lastly, we show that the risks we have extracted can be used to identify companies that are at higher risk of stock price decrease.
Det första tillvägagångssättet beskriver en metod för automatisk klassificering av texter till fördefinierade kategorier genom användning av maskininlärning. Vi går igenom hur man kan utveckla textprocesseringsmetoder som kan nå praktisk användbar prestanda även i mera abstrakta och svårhanterliga kategorier, som t.ex. klassificering av våldsamma, rasistiska och hatiska webbsidor.
Det andra tillvägagångssättet beskriver en metod för att automatiskt processera stora mängder nyhetstexter genom nätverksanalytik. Vi använder metoden för att processera finansiella artiklar och skapa ny information. Genom automatisering av processen visar vi att vi kan beräkna företagsspecifika förväntningsrisker som en person inte kunde ha identifierat enbart från att ha läst artiklarna. Slutligen visar vi att det är möjligt att identifiera företag som har en högre risk än medeltalet, och att hög risk korrelerar med ökad risk att aktiepriset för företaget sjunker.
Kokoelmat
- 512 Liiketaloustiede [57]