1 / 13

Anna Gabińska SWPS

LIWC2001 Linguistic Inquiry and Word Count ( James W. Pennebaker Martha E. Francis & Roger J Booth; www.liwc.net ). Anna Gabińska SWPS. LIWC – zasady działania:. Liwc został zaprojektowany do analizowania pisanego tekstu na zasadzie słowo po słowie. Przystosowany do pracy na PC i Macintosh

dwayne
Download Presentation

Anna Gabińska SWPS

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. LIWC2001Linguistic Inquiry and Word Count(James W. Pennebaker Martha E. Francis & Roger J Booth; www.liwc.net) Anna Gabińska SWPS

  2. LIWC – zasady działania: • Liwc został zaprojektowany do analizowania pisanego tekstu na zasadzie słowo po słowie. • Przystosowany do pracy na PC i Macintosh • Forma zapisywania wyników analiz umożliwia łatwe transportowanie ich do SPPS-a lub Excela • Analiza tekstu oparta jest o wyszukiwanie w tekście słów i rdzeni wyrazowych. mate hungr* - hungry, hungrier, hungriest * gwiazdka oznacza, że brane będą pod uwagę wszyskie litery, cyfry oraz łączniki. • Każde słowo lub rdzeń wyrazowy przypisany jest do jednej lub więcej kategorii.

  3. LIWC2001 – zasady działania: • Umożliwia pracę z wieloma plikami tekstowymi jednocześnie. Analizuje jeden plik po drugim. • Proces analizy jednej strony z pojedynczymi odstępami zajmuje ułamek sekundy. • Słowa w tekście analizowane są jedno po drugim → przeszukiwanie słownika → zgodność słowa tekstowego ze słownikowym powoduje wzrost na skali danej kategorii. • Analiza tekstu obejmuje również strukturalne elementy: ilość słów, średnia ilość słów przypadająca na zdanie.

  4. LIWC2001 – zasady działania: • Oblicza procent słów występujących w tekście dla każdego z 74 wymiarów lingwistycznych. • Wszystkie zmienne (oprócz [WC] – ilość słów, [WPS] średnia ilość słów w zdaniu, [Qmarks] procent zdań kończących się znakiem zapytania) odzwierciedlają procent wszystkich użytych słów. wynik 1,59 dla zaimka „I” oznacza, że 1,6% tekstu składa się z „I”.

  5. LIWC2001 – słownik: • 2,300 słów i rdzeni wyrazowych. • Rozpoznaje około 80% słów używanych w mowie i piśmie. • 74 kategorie: • (17) język standardowy - ilość słów, przyimki, zaimki, negacje • (25) konstrukty psychologiczne - emocje, procesy poznawcze • (10) relatywność - czas, ruch, przestrzeń • (19) sprawy osobiste – praca, dom, stany fizyczne, pieniądze • (3) eksperymentalne – przekleństwa, „nonfluencies”, „fillers” • Kategorie zorganizowane są w sposób hierarchiczny. Przykładowo wszystkie słowa związane z kategorią „wściekłość” są także włączone do kategorii emocji negatywnych i słów afektywnych.

  6. LIWC2001 – słownik: • Jeśli użytkownik chce może dodatkowo analizować numery, skróty i emotikony. • Możliwość tworzenia własnych kategorii i słowników • Ignoruje znaki większość znaków interpunkcyjnych (przecinki, dwukropki, też: @, &, + itp.. o ile nie są emotikonami)

  7. Funkcje dodatkowe słownika: • Kategorie warunkowe – możliwość podstawowej analizy kontekstowej Like (01 23)12/69 - jeśli słowo poprzedzające „like” należy do kategorii 01 (zaimek) lub 23 (niezgodność – ‘discrepancy’) to „like” należy zaklasyfikować do kategorii 12 (afekt). W innym przypadku „like” należy przypisać do kategorii 69 (podobieństwo). Like (01 23)00/69 - „00” oznacza, że jeśli słowo poprzedzające „like” należy do kategorii 01 lub 23, to „like” nie powinno być przypisane do żadnej kategorii. W innym przypadku „like” należy zaklasyfikować do kategorii 69 (podobieństwo). Like (01 23)13 - jeśli słowo poprzedzające „like” należy do kategorii 01 (zaimek) lub 23 (niezgodność) to „like” należy zaklasyfikować do kategorii 13 (afekt). W innym przypadku „like” należy pominąć w analizie.

  8. Funkcje dodatkowe słownika: Kind <of>20/12<of>25/13 - jeśli „of” następuje po słowie „kind” , to „kind” należy przypisać do kategorii 20 (możliwy - ‘tentative’). W innym przypadku „kind” należy przypisać do kategorii 12 (afekt). Kind <of>00/12 - „00” oznacza, że jeśli „of” następuje po słowie „kind” , to „kind” nie powinno być przypisane do żadnej kategorii. W innym przypadku „kind” należy przypisać do kategorii 12 (afekt). Kind <of>20 - jeśli „of” następuje po słowie „kind”, to „kind” powinno być zaklasyfikowane do kategorii 20. W innym przypadku „like” należy pominąć w analizie.

  9. Powstawanie słownika

  10. Przygotowanie tekstu do analizy • Plik w formacie text lub ASCII • „czyszczenie tekstu” – poprawianie literówek i nieprawidłowego użycia słów („its” a it’s”). Błędy gramatyczne, struktura zdań oraz pisownia dużymi i małymi literami nie wymaga poprawek. • skróty - Jan – January • don’t, won’t, isn’t, shouldn’t, can’t, couldn’t, I’m, I’ll, I’d, we’re, we’d, you’re, he’s, it’s etc. Sally’s shoes & Sally’s going out (→ Sally is going out)

  11. Przygotowanie tekstu do analizy • kropki i łączniki • Jeśli nie chcemy zliczać skrótów należy je zamienić na pojedyncze słowa: U.S. →nie US (zaimek 1os. l.mn) tylko USA • 7:30 a.m. → 7:30am • Self-esteem – wyrazy połączone łącznikiem tworzą jedno słowo fraza „this-or-that” → „this – or – that”

  12. Przygotowanie tekstu do analizy • Transkrypacje tekstów mówionych • nonfluencies: hmm, uhh, uhm, um, mm, er „The, the bo-, the boat is there” → „Uh, Uh, the boat is there” „Huh?” → „what?” • fillers: you know, I mean, like → youknow, Imean, rrlike • Tekst nie zrozumiały → xxx

  13. Wersja polska LIWCA

More Related