Spacy for NLP

Spacy for NLP

Definisi

NLP merupakan Ilmu yang mempelajari mengenai interaksi antara komputer dan bahasa alami manusia, bagaimana cara memprogram komputer untuk memproses dan menganalisis bahasa alami manusia. Beberapa contoh kasus penerapan NLP adalah

  • Klasifikasi Email Spam
  • Sentiment Analysis untuk Review Film
  • Analisis trend pada Fedback Form Custimers
  • Understanding text command “Hey Google, play this songs”

Kita bisa menggunakan beberapa package yang sudah ada di python seperti spacy, nltk dan CoreNLP. Pada dasarnya spacy dan nltk sama-sama open source dan digunakan untuk kasus NLP. Meskipun begitu terdapat beberapa perbedaan diantara keduanya.

Spacy lebih efisien (lower time execution) dibandingkan nltk dan CoreNLP. Namun Spacy tidak memasukkan pre-created model seperti di sentiment analysis dimana hal itu secara mudah bisa kita lakukan  jika menggunakan NLTK.

NLP bisa dilakukan menggunakan python via Jupyter Notebook. Namun, seringkali terjadi masalah dependensi package yang cukup memusingkan kepala. Oleh karena itu kita bisa menggunakan Google Collab di sini. Bisa dikatakan bahwa Google Collab ini merupakan Jupyter Notebook versi web-based.

Linguistic Features

Saat menganalisis data text kita perlu membagi setiap token agar bisa dimengerti oleh komputer. Oleh karena itu dibutuhkan suatu tahapan-tahapan dari mulai memecah kalimat menjadi token, memberikan label, cleaning data hingga bisa dimengerti oleh komputer. Kompoenen tersebut dikenal sebagai linguistic features yaitu

POS tagging

Dalam ilmu bahasa inggris, Part of Speech (POS) merupakan klasifikasi dari kata-kata yang dikategorikan dari peran dan fungsinya dalam struktur kalimat sebuah bahasa. Terdapat 8 POS yaitu

  • noun (kata benda)
  • pronoun (kata ganti)
  • verb (kata kerja)
  • adjective (kata sifat)
  • adverb (kata keterangan)
  • preposition (kata depan)
  • conjunction (kata hubung)
  • interjection (kata seru)

Berikut ini merupakan cara menampilkan POS suatu kalimat di python.

Lemma

Secara sederhana lemma adalah base infinitive (verb 1). Jadi semua kata diubah ke dalam bentuk aslinya (kata dasarnya) yang belum ada suffix maupun prefiks.


Reference

  • https://spacy.io/usage/models

 

Leave a Reply

Your email address will not be published. Required fields are marked *

Related posts