NER ဆိုတာ Name entity recognition ရဲ့အတိုကောက်ပါ။

သူ့ကို Natural Language Processing (NLP)မှာသုံးတယ်။

NLP ဆိုတာ လက်ရှိလူအများသုံးနေကြတဲ့ Translation တို့၊ Chatbot တို့၊ ဟိုနေ့က နာမည်ကြီးသွားတဲ့ ပုံပြင်ရေးတတ်တဲ့ ChatGPT တို့ကို မွေးဖွားတဲ့ ဘာသာရပ်ပါ။

NER က ဘာလို့အရေးပါလဲဆိုတော့ စာကြောင်းတစ်ကြောင်းမှာ ဘယ်အရာက လူလဲ၊ ဘယ်ဟာက ရက်စွဲလဲ ၊ဘယ်ဟာက အဖွဲ့အစည်းလဲ၊ စသဖြင့် ခွဲသိနိုင်ရင်

နောက်ပိုင်း အလုပ်တွေလုပ်ရအရမ်းမြန်ပါတယ်။ တစ်ခုနဲ့တစ်ခု ဘယ်လို ဆက်နွယ်နေလဲဆိုတာလည်း ရှာလို့ရတယ်။

Medical NER မှာဆိုရင် ရောဂါလက္ခဏာတွေ၊ သုံးတဲ့ ဆေးဝါးတွေ၊ ဖြစ်တဲ့ရောဂါတွေ၊ လုပ်ထားတဲ့ Lab test တွေစတာတွေကို ဆွဲထုတ်ဖို့ ဖြစ်နိုင်ပါတယ်။

အင်္ဂလိပ်စာမှာဆိုရင် ဘယ်ဟာက နာမည် ဘယ်ဟာက အဖွဲ့အစည်း ဘယ်ဟာက ကုမ္ပဏီစသဖြင့် အများကြီးခွဲသိနေပါပြီ။

အဲလို သိဖို့ စကြရတာက လွန်ခဲ့တဲ့ အနှစ် ၂၀ ကျော် ၃၀ လောက်ကပါ။ စစတုန်းက လူတွေက စာလုံးတွေကို လိုက်ပြီး label တပ်ပေးရတယ်။ အလွန်လည်းလက်ဝင်တယ်။

အခုတော့ အဲဒီလူတွေ label တပ်ခဲ့တဲ့ အရာတွေကို နောက်လူတွေက အသုံးပြုပြီး အလိုအလျောက် entity တွေဆွဲထုတ်နိုင်နေကြပြီ။

Fb က ကိုယ်ပြောတာတွေသိတယ်တို့ ဘာတို့ဆိုတာတွေရဲ့နောက်ကွယ်မှာ NER ရဲ့လက်ချက်တွေလည်း အများကြီးပါတာပေါ့။

ကိုယ့်ဘာသာ

NER model လုပ်ဖို့ ဆိုရင်တော့ အရင်ဆုံး data ရှာရတာပဲ။

ကိုယ့်ဆီမှာ ဒေတာဆက်ကောင်းကောင်းမရှိဘူး။

မြန်မြန်အလုပ်ဖြစ်တဲ့နည်းကတော့ Regular expression သုံးပြီး

keyword တွေလိုက်ရှာ ၊ အဲဒါတွေကို train data အဖြစ်ပြန်သုံးတဲ့ဟာပဲ။

အကောင်းဆုံးကတော့ လူကိုယ်တိုင် တခုချင်း စာလုံးတွေကိုလိုက်ဖတ်။

ဘယ်ဟာက တော့ ရောဂါလက္ခဏာ ၊ ဘယ်ဟာက ဆေး၊ ဘယ်ဟာက ရောဂါ စသဖြင့် ခွဲထုတ်ပေးဖို့ပေါ့လေ။ အဲဒီလို လူအင်အားသုံးထားတဲ့ annotated dataset က quality အကောင်းဆုံးပဲ။

ဒီနေ့ အဲဒီလို Regex သုံးထားတဲ့ dataset နဲ့ Google Colab ပေါ်မှာ train တာ နေ့တဝက်ကျိုးတယ်။

Free version ကတော့ဘယ်လိုမှသုံးလို့မရဘူး။

ခဏလေးနဲ့ Memory ကုန်သွားတယ်။

အဲဒါကြောင့် သူ့ရဲ့ pro service ကိုဝယ် သုံးပြီးဆက် train ရတယ်။

မော်ဒယ်ကတော့ထွက်လာပြီ။

ဆိုးတော့မဆိုးဘူးပဲလို့ ကိုယ့်ဟာကိုယ် တွေးတယ်။

Quality ဘယ်လောက်ကောင်းလဲ ဆိုတာ evaluate လုပ်ဖို့အတွက်ကတော့ စာမဖတ်ရသေးလို့ မလုပ်တတ်သေးဘူး။

ပထမ တဆင့် အောင်မြင်သွားတယ်ဆိုတော့ ၊နောက်ပိုင်း quality ပိုကောင်းအောင် ဘာလုပ်လို့ရမလဲ စဉ်းစားလို့ရတာပေါ့။

မြန်မာလို NER ကိုလည်း ကျောင်းပိတ်ချိန် စမ်းကြည့်ဖို့ တေးထားတယ်။

ပုံ၁က သူများ ဖန်တီးထားတဲ့ dataset ကို train ပြီးရတဲ့ result.

ပုံ၂က ကိုယ့်ဘာသာ ဖန်တီးထားတဲ့ dataset ကို train ပြီးရတဲ့ result