Corpus Linguistics คืออะไร? สำคัญกับการเรียนการสอนภาษาอังกฤษอย่างไร?

The system has been_____adopted in Thailand.
The results are_____in Table 2.
There was a_____increase_____prices.

ในยุคที่ขับเคลื่อนด้วยเทคโนโลยีและ AI ปฏิเสธไม่ได้เลยว่า AI มีอิทธิพลต่อการจัดการเรียนการสอนภาษาอังกฤษมากในปัจจุบัน การประยุกต์ใช้คลังข้อมูลภาษา (corpus หรือใช้ในรูปพหูพจน์ corpora) จึงเป็นอีกหนึ่งเครื่องมือที่มีประโยชน์อย่างมาก ก่อนอื่นเรามาทำความรู้จักกับคลังข้อมูลกันก่อน

คลังข้อมูลคือข้อมูลหรือข้อความทางภาษาที่จัดเก็บในรูปแบบอิเล็กทรอนิกส์ซึ่งช่วยให้นักวิจัยสามารถสืบค้นโครงสร้างภาษาที่เกิดขึ้นตามธรรมชาติและสะท้อนภาษาจริงที่ใช้ในชีวิตประจำวันของเจ้าของภาษาได้ โดยใช้ซอฟต์แวร์เฉพาะที่เรียกว่าคอนคอร์แดนเซอร์ (concordancers) (Cristofaro, 2023; Szudarski, 2018) ดังนั้น ภาษาศาสตร์คลังข้อมูล (Corpus Linguistics) สามารถนิยามได้ว่า เป็นการศึกษาเกี่ยวกับการรวบรวมและวิเคราะห์คลังข้อมูล (Schnell, 2021) การศึกษาภาษาผ่านการสืบค้นข้อมูลจริง ซึ่งเป็นประโยชน์ต่อผู้เรียนภาษาในด้านความรวดเร็วและความน่าเชื่อถือ (Lindquist & Levin, 2018) เนื่องจากการสืบค้นจากในพจนานุกรมเพียงอย่างเดียว อาจไม่เพียงพอในการช่วยให้ผู้เรียนเข้าใจหลักไวยากรณ์ในบริบทต่าง ๆ ได้ด้วยพื้นที่ที่จำกัด (Phoocharoensil, 2020) ในขณะที่คลังข้อมูลภาษาสามารถแสดงให้เห็นข้อมูลทางภาษาศาสตร์อื่น ๆ นอกเหนือจากพจนานุกรมเช่น รูปแบบของคำศัพท์ได้ว่าควรอยู่ตำแหน่งใดในประโยค (Cangır, 2022; Luo & Liao, 2015)

Hunston (2002) กล่าวว่าคลังข้อมูลภาษาที่สมดุลควรประกอบด้วยส่วนย่อยต่าง ๆ ที่แสดงถึงประเภทของภาษาที่ใช้ในหลายรูปแบบ เพื่อให้ครอบคลุมหัวข้อที่หลากหลายและช่วยให้ผู้ศึกษาสามารถค้นหาคำและพบตัวอย่างการใช้คำในบริบทจริงให้มากเพียงพอที่จะหาข้อสรุปที่น่าเชื่อถือ ปัจจุบัน คลังข้อมูลภาษาอังกฤษส่วนมากสามารถสืบค้นได้รูปแบบของฐานข้อมูลออนไลน์ เช่น Corpus of Contemporary American English (COCA), British National Corpus (BNC), Michigan Corpus of Spoken Academic English (MICASE), Lextutor และ Sketch Engine ข้อดีของฐานข้อมูลประเภทนี้คือเป็นฐานข้อมูลที่มีขนาดใหญ่ มีการอัพเดทข้อมูลสม่ำเสมอ

ภาพที่ 1 ตัวอย่างของคำว่า ‘result’ จากคลังข้อมูลภาษาออนไลน์ COCA

ภาพที่ 1 คือการแสดงตัวอย่างคำว่า ‘result’ พร้อมบริบทหรือบรรทัดคอนคอร์แดนซ์ (Concordance Lines) จากคลังข้อมูลภาษาออนไลน์ COCA โดยเป็นการแสดงผลแบบ KWIC (Keyword-In-Context) ที่ยึดคำค้นหาเป็นหลักอยู่ตรงกลาง พร้อมกับการแสดงบริบทประกอบทั้งด้านซ้ายและด้านขวาของคำนั้นที่มีความยาวประมาณ 70 ตัวอักษร บรรทัดเหล่านี้สามารถจัดเรียงคำตามลำดับตัวอักษรได้ และแสดงสีที่แตกต่างกันตาม parts of speech ซึ่งช่วยให้ผู้เรียนสังเกตรูปแบบทางคำศัพท์และไวยากรณ์ (lexico-grammatical patterns)ได้ชัดเจนยิ่งขึ้น (Conrad, 2010)   จากตัวอย่างด้านบน คำว่า ‘result’ มีรูปแบบการใช้ที่พบบ่อยคือ ‘result’ + in และ ‘result’ + from โดยการผู้เรียนสามารถศึกษาความแตกต่างของการใช้รูปแบบ ‘result in’ และ ‘result from’ ได้ด้วยตนเอง จากการศึกษาคำนามที่ปรากฏร่วมและบริบทในบรรทัดคอนคอร์แดนซ์ ทำให้ผู้เรียนสามารถสรุปได้ว่า ‘result in’ จะตามคำนามที่แสดงถึงผลที่ตามมา เช่น ‘better health outcomes’, ‘disruption’, ‘loss of data’ และ ‘his death’ ในขณะที่ ‘result from’ จะตามด้วยคำนามที่เป็นสาเหตุที่ทำให้เกิดผลเช่น ‘participating in Vineyard services’, ‘sin’, และ ‘the OCS studies’

การประยุกต์ใช้ภาษาศาสตร์คลังข้อมูลในการเรียนการสอนสามารถแบ่งออกเป็นสองประเภท คือ การใช้งานทางอ้อมและการใช้งานโดยตรง (Flowerdew, 2009; Römer, 2011) ในกรณีแรก คลังข้อมูลภาษาจะถูกนำมาใช้ในการออกแบบและพัฒนาหลักสูตร การทดสอบ และสร้างสื่อการสอน ในขณะที่การใช้งานโดยตรง ข้อมูลจากคลังข้อมูลภาษาจะถูกนำมาใช้ในการเรียนรู้ที่ขับเคลื่อนด้วยข้อมูล (Data-Driven Learning หรือ DDL) ซึ่งเปิดโอกาสให้ผู้เรียนมีส่วนร่วมในการวิเคราะห์คลังข้อมูลภาษาด้วยตัวเอง ไม่ว่าจะเป็นการศึกษาความถี่ของศัพท์ (Frequency) ระดับการใช้ภาษา (Register) คำปรากฏร่วม (Collocations) รูปแบบของคำ (Language Pattern) และอรรถสัมผัสของคำ (Semantic Prosody)

ภาพที่ 2 ตัวอย่างคำปรากฏร่วม (collocates) ของคำว่า ‘result’ จากคลังข้อมูลภาษาออนไลน์ COCA

ภาพที่ 2 แสดงถึงประโยชน์ของคลังข้อมูลภาษาออนไลน์ COCA ในการศึกษาคำปรากฏร่วมของคำศัพท์ที่มีความน่าเชื่อถือและแสดงภาษาที่ใช้งานได้จริงมากกว่าที่พบในหนังสือเรียนภาษาอังกฤษทั่วไป ซึ่งการแสดงผลใน COCA จะปรากฏร่วมกับความถี่ของคำศัพท์และคะแนน MI โดย Hunston (2002) แนะนำว่า คำปรากฏร่วมต้องมีค่า MI (Mutual Information) ที่ 3 หรือสูงกว่า จากตัวอย่างของคำนาม ‘result’ มักจะเกิดคู่กับคำคุณศัพท์เช่น ‘similar’ และ ‘positive’ และปรากฏร่วมกับคำกริยา เช่น ‘indicate’ และ ‘suggest’ ดังนั้น จะเห็นได้ว่าการศึกษารูปแบบคำศัพท์ผ่านคลังข้อมูลภาษาสามารถทำให้ผู้เรียนเกิดความตระหนักรู้ในการใช้คำปรากฏร่วมมากขึ้น และสามารถพัฒนาทักษะการเขียนและการพูดให้มีความแม่นยำและใกล้เคียงกับเจ้าของภาษาได้มากขึ้น

สำหรับการสอนภาษาอังกฤษโดยอิงคลังข้อมูล ในปัจจุบันพบว่า DDL ได้รับความนิยมมากขึ้นเรื่อย ๆ ซึ่งเป็นวิธีการสอนแบบแบบอุปนัย (inductive learning) ที่เน้นผู้เรียนเป็นศูนย์กลาง เปิดโอกาสให้ผู้เรียนได้ตั้งคำถามหรือคิดประเด็นการเรียนรู้ด้านการใช้ภาษาด้วยตนเอง และหาคำตอบมาทดสอบสมมติฐาน ผ่านการสังเกตรูปแบบและการใช้ภาษาจากตัวอย่างจริงของภาษาที่ต้องการศึกษาที่รวบรวมไว้ในคลังข้อมูลภาษา โดยที่ผู้เรียนจะรับบทเป็นนักสืบในห้องเรียน ดั่งคำอุปมาอุปไมยที่มักถูกอ้างถึงของ Johns (1997) ว่าผู้เรียนแต่ละคนสามารถกลายเป็นเชอร์ล็อก โฮล์มส์ (Sherlock Holmes) ได้ ในขณะที่ผู้สอนจะเปลี่ยนบทบาทจากผู้สอนแบบเดิม ๆ (teacher) ที่อธิบายกฎไวยากรณ์หรือคำศัพท์โดยตรงเป็นวิทยากรกระบวนการ (facilitator) ที่ช่วยให้คำแนะนำในกระบวนการวิเคราะห์ข้อมูลของผู้เรียน โดยประเภทของกิจกรรมการสอนมักใช้ร่วมกับการสืบค้นข้อมูลในคลังข้อมูลภาษาที่พบบ่อย ได้แก่ การเติมช่องว่าง (gap-fills) กิจกรรมจับคู่ (matching activities) แบบทดสอบเลือกตอบ (multiple choice tasks) และการสร้างประโยค (sentence building) ดังนั้น DDL สามารถส่งเสริมการเรียนรู้แบบพึ่งตนเอง (learner autonomy) เสริมสร้างความมั่นใจในการใช้ภาษาอังกฤษของผู้เรียน (Cobb & Bolton, 2015; Liu, 2013; Yoon, 2008) และเปลี่ยนบรรยากาศการเรียนการสอนแบบเดิมให้มีความท้าทายขึ้น

DDL สามารถทำได้ 2 แบบ คือ hand-on DDL และ hand-off DDL หากผู้เรียนไม่สามารถเข้าถึงระบบออนไลน์ หรือเทคโนโลยีได้ ผู้สอนสามารถออกแบบวิธีการสอนแบบ hand-off DDL หรือที่เรียกว่า paper-based DDL คือการที่ผู้สอนนำข้อมูลจากคลังข้อมูลภาษามาสร้างสื่อการสอนให้ผู้เรียนศึกษา เช่น ตัวอย่างแบบฝึกหัด DDL โดย Sripicharn (2003, p. 234) ที่คัดเลือกบรรทัดคอนคอร์แดนซ์ของคำว่า ‘commit’ มาสร้างเป็นใบงาน พร้อมการใช้คำถามที่ชี้แนะแนวทางให้ผู้เรียนได้หาคำตอบ ได้แก่ What do all the underlined words have in common? What do people normally ‘commit’? และ How are the actions in line 8 and line 9 different from the other? และการขีดเส้นใต้คำปรากฏร่วมที่เกิดกับคำว่า ‘commit’ เพื่อให้ผู้เรียนสามารถวิเคราะห์บริบทและรูปแบบการใช้คำศัพท์ได้ดียิ่งขึ้น

ภาพที่ 3 ตัวอย่างใบงาน paper-based DDL ของคำว่า ‘commit’

หากผู้เรียนสามารถเข้าถึงอินเทอร์เน็ต ผู้สอนสามารถออกแบบการเรียนการสอนแบบ hand-on DDL ได้ โดยที่ผู้เรียนสามารถสืบค้นข้อมูลผ่านคลังข้อมูลภาษาออนไลน์ได้โดยตรง และใช้เครื่องมือต่าง ๆ (Corpus tools) ที่มีในระบบได้ เช่น การใช้สัญลักษณ์ดอกจัน (*) ฟังก์ชัน COLLOCATE และการวิเคราะห์บรรทัดคอนคอร์แดนซ์ซึ่งถือว่าเป็นเครื่องมือสำคัญที่ช่วยให้ผู้เรียนสามารถเข้าถึงข้อมูลเชิงลึกเกี่ยวกับรูปแบบและโครงสร้างของภาษาได้ (Boontam & Phoocharoensil, 2024) โดยในบทความนี้ ผู้เขียนจะขอยกตัวอย่างกิจกรรมเติมช่องว่าง (gap-fills) ที่มีการประยุกต์ใช้คลังข้อมูลภาษา โดยให้ผู้เรียนการสืบค้นคำในช่องว่างจาก COCA ด้วยการใช้สัญลักษณ์ดอกจัน (*) แทนคำที่ต้องการค้นหาตามตัวอย่างในภาพที่ 4

“Learning a second language broadens your ________ and help you better understand and appreciate different cultures.”

ภาพที่ 4 ตัวอย่างการสืบค้นคำศัพท์โดยการใช้คำสั่ง ‘broaden your *’ ใน COCA
ภาพที่ 5 ผลจากการสืบค้นด้วยคำสั่ง ‘broaden your *’ ใน COCA

จากภาพที่ 5 จะพบว่า COCA แสดงผลคำศัพท์ที่พบเจอในคลังข้อมูลภาษาพร้อมความถี่ของรูปแบบการเกิด เช่น ‘broaden your horizons’ (40 tokens), ‘broaden your perspective’ (10 tokens) และ ‘broaden your mind’ (7 tokens) ทำให้ผู้เรียนสามารถเลือกคำศัพท์ไปเติมได้อย่างถูกต้องและเป็นธรรมชาติมากขึ้น ดังนั้น DDL ไม่เพียงแต่ช่วยให้ผู้เรียนตระหนักถึงวิธีการใช้ภาษาในสถานการณ์การสื่อสารในชีวิตจริง แต่ยังพัฒนาความเป็นอิสระของพวกเขาโดยกระตุ้นให้พวกเขารับผิดชอบต่อการเรียนรู้ของตนเอง

สรุปได้ว่า การประยุกต์ใช้คลังข้อมูลภาษาในการเรียนการสอน สามารถพัฒนาทักษะการใช้ภาษาอังกฤษของผู้เรียนได้ดียิ่งขึ้นในการศึกษาโครงการไวยากรณ์และรูปแบบการใช้คำที่มักปรากฏร่วมกันซึ่งช่วยให้ผู้เรียนสามารถพัฒนาคลังคำศัพท์ที่หลากหลายยิ่งขึ้นและโครงสร้างภาษาที่ซับซ้อนมากขึ้นนอกเหนือจากสืบค้นได้จากหนังสือเรียนทั่วไปหรือในพจนานุกรมแบบดั้งเดิม

References:

Boontam, P., & Phoocharoensil, S. (2024). Effects of data-driven learning on writing complexity, accuracy, and fluency (CAF) of Thai EFL learners. PASAA Journal, 68, 229-271.

Cangır, H. (2022). Using corpus tools for academic writing in EFL settings: A data-driven learning approach. In G. Yangın-Ekşi, S. Akayoglu, & L. Anyango, (Eds.), New Directions in Technology for Writing Instruction (pp. 171-191). Springer.

Cheng, W. (2012). Exploring Corpus Linguistics Language in Action. Routledge.

Cobb, T., & Boulton, A. (2015). Classroom applications of corpus analysis. In Biber, D. and Reppen, R. (Eds.), The Cambridge handbook of English corpus linguistics (pp. 478–497). Cambridge University Press.

Conrad, S. (2010). What can a corpus tell us about grammar?. In A. O’Keeffe & M. McCarthy (Eds.), The Routledge handbook of corpus linguistics (pp. 227-240). Routledge.

Cristofaro, M. D. (2023). Corpus approaches to language in social media. Routledge

Flowerdew, L. (2009). Applying corpus linguistics to pedagogy: A critical evaluation. International Journal of Corpus Linguistics, 14(3), 393–417. doi: 10.1075/ijcl.14.3.05flo.

Hunston, S. (2002). Corpora in applied linguistics. Cambridge University Press.

Johns, T. (1997). Contexts: The background, development and trialling of a concordance-based CALL program. In Wichmann, A., Fligelstone, S., McEnery, T., & Knowles, G. (Eds.) Teaching and Language Corpora. Longman.

Lindquist, H., & Levin, M. (2018). Corpus linguistics and the description of English (2ndEd). Edinburgh University Press.

Liu, D. (2013). Using corpora to help teach difficult-to-distinguish English words. English Teaching, 68(3), 27-50.

Luo, Q., & Liao, Y. (2015). Using corpora for error correction in EFL learners’ writing. Journal of Language Teaching and Research, 6(6), 1333–1342.

Phoocharoensil, S. (2020). Collocational patterns of the near-synonyms error, fault, and mistake. The International Journal of Communication and Linguistic Studies, 19(1), 1-17. https://doi.org/10.18848/2327-7882/CGP/v19i01/1-17.

Römer, U. (2011). Corpus research applications in second language teaching. Annual Review of Applied Linguistics, 31, 205–225.

Sripicharn, P. (2003). Evaluating classroom concordancing: The use of concordance-based materials by a group of Thai students. Thammasat Review8(1), 203–236. 

Szudarski, P. (2018). Corpus linguistics for vocabulary: A guide for research. Routledge. Yoon, H. (2008). More than a linguistic reference: The influence of corpus technology on L2 academic writing. Language Learning & Technology, 12(2), 31–48.

บทความโดย ผู้ช่วยศาสตราจารย์ ดร.ปุณยภา บุญธรรม
นักศึกษาหลักสูตรปริญญาเอก สาขาวิชาการสอนภาษาอังกฤษ รุ่นที่ 9