اللبنة الأساسية التي يفهم بها الذكاء الاصطناعي لغتنا
ما هو الـ Tokenization؟
الـ Tokenization هو عملية تقسيم النص إلى وحدات صغيرة تُسمّى “Tokens” حتى يتمكن نموذج الذكاء الاصطناعي من معالجتها وفهمها. الـ Token ليس بالضرورة كلمة كاملة قد يكون كلمة او جزءًا من كلمة أو حتى علامة ترقيم. فكّر في الأمر كما تفعل مع الأطفال حين يتعلمون القراءة تُقسّم الكلمة إلى مقاطع أصغر حتى يسهل فهمها ونطقها. النموذج لا يقرأ الجملة كما نقرأها بل يراها كسلسلة من هذه الرموز الصغيرة.
ما المشكلة التي يحلّها؟
الحواسيب لا تفهم اللغة بطبيعتها هي تفهم الأرقام فقط. الـ Tokenization يحل هذا بأن يكون الجسر بين النص والأرقام التي يعالجها النموذج. بدونه، لا يستطيع أي نموذج لغوي قراءة كلمة واحدة أو الإجابة على أي سؤال. هو الخطوة الأولى والأساسية في سلسلة معالجة اللغة الطبيعية كاملة.
مثال من الواقع
حين تكتب لـ ChatGPT أو Claude: “ما هو الذكاء الاصطناعي؟” — النموذج لا يقرأ الجملة كما تراها. بدلاً من ذلك يُقسّمها إلى Tokens مثل: [“ما”, ” هو”, ” الذكاء”, ” الاصطناعي”, “؟”] — ثم يُحوّل كل Token إلى رقم. هذه الأرقام هي ما يعالجه النموذج فعليًا للإجابة عليك. ولهذا السبب حين تستخدم Claude API مثلاً، تُحاسَب على عدد الـ Tokens وليس عدد الكلمات لأن الـ Token هو وحدة القياس الحقيقية.
الخلاصة
الـ Tokenization هو نقطة البداية في كل نموذج لغوي بدونه لا يوجد ChatGPT ولا Claude ولا أي ذكاء اصطناعي يفهم النص. فهمك لهذا المفهوم يُساعدك على استخدام النماذج اللغوية بذكاء أكبر تعرف لماذا النصوص الطويلة تكلّف أكثر، ولماذا بعض اللغات تستهلك Tokens أكثر من غيرها، ولماذا للنموذج حد أقصى لما يستطيع معالجته في وقت واحد.