آنچه شما باید در مورد LLM بدانید
وبلاگ

آنچه شما باید در مورد LLM بدانید

بنابراین بیایید با مراحلی که برای ChatGPT باید انجام دهند شروع می کنیم، به عنوان مثال، به شما پاسخی برای یک سوال بدهند. مجدداً، مانند موتورهای جستجو، ابتدا باید داده ها را جمع آوری کنند.

سپس آنها باید داده ها را در قالبی که می توانند به آن دسترسی داشته باشند ذخیره کنند و سپس باید در پایان به شما پاسخی بدهند که مشابه رتبه بندی است. اگر با جمع آوری داده ها شروع کنیم، نزدیک ترین چیز به موتورهای جستجویی است که می شناسیم و دوست داریم. بنابراین آنها اساساً به صفحات وب می‌روند، اینترنت را کاوش می‌کنند و اگر از یک صفحه وب بازدید نکرده‌اند یا منبع اطلاعات دیگری به دست نیاورده‌اند، این پاسخ را نمی‌دانند. آنها در اینجا به نوعی در نقطه ضعف هستند زیرا موتورهای جستجو این کار را انجام می دهند و این اطلاعات را برای چندین دهه ثبت می کنند، در حالی که آنها تازه شروع به کار کرده اند.

بنابراین آنها کارهای زیادی برای انجام دادن دارند. بسیاری از گوشه های اینترنت وجود دارد که آنها واقعاً نتوانسته اند از آنها بازدید کنند. یکی از کارهایی که آنها می توانند انجام دهند، چیزی که می توانند جمع آوری کنند و سایر موتورهای جستجو نمی توانند به آن دسترسی پیدا کنند، داده های چت است. بنابراین وقتی از پلتفرم‌ها استفاده می‌کنید، آن‌ها داده‌هایی را درباره آنچه که شما وارد می‌کنید و نحوه تعامل شما با آن جمع‌آوری می‌کنند و این به مدل آموزشی آنها می‌خورد.

بنابراین این چیزی است که هنگام کار با پلتفرم هایی مانند ChatGPT باید از آن آگاه باشید این است که اگر داده های خصوصی را در آنجا قرار دهید، پس از آن لزوماً خصوصی نیستند. ممکن است بخواهید تنظیمات خود را مرور کنید یا از API استفاده کنید، زیرا آنها قول می دهند که بر روی داده های API آموزش نمی بینند. اگر به مرحله دوم یعنی ذخیره این اطلاعات برویم، این همان چیزی است که ما آن را نمایه سازی در جستجو می نامیم، و اینجاست که همه چیز کمی از هم جدا می شود، اما هنوز هم شباهت های زیادی وجود دارد.

  Quelques entreprises ont-elles le monopole des résultats de recherche ? • Yoast

بنابراین در روزهای اولیه موتورهای جستجو، در واقع ایندکس، داده‌هایی که آنها ثبت کرده بودند، آنطور که ما به آن عادت کرده‌ایم به‌روزرسانی نمی‌شد. به محض اینکه چیزی در اینترنت منتشر شد نمی توانستیم مطمئن باشیم که جایی در موتور جستجو ظاهر می شود. این بیشتر هر چند ماه یکبار آپدیت می شد چون بسیار گران بود. این به روز رسانی های شاخص از نظر زمانی و مالی پرهزینه بود. ما در حال حاضر در وضعیت مشابهی با مدل های زبان بزرگ هستیم.

شاید متوجه شده باشید که هر از چند گاهی می گویند: “خوب، ما چیزها را به روز کردیم.” » اطلاعاتی که الان دارد تا آوریل یا چیزی شبیه به آن معتبر است. این به این دلیل است که وقتی آنها می خواهند اطلاعات بیشتری را در مدل ها قرار دهند، در واقع باید همه چیز را بازیافت کنند. بار دیگر، این برای آنها گران تمام می شود. هر دوی این محدودیت‌ها به نوعی به پاسخ‌هایی که در پایان می‌گیرید کمک می‌کنند.

مطمئنم شما این را دیده اید. ممکن است با ChatGPT کار می کنید و اطلاعاتی که درخواست می کنید مشاهده نشده باشد یا اطلاعاتی که در اختیار دارد قدیمی باشد.

منبع: https://moz.com/blog/know-about-llms-whiteboard-friday