بنابراین بیایید با مراحلی که برای ChatGPT باید انجام دهند شروع می کنیم، به عنوان مثال، به شما پاسخی برای یک سوال بدهند. مجدداً، مانند موتورهای جستجو، ابتدا باید داده ها را جمع آوری کنند.
سپس آنها باید داده ها را در قالبی که می توانند به آن دسترسی داشته باشند ذخیره کنند و سپس باید در پایان به شما پاسخی بدهند که مشابه رتبه بندی است. اگر با جمع آوری داده ها شروع کنیم، نزدیک ترین چیز به موتورهای جستجویی است که می شناسیم و دوست داریم. بنابراین آنها اساساً به صفحات وب میروند، اینترنت را کاوش میکنند و اگر از یک صفحه وب بازدید نکردهاند یا منبع اطلاعات دیگری به دست نیاوردهاند، این پاسخ را نمیدانند. آنها در اینجا به نوعی در نقطه ضعف هستند زیرا موتورهای جستجو این کار را انجام می دهند و این اطلاعات را برای چندین دهه ثبت می کنند، در حالی که آنها تازه شروع به کار کرده اند.
بنابراین آنها کارهای زیادی برای انجام دادن دارند. بسیاری از گوشه های اینترنت وجود دارد که آنها واقعاً نتوانسته اند از آنها بازدید کنند. یکی از کارهایی که آنها می توانند انجام دهند، چیزی که می توانند جمع آوری کنند و سایر موتورهای جستجو نمی توانند به آن دسترسی پیدا کنند، داده های چت است. بنابراین وقتی از پلتفرمها استفاده میکنید، آنها دادههایی را درباره آنچه که شما وارد میکنید و نحوه تعامل شما با آن جمعآوری میکنند و این به مدل آموزشی آنها میخورد.
بنابراین این چیزی است که هنگام کار با پلتفرم هایی مانند ChatGPT باید از آن آگاه باشید این است که اگر داده های خصوصی را در آنجا قرار دهید، پس از آن لزوماً خصوصی نیستند. ممکن است بخواهید تنظیمات خود را مرور کنید یا از API استفاده کنید، زیرا آنها قول می دهند که بر روی داده های API آموزش نمی بینند. اگر به مرحله دوم یعنی ذخیره این اطلاعات برویم، این همان چیزی است که ما آن را نمایه سازی در جستجو می نامیم، و اینجاست که همه چیز کمی از هم جدا می شود، اما هنوز هم شباهت های زیادی وجود دارد.
بنابراین در روزهای اولیه موتورهای جستجو، در واقع ایندکس، دادههایی که آنها ثبت کرده بودند، آنطور که ما به آن عادت کردهایم بهروزرسانی نمیشد. به محض اینکه چیزی در اینترنت منتشر شد نمی توانستیم مطمئن باشیم که جایی در موتور جستجو ظاهر می شود. این بیشتر هر چند ماه یکبار آپدیت می شد چون بسیار گران بود. این به روز رسانی های شاخص از نظر زمانی و مالی پرهزینه بود. ما در حال حاضر در وضعیت مشابهی با مدل های زبان بزرگ هستیم.
شاید متوجه شده باشید که هر از چند گاهی می گویند: “خوب، ما چیزها را به روز کردیم.” » اطلاعاتی که الان دارد تا آوریل یا چیزی شبیه به آن معتبر است. این به این دلیل است که وقتی آنها می خواهند اطلاعات بیشتری را در مدل ها قرار دهند، در واقع باید همه چیز را بازیافت کنند. بار دیگر، این برای آنها گران تمام می شود. هر دوی این محدودیتها به نوعی به پاسخهایی که در پایان میگیرید کمک میکنند.
مطمئنم شما این را دیده اید. ممکن است با ChatGPT کار می کنید و اطلاعاتی که درخواست می کنید مشاهده نشده باشد یا اطلاعاتی که در اختیار دارد قدیمی باشد.
منبع: https://moz.com/blog/know-about-llms-whiteboard-friday