2024年8月17日 星期六

AI改變學習的方式:個人化與多主題深度學習的實踐

人工智慧(AI)在現代學習中的應用日益廣泛,並且正在重塑我們學習知識、解決問題以及掌握新技能的方式。AI技術可以自動化大量的學習過程,提供個性化的學習體驗,並幫助學生和專業人士更有效地理解和應用知識。本文分享AI在現代學習中的一些主要應用,特別是像ChatGPT這樣的語言模型的作用,以及OT在這一年多來(重度)使用後的心得。


對OT來說,ChatGPT像是本豐富的百科全書,從混亂的知識體系中提供有組織的內容給我做為參考。一般認為透過這類的生程式語言模型用學習,有以下好處:

  • 個性化學習
    • AI技術可以根據學習者的需求、興趣和能力提供個性化的學習內容。這意味著學生可以根據自己的節奏學習,並獲得針對他們個人需求的學習材料。ChatGPT等語言模型能夠根據使用者的提問和互動來調整回應,為學習者提供即時的個性化指導,幫助他們更好地理解所學內容。
  • 智能教學助手
    • AI可以作為教師的智能助手,幫助回答學生的問題、提供額外的學習資源,甚至進行作業的自動評分。ChatGPT等語言模型能夠在學習過程中即時回應學生的問題,並且可以全天候提供支持,這對於自學者特別有用。
  • 知識擴展與深度學習
    • ChatGPT等語言模型可以作為一個隨時可用的「知識百科全書」,幫助學生快速獲取和理解各種主題的信息。這樣的工具能夠解釋複雜概念、提供詳細範例,並根據學習者的需求進一步深挖主題,從而促進更深層次的學習。
  • 語言學習與溝通技能
    • AI語言模型在語言學習中也有很大的應用潛力。ChatGPT可以模擬與母語者的對話,幫助學生練習口語、聽力和寫作,並即時糾正錯誤。這為學習者提供了一個低壓環境,使他們可以反復練習而無需擔心犯錯。
  • 創意和問題解決
    • AI還可以幫助激發創意和解決問題。ChatGPT等工具能夠生成創新的想法、提供不同的觀點,並幫助學生從不同的角度思考問題。這對於需要批判性思維和創意解決問題的學科特別有幫助。
  • 即時反饋與持續學習
    • AI可以在學習者進行練習或回答問題後立即提供反饋,這有助於學習者及時糾正錯誤並鞏固知識。ChatGPT等語言模型可以根據學生的回應進行即時調整,確保學習過程更加連貫和有效。

這邊提一下傳統的搜尋引擎跟使用AI做為學習有甚麼不同?

一般搜尋引擎的實作是相當複雜的,例如Google、Yahoo或是Bing、百度等,我們分為幾個主要的步驟來理解。這些步驟包括網路爬蟲(Crawler)、索引(Indexing)、排序演算法(Ranking Algorithms)和查詢處理(Query Processing)。

  1. 網路爬蟲(Crawler):網路爬蟲,也稱為網頁蜘蛛(Web Spider),是一個自動化的程式,負責瀏覽互聯網上的網站並收集資料。這些爬蟲會遵循網頁中的鏈接(links)從一個頁面到另一個頁面,並收集每個頁面的內容(如文本、圖片和其他媒體)。爬蟲的工作方式大致如下:
    • 發送請求(Requests):爬蟲向一個網站發送HTTP請求,請求該網站的網頁。
    • 解析頁面(Parsing Pages):收到網頁後,爬蟲會解析HTML代碼,提取其中的文本內容和鏈接。
    • 遵循鏈接(Following Links):爬蟲會根據頁面中的鏈接,繼續訪問其他頁面,這樣就可以遍歷整個網站,甚至互聯網的很大部分。
    • 遵守robots.txt:爬蟲通常會先檢查網站的robots.txt文件,這個文件會指示爬蟲哪些頁面可以或不可以被抓取。
  2. 索引(Indexing):當爬蟲收集了大量的網頁資料後,這些資料會被傳送到搜索引擎的索引系統中。索引就像是一本非常大的目錄,它儲存了所有已抓取網頁的內容,以便快速查找和檢索。索引的主要工作包括:
    • 分析內容(Content Analysis):對網頁中的文本進行語法分析,提取出重要的關鍵詞和詞組。
    • 建立索引(Building the Index):將提取出的關鍵詞和它們在網頁中的位置(例如標題、正文、鏈接文本等)存儲在索引中。
    • 數據結構(Data Structures):索引使用高效的數據結構(例如倒排索引),以便在用戶進行查詢時能夠快速檢索到相關內容。
  3. 排序演算法(Ranking Algorithms):當用戶輸入查詢時,搜索引擎會使用排序演算法來確定哪些結果應該排在前面。這些演算法考慮了多種因素,以提供最相關的結果。主要的排序因素包括:
    • 關鍵詞匹配(Keyword Matching):檢查用戶查詢中的關鍵詞是否出現在索引中的網頁中。
    • 頁面權重(Page Authority):依據頁面的質量和受歡迎程度來排序,比如使用Google的PageRank演算法來評估一個頁面的重要性。
    • 用戶體驗指標(User Experience Metrics):例如頁面加載時間、移動友好性、廣告佔比等。
  4. 查詢處理(Query Processing):當用戶提交查詢後,搜索引擎會在索引中查找相關結果,然後按相關性排序並返回給用戶。這包括以下步驟:
    • 查詢理解(Query Understanding):解析用戶查詢,理解其意圖,並可能擴展查詢(例如糾正拼寫錯誤,進行同義詞匹配等)。
    • 檢索結果(Retrieving Results):在索引中查找與查詢匹配的網頁。
    • 排序結果(Ranking Results):使用排序演算法對檢索到的網頁進行排序。
    • 返回結果(Returning Results):將排序後的結果返回給用戶,通常會顯示在網頁上,並附有網站摘要(snippet)。
  5. 標籤與分類(Tagging and Categorization):雖然並不是所有的搜尋引擎都明確地對每個網頁進行標籤,但他們會通過自然語言處理(NLP)技術來識別和分類網頁內容。例如,可以分析頁面的主題、類別、意圖等,這些分析結果可以用來提高搜索結果的相關性。

也就是搜尋引擎通過網路爬蟲收集大量資料,然後索引和排序這些資料,並在用戶進行查詢時迅速返回最相關的結果。Google等大型搜尋引擎在此過程中使用了高度先進的演算法和技術來確保結果的精確度和相關性。這也是為什麼這些搜尋引擎的龍頭每年都需要花費大筆的資本在建立資料中心的原因了。搜尋引擎公司如Google的基礎建設中,在全球各資料中心建置包括成千上萬的伺服器,它們負責處理大量的資料,例如從網頁爬蟲中收集的資料,並將其存儲、索引和分析。爬蟲代碼會被部署在這些伺服器上,24小時不間斷地運行,持續地掃描網際網路,並將所獲取的資料儲存到伺服器中以供後續處理和檢索。

但生成語言模型,如ChatGPT的做法則有些不同;像是ChatGPT 是基於 OpenAI 的 GPT-3.5 或 GPT-4 模型,而這些模型是通過大量的公開文本數據訓練出來的,這些文本數據包括:書籍、文章、網頁內容、學術論文、新聞報導、社交媒體帖子等多種來源。這些數據通常來自於公共可訪問的互聯網資料庫、已經發表的出版物,以及獲得許可使用的資料集。

當OpenAI 在訓練這些模型時,使用了大規模的文本數據集,這些數據集是在遵守相關法律和版權的前提下收集的。模型的訓練過程並非通過即時的網路爬蟲活動來獲取數據,而是在一個特定的時間點之前收集並整理的數據。因此,ChatGPT 並不具有即時訪問網絡的能力,也無法直接從當前的互聯網上爬取資料來回應問題。需要強調的是,雖然這些資料集涵蓋了互聯網上的廣泛內容,但 OpenAI 也會通過篩選和過濾來盡可能去除某些敏感或不合適的內容,並且在訓練過程中加入了許多措施以減少偏見和不正確信息的生成。所以由於訓練數據來自於在訓練時期之前的資料,因此 ChatGPT 並不具備對特定日期之後事件或最新資訊的了解。其回應基於訓練過程中學習到的知識,而不是即時爬取或搜尋。

以這一年多來OT使用ChatGPT作為學習的心得,它確實是幫助我跳脫既有學習方式的思考,例如我可以將ChatGPT分類成不同的頁籤,包含語文、歷史、半討體、車聯網、無線通訊、SMT製程、品質管理、清潔能源、資訊安全等不同主題進行學習,訓練ChatGPT依照對話串的訊息要求提供OT精準的回覆;除此之外,也因為這些資料可以暫存在ChatGPT的多個頁籤上,即便是隔了段相當長的時間,但是每當回顧時,記憶就可以通過回溯這些討論串恢復。也就是我可以在不同的主題間做切換,並且各個主題都變成是可以回溯的,就不會總是隔一段時間沒有付息的話又要從0開始。並且由於ChatGPT作為通用型的語言模型,對於每個主題都可以提供一些基本的入門知識,若說是有甚麼缺點的話,應該就是當我的問題如果問得不夠深入,ChatGPT也抓不到問題的重點,回覆就會變得比較膚淺;換句話說如果要獲得更深入的答案,自己的問題也得要夠深入才行。

為什麼會想寫這篇文章呢?應該是特別最近開始在讀半導體以及雷達相關的技術文獻,發現有ChatGPT幫助入門及記憶,學習的效率確實高上許多。有些人擔心AI比人類聰明,會取代人類,但OT認為AI雖然博學多聞,但它不具備目的性;舉例來說,半導體相關知識它懂得很廣泛,但是這些知識對它來說並沒有用,它並不知道它為什麼需要知道這些知識?但是身為人的我們知道!也就是目前AI仍然被當成是工具使用。如果當有一天AI開始在問:「為什麼我會被創造出來?」「我被創造出來的目的是甚麼?」當它開始在追求自己存在的價值及目標時,也許那時會是人類該擔心的時候。



民國113年8月17日
Otori Z.+

沒有留言:

張貼留言