顯示具有 OpenAI 標籤的文章。 顯示所有文章
顯示具有 OpenAI 標籤的文章。 顯示所有文章

2025年3月14日 星期五

Azure OpenAI AOAI 2.0 : 13 具有記憶的聊天

Azure OpenAI AOAI 2.0 : 13 具有記憶的聊天

如同大家對 GPT 的認識與了解,OpenAI 的 GPT 會針對提交出來的 Prompt 透過 Transformer 的技術,生成出 Completion 的回應文字,這樣的技術可以應用在許多場景,例如:對話式應用程式、自動回覆、自動翻譯、自動摘要、自動生成程式碼等等。

然而,對於一連串的與 GPT 對話過程中,GPT 是不會知道上次提問的問題與生成內容是那些,這樣的情況下,就會需要一個具有記憶的聊天機制,這樣的機制可以讓 GPT 記住上次的對話內容,這樣的機制可以讓 GPT 生成的回應文字更加的符合上下文。

由於這不是 Azure OpenAI 內建的功能,想要具備這樣的聊天與對話的能力就需要透過程式碼的方式來實現,這樣的功能可以透過 ChatMessage 這個類別來實現,這個類別可以記錄每一次的對話內容,這樣的功能可以讓 GPT 生成的回應文字更加的符合上下文。

建立測試專案

請依照底下的操作,建立起這篇文章需要用到的練習專案

  • 打開 Visual Studio 2022 IDE 應用程式
  • 從 [Visual Studio 2022] 對話窗中,點選右下方的 [建立新的專案] 按鈕
  • 在 [建立新專案] 對話窗右半部
    • 切換 [所有語言 (L)] 下拉選單控制項為 [C#]
    • 切換 [所有專案類型 (T)] 下拉選單控制項為 [主控台]
  • 在中間的專案範本清單中,找到並且點選 [主控台應用程式] 專案範本選項

    專案,用於建立可在 Windows、Linux 及 macOS 於 .NET 執行的命令列應用程式

  • 點選右下角的 [下一步] 按鈕
  • 在 [設定新的專案] 對話窗
  • 找到 [專案名稱] 欄位,輸入 csAzureAIOpenAIHistory 作為專案名稱
  • 在剛剛輸入的 [專案名稱] 欄位下方,確認沒有勾選 [將解決方案與專案至於相同目錄中] 這個檢查盒控制項
  • 點選右下角的 [下一步] 按鈕
  • 現在將會看到 [其他資訊] 對話窗
  • 在 [架構] 欄位中,請選擇最新的開發框架,這裡選擇的 [架構] 是 : .NET 8.0 (長期支援)
  • 在這個練習中,需要去勾選 [不要使用最上層陳述式(T)] 這個檢查盒控制項

    這裡的這個操作,可以由讀者自行決定是否要勾選這個檢查盒控制項

  • 請點選右下角的 [建立] 按鈕

稍微等候一下,這個 背景工作服務 專案將會建立完成

安裝要用到的 NuGet 開發套件

因為開發此專案時會用到這些 NuGet 套件,請依照底下說明,將需要用到的 NuGet 套件安裝起來。

安裝 Azure.AI.OpenAI 套件

請依照底下說明操作步驟,將這個套件安裝到專案內

  • 滑鼠右擊 [方案總管] 視窗內的 [專案節點] 下方的 [相依性] 節點
  • 從彈出功能表清單中,點選 [管理 NuGet 套件] 這個功能選項清單
  • 此時,將會看到 [NuGet: csAzureAIOpenAIHistory] 視窗
  • 切換此視窗的標籤頁次到名稱為 [瀏覽] 這個標籤頁次
  • 在左上方找到一個搜尋文字輸入盒,在此輸入 Azure.AI.OpenAI
  • 在視窗右方,將會看到該套件詳細說明的內容,其中,右上方有的 [安裝] 按鈕

    請確認有取消 Pre-release 這個選項,與選擇 2.0 正式版

  • 點選這個 [安裝] 按鈕,將這個套件安裝到專案內

修改 Program.cs 類別內容

在這篇文章中,將會把會用到的新類別與程式碼,都寫入到 [Program.cs] 這個檔案中,請依照底下的操作,修改 [Program.cs] 這個檔案的內容

  • 在專案中找到並且打開 [Program.cs] 檔案
  • 將底下的程式碼取代掉 Program.cs 檔案中內容
using Azure.AI.OpenAI;
using OpenAI.Chat;

namespace csAzureAIOpenAIHistory;

internal class Program
{
    static void Main(string[] args)
    {
        List<ChatMessage> history = new();
        string userPrompt = "請列出何謂 GPT 與其四個主要的特色";
        history.Add(UserChatMessage.CreateUserMessage(userPrompt));
        GptChart(history);

        userPrompt = "請列出何謂 LLM ";
        history.Add(UserChatMessage.CreateUserMessage(userPrompt));
        GptChart(history);

        userPrompt = "請列出何謂 Transformer ";
        history.Add(UserChatMessage.CreateUserMessage(userPrompt));
        GptChart(history);
    }

    private static void GptChart(List<ChatMessage> prompts)
    {
        // 讀取環境變數 AOAILabKey 的 API Key
        string apiKey = System.Environment.GetEnvironmentVariable("AOAILabKey");
        AzureOpenAIClient azureClient = new(
            new Uri("https://gpt4tw.openai.azure.com/"),
            new System.ClientModel.ApiKeyCredential(apiKey));
        ChatClient chatClient = azureClient.GetChatClient("gpt-4");

        foreach (var message in prompts)
        {
            string roleName = message is SystemChatMessage ? "System" :
                message is UserChatMessage ? "User" :
                "Assistant";
            Console.WriteLine($"{DateTime.Now}  [{roleName}]: {message.Content[0].Text}");
        }

        ChatCompletion completion = chatClient.CompleteChat(prompts);

        Console.WriteLine($"{DateTime.Now}  [Assistant]");
        foreach (var message in completion.Content)
        {
            if (message.Text != null && message.Text.Trim() != "")
            {
                Console.WriteLine($"{DateTime.Now} {message.Text}");
                prompts.Add(AssistantChatMessage.CreateAssistantMessage(message.Text));
            }
        }

        Console.WriteLine($"");
        Console.WriteLine($"Role : {completion.Role}");
        Console.WriteLine($"InputTokenCount : {completion.Usage.InputTokenCount}");
        Console.WriteLine($"OutputTokenCount : {completion.Usage.OutputTokenCount}");
        Console.WriteLine($"ReasoningTokenCount : {completion.Usage.OutputTokenDetails?.ReasoningTokenCount}");
        Console.WriteLine($"TotalTokenCount : {completion.Usage.TotalTokenCount}");
        Console.WriteLine();
        Console.WriteLine();
        Console.WriteLine(new string('-', 40));
        Console.WriteLine(new string('-', 40));
        Console.WriteLine();
        Console.WriteLine();
    }
}

在這支展示程式中,我們透過 [List] 這個類別,來記錄每一次的對話內容,這包含了使用者提出的 Prompt,這個內容將會使用 [UserChatMessage] 這個類別來記錄,而 Assistant 回應的內容將會使用 [AssistantChatMessage] 這個類別來記錄,這樣的設計可以讓 GPT 生成的回應文字更加的符合上下文。

在此建立了一個 history 物件,首先將會產生一個 string userPrompt = "請列出何謂 GPT 與其四個主要的特色"; 提示文字,並且將這個 Prompt 加入到 history 物件中,接著透過 GptChart(history); 這個方法來進行 GPT 的對話,這樣的設計可以讓 GPT 生成的回應文字更加的符合上下文。

在 [GptChart] 方法內,首先會透過 ChatCompletion completion = chatClient.CompleteChat(prompts); 這個方法來進行 GPT 的對話,這樣的設計可以讓 GPT 生成的回應文字更加的符合上下文,接著將 Assistant 回應的內容加入到 history 物件中,這樣的設計可以讓 GPT 生成的回應文字更加的符合上下文。

執行測試專案

  • 按下 F5 開始執行專案
  • 將會看到輸出結果
  • 從這裡的輸出結果可以看出,每次對 GPT 送出請求的時候,會將之前的對話與回應內容,都放在此次對話中,這樣的設計可以讓 GPT 生成的回應文字更加的符合上下文
2025/1/20 上午 09:40:06  [User]: 請列出何謂 GPT 與其四個主要的特色
2025/1/20 上午 09:40:22  [Assistant]
2025/1/20 上午 09:40:22 GPT(Generative Pre-trained Transformer)是一種基於 Transformer 架構的自然語言處理(NLP)模型, 由 OpenAI 開發。其主要目的是生成文本和執行各種語言任務,例如翻譯、問答和文本摘要。以下是 GPT 的四個主要特色:

1. **預訓練和微調(Pre-training and Fine-tuning)**:
   GPT 使用了一種兩階段的訓練策略。首先,在預訓練階段,模型在大量的文本數據上進行無監督學習,學習語言的通用規律和模式。 其次,在微調階段,模型可以被適應到特定的下游任務,例如分類或問答,通過在有標籤的數據集上進行額外的訓練。

2. **Transformer 架構**:
   GPT 基於 Transformer,這是一種關注機制的深度學習架構,專門設計用來處理序列化的數據。此架構能夠捕捉到長距離的依賴關係 ,並在 NLP 任務中取得了顯著的成效。

3. **自回歸性質(Autoregressive Property)**:
   GPT 在生成文本時具有自回歸性,即在預測下一個單詞時,會考慮到所有先前的單詞。這意味著它可以使用上下文來生成連貫且與先 前文本相關的句子。

4. **大規模參數和資料使用**:
   GPT 模型的獨特之處在於它們通常有大量的參數(例如,GPT-3 有1750億個參數),這需要極大的計算資源來訓練。這樣大量的參數 使得 GPT 擁有強大的學習能力,可以捕捉複雜的語言模式。它們同時也是在大量的文本數據上進行訓練,從而獲得了廣泛的知識和語言 理解。

GPT 系列模型在自然語言處理領域中表現卓越,尤其是在生成相關任務上的性能,使其在多種應用中都非常實用和強大。

Role : Assistant
InputTokenCount : 30
OutputTokenCount : 766
ReasoningTokenCount :
TotalTokenCount : 796


----------------------------------------
----------------------------------------


2025/1/20 上午 09:40:22  [User]: 請列出何謂 GPT 與其四個主要的特色
2025/1/20 上午 09:40:22  [Assistant]: GPT(Generative Pre-trained Transformer)是一種基於 Transformer 架構的自然語言處理(NLP)模型,由 OpenAI 開發。其主要目的是生成文本和執行各種語言任務,例如翻譯、問答和文本摘要。以下是 GPT 的四個主要特色:

1. **預訓練和微調(Pre-training and Fine-tuning)**:
   GPT 使用了一種兩階段的訓練策略。首先,在預訓練階段,模型在大量的文本數據上進行無監督學習,學習語言的通用規律和模式。 其次,在微調階段,模型可以被適應到特定的下游任務,例如分類或問答,通過在有標籤的數據集上進行額外的訓練。

2. **Transformer 架構**:
   GPT 基於 Transformer,這是一種關注機制的深度學習架構,專門設計用來處理序列化的數據。此架構能夠捕捉到長距離的依賴關係 ,並在 NLP 任務中取得了顯著的成效。

3. **自回歸性質(Autoregressive Property)**:
   GPT 在生成文本時具有自回歸性,即在預測下一個單詞時,會考慮到所有先前的單詞。這意味著它可以使用上下文來生成連貫且與先 前文本相關的句子。

4. **大規模參數和資料使用**:
   GPT 模型的獨特之處在於它們通常有大量的參數(例如,GPT-3 有1750億個參數),這需要極大的計算資源來訓練。這樣大量的參數 使得 GPT 擁有強大的學習能力,可以捕捉複雜的語言模式。它們同時也是在大量的文本數據上進行訓練,從而獲得了廣泛的知識和語言 理解。

GPT 系列模型在自然語言處理領域中表現卓越,尤其是在生成相關任務上的性能,使其在多種應用中都非常實用和強大。
2025/1/20 上午 09:40:22  [User]: 請列出何謂 LLM
2025/1/20 上午 09:40:39  [Assistant]
2025/1/20 上午 09:40:39 LLM 是指「Large Language Models」,也就是「大型語言模型」。這些模型是近年來自然語言處理(NLP)領域的一個重要發展趨勢,它們通常由數十億甚至數萬億個參數組成,是藉由在極大規模的文本數據上進行預訓練而開發出來的深度學習模型。以下是LLM的幾個主要特點:

1. **參數規模巨大**:LLM通常具有很大的模型規模,擁有大量的模型參數來捕捉語言的複雜性與多樣性,這讓LLM能夠學習和理解文本 的細微差異和深層意義。

2. **廣泛的知識和語言掌握**:透過在廣闊的文本數據集上訓練,LLM能夠捕捉到世界知識、文化背景、常識和專業術語等各個方面的知識,從而提供更全面、準確的語言理解和生成。

3. **多用途靈活性**:LLM通常在訓練時不專注於某個特定的下游任務,而是學習一般性的語言能力。訓練完成後可透過微調(fine-tuning)來適應各式各樣的應用,包括但不限於問答、摘要編寫、語言翻譯、文本生成、情感分析等。

4. **驚人的文本生成能力**:那些如GPT-3這樣的LLM特別以其生成的文本質量而著稱,能夠編寫逼真的文章、詩歌、對話和其他各種類 型的文本,有時幾乎無法與人類寫作區分開來。

由於LLM的這些特點,這些模型在提供語言理解和生成服務的同時也引發了一系列倫理和實踐上的問題,比如偏見、隱私侵犯、誤導性內 容生成,以及它們對於計算資源的巨大需求。因此,雖然LLM在技術上實現了巨大進步,但它們的使用和部署仍需仔細考量。

Role : Assistant
InputTokenCount : 816
OutputTokenCount : 777
ReasoningTokenCount :
TotalTokenCount : 1593


----------------------------------------
----------------------------------------


2025/1/20 上午 09:40:39  [User]: 請列出何謂 GPT 與其四個主要的特色
2025/1/20 上午 09:40:39  [Assistant]: GPT(Generative Pre-trained Transformer)是一種基於 Transformer 架構的自然語言處理(NLP)模型,由 OpenAI 開發。其主要目的是生成文本和執行各種語言任務,例如翻譯、問答和文本摘要。以下是 GPT 的四個主要特色:

1. **預訓練和微調(Pre-training and Fine-tuning)**:
   GPT 使用了一種兩階段的訓練策略。首先,在預訓練階段,模型在大量的文本數據上進行無監督學習,學習語言的通用規律和模式。 其次,在微調階段,模型可以被適應到特定的下游任務,例如分類或問答,通過在有標籤的數據集上進行額外的訓練。

2. **Transformer 架構**:
   GPT 基於 Transformer,這是一種關注機制的深度學習架構,專門設計用來處理序列化的數據。此架構能夠捕捉到長距離的依賴關係 ,並在 NLP 任務中取得了顯著的成效。

3. **自回歸性質(Autoregressive Property)**:
   GPT 在生成文本時具有自回歸性,即在預測下一個單詞時,會考慮到所有先前的單詞。這意味著它可以使用上下文來生成連貫且與先 前文本相關的句子。

4. **大規模參數和資料使用**:
   GPT 模型的獨特之處在於它們通常有大量的參數(例如,GPT-3 有1750億個參數),這需要極大的計算資源來訓練。這樣大量的參數 使得 GPT 擁有強大的學習能力,可以捕捉複雜的語言模式。它們同時也是在大量的文本數據上進行訓練,從而獲得了廣泛的知識和語言 理解。

GPT 系列模型在自然語言處理領域中表現卓越,尤其是在生成相關任務上的性能,使其在多種應用中都非常實用和強大。
2025/1/20 上午 09:40:39  [User]: 請列出何謂 LLM
2025/1/20 上午 09:40:39  [Assistant]: LLM 是指「Large Language Models」,也就是「大型語言模型」。這些模型是近年來自然語 言處理(NLP)領域的一個重要發展趨勢,它們通常由數十億甚至數萬億個參數組成,是藉由在極大規模的文本數據上進行預訓練而開發 出來的深度學習模型。以下是LLM的幾個主要特點:

1. **參數規模巨大**:LLM通常具有很大的模型規模,擁有大量的模型參數來捕捉語言的複雜性與多樣性,這讓LLM能夠學習和理解文本 的細微差異和深層意義。

2. **廣泛的知識和語言掌握**:透過在廣闊的文本數據集上訓練,LLM能夠捕捉到世界知識、文化背景、常識和專業術語等各個方面的知識,從而提供更全面、準確的語言理解和生成。

3. **多用途靈活性**:LLM通常在訓練時不專注於某個特定的下游任務,而是學習一般性的語言能力。訓練完成後可透過微調(fine-tuning)來適應各式各樣的應用,包括但不限於問答、摘要編寫、語言翻譯、文本生成、情感分析等。

4. **驚人的文本生成能力**:那些如GPT-3這樣的LLM特別以其生成的文本質量而著稱,能夠編寫逼真的文章、詩歌、對話和其他各種類 型的文本,有時幾乎無法與人類寫作區分開來。

由於LLM的這些特點,這些模型在提供語言理解和生成服務的同時也引發了一系列倫理和實踐上的問題,比如偏見、隱私侵犯、誤導性內 容生成,以及它們對於計算資源的巨大需求。因此,雖然LLM在技術上實現了巨大進步,但它們的使用和部署仍需仔細考量。
2025/1/20 上午 09:40:39  [User]: 請列出何謂 Transformer
2025/1/20 上午 09:41:01  [Assistant]
2025/1/20 上午 09:41:01 Transformer 是一種深度學習模型,專為處理序列數據,如自然語言文本或時間序列數據而設計。它於 2017 年由 Ashish Vaswani 和其他 Google 研究員在論文《Attention Is All You Need》中提出。Transformer 模型在自然語言處理(NLP)領域獲得了巨大的成功,已成為許多最先進模型的基礎架構,如 BERT、GPT 和 T5 等。

以下是 Transformer 的幾個關鍵特點:

1. **自注意力機制(Self-Attention)**:
   Transformer 使用自注意力機制來處理輸入序列。自注意力讓模型能在處理序列中的每個元素時,考慮到序列中的所有元素,這使得 Transformer 能夠捕捉長距離依賴關係,即序列中相隔很遠的元素之間的關係。

2. **並行處理(Parallelization)**:
   與先前使用遞歸神經網絡(RNNs)和卷積神經網絡(CNNs)相比,Transformer 不依賴序列化的數據處理,使其能夠更有效地利用現 代的多核處理器來並行處理數據。這一特點大幅提高了訓練模型的速度。

3. **層疊結構(Stacked Layers)**:
   Transformer 包括多個相同的層,每層有兩個主要子結構:多頭自注意力機制(Multi-Head Attention)和位置全連接前饋網絡(Position-wise Feed-Forward Networks)。這種層疊的結構讓 Transformer 能夠學習複雜的特徵表示。

4. **位置編碼(Positional Encoding)**:
   由於 Transformer 不像 RNN 那樣自然地處理序列順序,所以它需要一種方法來考慮輸入元素在序列中的位置。位置編碼提供了這樣 的信息,它被加到輸入序列的每個元素上,以保留順序信息。

Transformer 自推出以來,已成為許多 NLP 任務的主流架構,並持續激發新的研究和架構的開發,令該領域的技術發展突飛猛進。

Role : Assistant
InputTokenCount : 1612
OutputTokenCount : 773
ReasoningTokenCount :
TotalTokenCount : 2385


---------------------------------------- 

---------------------------------------- 




2025年2月21日 星期五

Azure OpenAI AOAI 2.0 : 15 RAG 的設計教學

Azure OpenAI AOAI 2.0 : 15 RAG 的設計教學

當大語言模型訓練完成後,該模型的知識將會永久停留在當時訓練資料提供的時間點,也就是說,這個語言模型對於現在與未來發生的事實,將也不會有任何這方面的知識,因此,若在使用該語言模型時候,詢問飛訓練資料時間內的事實,也就是不訓練資料沒有的事實,例如,企業內部的專屬知識,則該大語言模型將無法推理出想要的答案,進而將會產生所謂的幻覺。

為了解決這個問題,OpenAI 提供了一個新的模型,稱為 RAG(Retrieval-Augmented Generation),這個模型將會結合了檢索式的資料庫,進而提供更加準確的答案。

在運作流程中,將會把私有知識文件,透過 Embedding 模型,將會把這些文件計算出 Embedding,這是一個多維度的向量值,接著將這些 Embedding 存放到資料庫中,當使用者提問時,會先將提問文字,將會透過 Embedding 模型,將使用者的問題轉換成 Embedding,進而透過 Cosine 相似度計算,找出最相近的文件,進而得到最接近該問題的私有文件內容。

最後,將會把這個檔案的內容,與提問的問題,送至 GPT 內,進行生成最終答案,透過這樣的做法,將會得到最真實的需要內容,而且也會降低幻覺的發生機會與次數。

建立測試專案

請依照底下的操作,建立起這篇文章需要用到的練習專案

  • 打開 Visual Studio 2022 IDE 應用程式
  • 從 [Visual Studio 2022] 對話窗中,點選右下方的 [建立新的專案] 按鈕
  • 在 [建立新專案] 對話窗右半部
    • 切換 [所有語言 (L)] 下拉選單控制項為 [C#]
    • 切換 [所有專案類型 (T)] 下拉選單控制項為 [主控台]
  • 在中間的專案範本清單中,找到並且點選 [主控台應用程式] 專案範本選項

    專案,用於建立可在 Windows、Linux 及 macOS 於 .NET 執行的命令列應用程式

  • 點選右下角的 [下一步] 按鈕
  • 在 [設定新的專案] 對話窗
  • 找到 [專案名稱] 欄位,輸入 csRAG 作為專案名稱
  • 在剛剛輸入的 [專案名稱] 欄位下方,確認沒有勾選 [將解決方案與專案至於相同目錄中] 這個檢查盒控制項
  • 點選右下角的 [下一步] 按鈕
  • 現在將會看到 [其他資訊] 對話窗
  • 在 [架構] 欄位中,請選擇最新的開發框架,這裡選擇的 [架構] 是 : .NET 8.0 (長期支援)
  • 在這個練習中,需要去勾選 [不要使用最上層陳述式(T)] 這個檢查盒控制項

    這裡的這個操作,可以由讀者自行決定是否要勾選這個檢查盒控制項

  • 請點選右下角的 [建立] 按鈕

稍微等候一下,這個 背景工作服務 專案將會建立完成

安裝要用到的 NuGet 開發套件

因為開發此專案時會用到這些 NuGet 套件,請依照底下說明,將需要用到的 NuGet 套件安裝起來。

安裝 Azure.AI.OpenAI 套件

請依照底下說明操作步驟,將這個套件安裝到專案內

  • 滑鼠右擊 [方案總管] 視窗內的 [專案節點] 下方的 [相依性] 節點
  • 從彈出功能表清單中,點選 [管理 NuGet 套件] 這個功能選項清單
  • 此時,將會看到 [NuGet: csRAG] 視窗
  • 切換此視窗的標籤頁次到名稱為 [瀏覽] 這個標籤頁次
  • 在左上方找到一個搜尋文字輸入盒,在此輸入 Azure.AI.OpenAI
  • 在視窗右方,將會看到該套件詳細說明的內容,其中,右上方有的 [安裝] 按鈕

    請確認有取消 Pre-release 這個選項,與選擇 2.0 正式版

  • 點選這個 [安裝] 按鈕,將這個套件安裝到專案內

安裝 itext7 套件

這個 [itext7] 套件是用來讀取 PDF 檔案的套件

請依照底下說明操作步驟,將這個套件安裝到專案內

  • 滑鼠右擊 [方案總管] 視窗內的 [專案節點] 下方的 [相依性] 節點
  • 從彈出功能表清單中,點選 [管理 NuGet 套件] 這個功能選項清單
  • 此時,將會看到 [NuGet: csRAG] 視窗
  • 切換此視窗的標籤頁次到名稱為 [瀏覽] 這個標籤頁次
  • 在左上方找到一個搜尋文字輸入盒,在此輸入 itext7
  • 在視窗右方,將會看到該套件詳細說明的內容,其中,右上方有的 [安裝] 按鈕

    請確認有取消 Pre-release 這個選項,與選擇 2.0 正式版

  • 點選這個 [安裝] 按鈕,將這個套件安裝到專案內

修改 Program.cs 類別內容

在這篇文章中,將會把會用到的新類別與程式碼,都寫入到 [Program.cs] 這個檔案中,請依照底下的操作,修改 [Program.cs] 這個檔案的內容

  • 在專案中找到並且打開 [Program.cs] 檔案
  • 將底下的程式碼取代掉 Program.cs 檔案中內容
using Azure.AI.OpenAI;
using iText.Kernel.Pdf;
using iText.Kernel.Pdf.Canvas.Parser;
using iText.Kernel.Pdf.Canvas.Parser.Listener;
using OpenAI.Chat;
using OpenAI.Embeddings;
using System.Text;

namespace csRAG
{
    public class ChunkItem
    {
        public string Text { get; set; }
        public string Filename { get; set; }
        public List<float> Embedding { get; set; }
        public float Similarity { get; set; }
    }

    internal class Program
    {
        static void Main(string[] args)
        {
            // 讀取環境變數 AOAILabKey 的 API Key
            string apiKey = System.Environment.GetEnvironmentVariable("AOAILabKey");
            AzureOpenAIClient azureClient = new(
                new Uri("https://gpt4tw.openai.azure.com/"),
                new System.ClientModel.ApiKeyCredential(apiKey));
            //EmbeddingClient embeddingClient = azureClient.GetEmbeddingClient("text-embedding-3-large");
            EmbeddingClient embeddingClient = azureClient.GetEmbeddingClient("text-embedding-3-small");
            ChatClient chatClient = azureClient.GetChatClient("gpt-4o");

            // 建立 Embedding
            List<ChunkItem> embeddings = BuildEmbedding(embeddingClient);

            string prompt = "對於一本好的 ASP.NET Core Web API 開發書籍,最重要的五個章節是甚麼?";
            //string prompt = "若要設計一個軟體醫材並且要能更進行推廣與獲得更多的成效,該如何做";
            ChunkItem promptEmbedding = PromptToEmbedding(embeddingClient, prompt);

            ChunkItem result = FindMostSimilarDocument(embeddings, promptEmbedding);

            System.Console.WriteLine($"最相關的文件是 ({result.Similarity}) {result.Filename}");
            prompt = $"{prompt}\n\n使用底下內容來生成 zh-tw 結果\n\n'''{result.Text}'''";

            ChatWithGPT(chatClient, prompt);
        }

        #region 根據最相近的檔案進行 GPT 對話
        static void ChatWithGPT(ChatClient chatClient, string prompt)
        {
            List<ChatMessage> prompts = new()
            {
                UserChatMessage.CreateUserMessage(prompt),
            };

            foreach (var message in prompts)
            {
                string roleName = message is SystemChatMessage ? "System" :
                    message is UserChatMessage ? "User" :
                    "Assistant";
                Console.WriteLine($"{DateTime.Now}  [{roleName}]: {message.Content[0].Text}");
            }

            ChatCompletion completion = chatClient.CompleteChat(prompts);

            Console.WriteLine($"{DateTime.Now}  [Assistant]");
            foreach (var message in completion.Content)
            {
                if (message.Text != null && message.Text.Trim() != "")
                    Console.WriteLine($"{DateTime.Now} {message.Text}");
            }
        }
        #endregion

        #region 找出最相關的文件
        static ChunkItem FindMostSimilarDocument(List<ChunkItem> embeddings,
            ChunkItem promptEmbedding)
        {
            ChunkItem result = new ChunkItem();
            double maxSimilarity = 0;
            foreach (var item in embeddings)
            {
                double similarity = CosineSimilarity(item.Embedding.ToArray(),
                    promptEmbedding.Embedding.ToArray());
                item.Similarity = (float)similarity;
                if (similarity > maxSimilarity)
                {
                    maxSimilarity = similarity;
                    result = item;
                }
            }
            return result;
        }
        static float CosineSimilarity(float[] vectorA, float[] vectorB)
        {
            if (vectorA.Length != vectorB.Length)
                throw new ArgumentException("Vectors must be of the same length.");

            float dotProduct = vectorA.Zip(vectorB, (a, b) => a * b).Sum();
            float magnitudeA = (float)Math.Sqrt(vectorA.Sum(a => a * a));
            float magnitudeB = (float)Math.Sqrt(vectorB.Sum(b => b * b));

            return dotProduct / (magnitudeA * magnitudeB);
        }
        #endregion

        #region prompt 轉 Embedding
        static ChunkItem PromptToEmbedding(EmbeddingClient embeddingClient,
            string prompt)
        {
            ChunkItem result = new ChunkItem();
            string content = prompt;
            var embedding = embeddingClient.GenerateEmbedding(content);
            var value = embedding.Value.ToFloats().ToArray().ToList();
            result = new ChunkItem
            {
                Text = content,
                Filename = "Prompt",
                Embedding = value
            };
            return result;
        }
        #endregion

        #region 讀取檔案文字並且取得文件內容的 Embedding
        static List<ChunkItem> BuildEmbedding(EmbeddingClient embeddingClient)
        {
            List<ChunkItem> embeddings = new List<ChunkItem>();
            for (int i = 1; i <= 4; i++)
            {
                string filename = $"file{i}.pdf";
                string content = GetPdf(filename);
                var embedding = embeddingClient.GenerateEmbedding(content);
                var value = embedding.Value.ToFloats().ToArray().ToList();
                ChunkItem item = new ChunkItem
                {
                    Text = content,
                    Filename = filename,
                    Embedding = value
                };
                embeddings.Add(item);
            }
            return embeddings;
        }
        #endregion

        #region 讀取 PDF
        static string GetPdf(string filename)
        {
            StringBuilder result = new StringBuilder();

            using (PdfReader pdfReader = new PdfReader(filename))
            {
                using (PdfDocument pdfDoc = new PdfDocument(pdfReader))
                {
                    int numberOfPages = pdfDoc.GetNumberOfPages();

                    for (int i = 1; i <= numberOfPages; i++)
                    {
                        ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
                        string pageContent = PdfTextExtractor.GetTextFromPage(pdfDoc.GetPage(i), strategy);
                        result.AppendLine(pageContent);
                    }
                }
            }

            string content = result.ToString();
            return content;
        }
        #endregion
    }
}

在上述程式碼中,首先會看到 [ChunkItem] 這個類別,這個類別是用來存放 Embedding 的資料,包含了文字內容、檔案名稱、Embedding 與相似度等資料。由於這是一個使用 C# 開發 RAG 的開發教學文章,對於實際的 RAG 應用程式在處理的時候,由於每個文件內容大小都不一致,而再將這些文字內容送至 Embedding 模型的時候,將會面對每次處理的最大 Token 數量有限制的問題,因此,將會需要將這些內容切割成為不同的 Chunk,接下來需要對於這些 Chunk 進行 Embedding 的計算,此時,將會得到一個多維度的向量值,最後需要將其儲存到向量資料庫內。

不過,這個範例程式碼中,將不會使用到向量資料庫,也不會處理切割 Chunk 的問題,所有得到的 Embedding 值,將會儲存在記憶體內。

接著,將會看到 Main 方法,這個方法是這個程式的進入點,這裡將會建立 [EmbeddingClient] 物件,用來進行 Embedding 的計算,接著,將會建立 [ChatClient] 物件,用來進行 GPT-4 的對話。

接下來的工作將會呼叫 [BuildEmbedding] 方法,這個回傳值將會是一個 List 類型,裡面包含了所有文件的 Embedding 資料。在這個方法內,將會固定讀取專案內內建的四個 PDF 檔案,並且將這些檔案的內容透過 GetPdf 方法讀取出來,在這個方法內將會透過 [itext7] 套件的方法,將這些 PDF 檔案內的文字內容抽取出來,並且將這些文字內容,儲存到 [content] 物件內,接著,將會透過 Embedding 模型,呼叫 embeddingClient.GenerateEmbedding(content) 方法,將這些內容轉換成 Embedding 值。

現在就可以使用 embedding.Value.ToFloats().ToArray().ToList() 表示式,取得 List<float> 的 Embedding 值,最後,建立一個 [ChunkItem] 物件,將這些資料儲存到這個物件內,並且將這個物件加入到 List<ChunkItem> 內。因此,經過 [BuildEmbedding] 方法執行後,將會得到每個 PDF 檔案的 Embedding 值。

繼續回到 [Main] 方法內,將會需要 string prompt = "對於一本好的 ASP.NET Core Web API 開發書籍,最重要的五個章節是甚麼?"; 敘述設定要提問的提示詞,接著透過 [PromptToEmbedding] 方法,將這個提示詞文字轉成 Embedding 值,將其儲存到 [promptEmbedding] 物件內。

此時,將會執行 FindMostSimilarDocument(embeddings, promptEmbedding) 這個方法,將所有 PDF 文件的 Embedding 值與這個提示詞的 Embedding 值,傳入到這個方法內,便可以開始進行透過最相近的演算法,找到每個 PDF 文章與這個提示詞的相似度數值,找到最相近的文章是哪個 PDF。在這個方法內,將會呼叫 [CosineSimilarity] 方法,透過 Cosine 演算法,用來計算兩個向量之間的餘弦相似度。餘弦相似度是一種衡量兩個向量之間相似度的指標,範圍在 -1 到 1 之間,便可以得到文章相似度數值。

執行過程說明,將會分別計算

  1. 檢查向量長度:首先,方法會檢查 vectorA 和 vectorB 的長度是否相同。如果長度不同,則拋出 ArgumentException 異常。
  2. 計算點積:使用 Zip 方法將兩個向量的對應元素相乘,並使用 Sum 方法將這些乘積相加,得到兩個向量的點積。
  3. 計算向量的大小:分別計算 vectorA 和 vectorB 的大小(即向量的歐幾里得範數)。這是通過將每個向量元素的平方相加,然後取平方根來實現的。
  4. 計算餘弦相似度:最後,將點積除以兩個向量大小的乘積,得到餘弦相似度並返回。

現在,已經得到了最接近此提示詞的PDF檔案內容,這些內容將將會儲存到 [result] 物件內。

最後,呼叫 [ChatWithGPT] 方法,在這個方法內,將會把提示詞與PDF 文字內容,送給 GPT 生成內容。

執行測試專案

  • 按下 F5 開始執行專案
  • 將會看到輸出結果
最相關的文件是 (0.6679299) file3.pdf
2025/2/21 下午 03:24:10  [User]: 對於一本好的 ASP.NET Core Web API 開發書籍,最重要的五個章節是甚麼?

使用底下內容來生成 zh-tw 結果

'''file3.md 2025-02-21
1 / 4
這本《ASP.NET Core 9 Web API 開發實戰》書籍將以 實際案例引導學習,適合 有 C# 基礎但不熟悉 Web API
開發的讀者。書中將從零開始,循序漸進地帶領讀者構建 符合 REST 精神 的 API,並涵蓋 資料庫存取、?份驗
證、權限控管、測試、CI/CD 與容器化 等主題,確保讀者學會開發可落地的 Web API。
ASP .NET Core 9 Web API 開發實戰 - 章節?綱
第?部分:基礎概念與專案準備
1. Web API 是什麼?為什麼需要 Web API?
Web API 的概念與應?場景
Web API vs. MVC vs. gRPC
RESTful API 原則與最佳實踐
HTTP 動詞與狀態碼
2. 環境設置與開發?具
介紹 .NET 9 SDK 與 Visual Studio / VS Code
版本管理與 LTS 策略
使? Postman 或 Swagger 進? API 測試
設置 SQL Server / PostgreSQL / SQLite / NoSQL 環境(依書籍案例需求)
3. 專案架構與解決?案規劃
Web API 專案的基本結構
?案(Solution)與專案(Project)的分?
資料夾與命名空間的規劃(Domain、Application、Infrastructure、API)
介紹 Clean Architecture、DDD(Domain-Driven Design)與分層架構
第?部分:建立 Web API 服務
4. 建立第?個 Web API
使? dotnet new webapi 指令建立專案
了解 Program.cs、appsettings.json 配置
介紹 Controller 與 Endpoint
建立 GET /api/health 進?基本測試
5. Controller、Service、Repository 設計
Controller 負責接收請求與回應
Service 層負責業務邏輯
Repository 模式實作資料存取
使? Dependency Injection (DI) 管理物件?命週期
6. 符合 REST 精神的 API 設計
RESTful API 設計規範與最佳實踐
路由設計 ([Route]、[HttpGet]、[HttpPost])
file3.md 2025-02-21
2 / 4
避免 "胖 Controller",拆分適當的 Service
設計 DTO (Data Transfer Object) 提升 API 穩定性
錯誤處理與統?回應格式 (ProblemDetails, ApiResult)
第三部分:資料庫存取
7. 使? Entity Framework Core 進?資料存取
設計 Database Model (DbContext、Entity)
使? Code-First 與 Migration 建立資料庫
基本 CRUD 操作 (Add, Update, Delete, Query)
使? AsNoTracking 與 LazyLoading 進?效能調優
8. 使? Dapper 進??效能查詢
Dapper vs. EF Core
撰寫 SQL 指令與查詢參數
透過 IDbConnection 進?資料存取
動態 SQL 查詢與物件映射
第四部分:?份驗證與權限管理
9. ?份驗證(Authentication)
JWT (JSON Web Token) 與 OAuth 2.0
使? ASP.NET Core Identity
登入、登出、Token ?成與驗證
設定 Refresh Token 機制
10. 權限管理(Authorization)
??(Roles)與權限(Claims-Based Authorization)
使? Policy-Based Authorization
API 限制存取 ([Authorize]、[AllowAnonymous])
根據權限篩選 API 回應內容
第五部分:API 安全性與最佳實踐
11. 保護 API 安全性
使? Rate Limiting 防?濫?請求
使? CORS 限制跨域請求
設定 Content Security Policy(CSP)
使? HTTPS 與 HSTS 確保安全傳輸
12. 記錄與監控
使? Serilog 進?記錄與?誌管理
記錄 API 訪問?誌與請求內容
file3.md 2025-02-21
3 / 4
監控 API 健康狀態(HealthChecks)
使? OpenTelemetry 進?分散式追蹤
第六部分:測試與 CI/CD
13. 測試 Web API
單元測試 (xUnit / MSTest)
整合測試 (TestServer)
使? Mock 進?依賴模擬(Moq, FakeItEasy)
14. CI/CD 部署
使? GitHub Actions / Azure DevOps 進? CI/CD
?動化測試與建置(Build & Test)
使? Docker 容器化 Web API
部署到雲端(Azure / AWS / GCP)
第七部分:進階應?與最佳實踐
15. API 版本管理
API 版本控制策略
使? Microsoft.AspNetCore.Mvc.Versioning
16. GraphQL vs. REST API
GraphQL 基本概念
何時選擇 GraphQL?
17. 事件驅動架構與背景任務
使? Hangfire 或 BackgroundService
Web API 如何與 Event Bus(如 Kafka, RabbitMQ)整合
18. ElasticSearch / Redis 快取
使? MemoryCache 與 DistributedCache
利? Redis 進? API 快取優化
ElasticSearch 快速搜尋應?
第八部分:專案實作
19. 完整專案案例
需求分析與系統規劃
建立 Web API 服務
?份驗證與權限控管
API 安全性與測試
file3.md 2025-02-21
4 / 4
CI/CD ?動化部署
20. 總結與未來展望
Web API 發展趨勢
API Gateway 與微服務架構的發展
如何進?步提升 Web API 的效能與安全性
結語
這本書的設計?標是讓讀者能夠 從零開始,實戰開發?個完整的 ASP .NET Core 9 Web API 專案,並學會 從
架構規劃、資料庫存取、?份驗證、權限管理、測試、CI/CD 到 API 最佳實踐。讓讀者不僅能夠 開發 API,還
能 讓 API 維運更?效、擴展更容易、安全性更?。
這份?綱是否符合你的需求?如果有特定案例或技術細節希望深入探討,可以進?步調整章節內容!
'''
2025/2/21 下午 03:24:20  [Assistant]
2025/2/21 下午 03:24:20 對於一本好的 ASP.NET Core Web API 開發書籍,以下是最重要的五個章節:

### ASP.NET Core 9 Web API 開發實戰 - 章節大綱

#### 第一部分:基礎概念與專案準備
1. **Web API 是什麼?為什麼需要 Web API?**
   - Web API 的概念與應用場景
   - Web API vs. MVC vs. gRPC
   - RESTful API 原則與最佳實踐
   - HTTP 動詞與狀態碼

#### 第二部分:建立 Web API 服務
2. **建立第一個 Web API**
   - 使用 `dotnet new webapi` 指令建立專案
   - 了解 `Program.cs`、`appsettings.json` 配置
   - 介紹 Controller 與 Endpoint
   - 建立 `GET /api/health` 進行基本測試

3. **Controller、Service、Repository 設計**
   - Controller 負責接收請求與回應
   - Service 層負責業務邏輯
   - Repository 模式實作資料存取
   - 使用 Dependency Injection (DI) 管理物件生命週期

#### 第三部分:資料庫存取
4. **使用 Entity Framework Core 進行資料存取**
   - 設計 Database Model (`DbContext`、Entity)
   - 使用 Code-First 與 Migration 建立資料庫
   - 基本 CRUD 操作 (Add, Update, Delete, Query)
   - 使用 `AsNoTracking` 與 LazyLoading 進行效能調優

#### 第四部分:身份驗證與權限管理
5. **身份驗證(Authentication)**
   - JWT (JSON Web Token) 與 OAuth 2.0
   - 使用 ASP.NET Core Identity
   - 登入、登出、Token 生成與驗證
   - 設定 Refresh Token 機制
 

這些章節提供了開發 Web API 的核心知識和實踐,涵蓋了從基礎概念到身份驗證的各個方面,確保讀者能夠構建出安全且高效的 Web API 系統。