ChatGPTは簡単に言いますと2つの選択肢があります。現在企業では3.5バージョンが多く使われています。精度が要求される時は4を使います。
その2つ選択肢とはプロンプトエンジニアリングと別建てした辞書のデータセットを使う方法です。
それぞれ簡単にではありますが、説明します。
プロンプトエンジニアリングは、巨大な言語空間を、使うユーザーが言葉を指定することで出力の精度を上げる方法です。
〇〇について教えてくださいと言う言葉と、既婚の男性が使っている○○について教えてください、これで出力はかなり変わってきます。
この言葉で何を出力してもらうかを決めてあげることがプロンプトエンジニアリングと言います。
次に独自データセットを設定する場合は、企業が持っている様々な資料、データを扱う場合です。
ChatGPTはコモンセンスに基づきますので、専門的な情報や知識については企業の内部にあります。
つまり質問しても情報を持っていないので分からないのです。だからこれを別のデータとして教えてあげる必要があります。
*2023.11月のdev dayにおいて、この機能がChatGPT4で実装されました。それまではLangChainで実装していたのですが、どんどん便利になっていきますね。ただ企業ユースの場合、3.5を使っているケースが多いと思いますので、ライブラリで使う方法になります。)
*GPT Builderでボットを実装する場合、添付ファイルの漏洩問題、プロンプト・インジェクション、プロンプト・リーキングなどのセキュリティ対策も必要となります。