こんにちは。プロダクト・サービス事業部のしゃるたんです。
最近、業務で生成AIを使うようになって驚かされることが多いので、ブログを書いてみました。普段からChatGPTを使っている方であれば、今更感はあるかと思いますが、いろいろな検証をしていきますので、お付き合いいただければと思います。
Claude3(クロード3)のハルシネーションを検証
生成AIというとChatGPTを思い浮かべる方が多いかと思いますが、実は世の中にはたくさんの生成AIがあるようです。無料枠で十分使える生成AIもありますので、試してみる価値はありそうですね。
今回はClaude 3を検証してみました。
ClaudeはChatGPTと同じように会話形式でテキスト生成ができますが、特徴としてはハルシネーションと有害情報を抑えたAIとなっています。ハルシネーションとは「もっともらしい嘘をつく」という意味で、生成AIが話題になり始めた頃から、弱点として指摘されていました。今回はClaudeのハルシネーションを検証してみたいと思います。
走れメロスのあらすじを聞いてみた
手始めに走れメロスのあらすじを聞いてみました。
あれ? メロス処刑されちゃったわ(*‘ω‘ *)"(-""-)"(*‘ω‘ *)
はるしねーしょんっていったい・・・・まぁ短気なメロス君であればAIの予想としては適切な処置と言えるのでしょう。
”100文字程度” という要約要素を入れてしまったので、正しい結果になりませんでしたが、あらすじを教えてと聞けば処刑されないメロス君の未来を教えてくれます。
また、この要約機能は文字数を更に短くすることもできますので、10文字と15文字で表現した走れメロスを紹介させて頂きます。
あれ? 疑念をもったのは身代わりにされたセリヌンティウス君じゃなかったっけ??
メロス君は何も考えずにひたすら走れば良いと思います(#^^#)
今回はClaudeを触ってみましたが、無料枠での利用という点や、聞き方が良くなかった可能性もありますので、結果に関してはご容赦ください。
予想外の結果に企画頓挫
ちなみに本当はClaudeとChatGPTを比較して、Claudeのハルシネーション対策の凄さを紹介してみようという企画だったのですが、メロス君が速攻で処刑されてしまったのと、ChatGPTは無難なあらすじを回答してきたので、企画が頓挫してしまいました"(-""-)" (+_+)( ゚Д゚
次回は生成AIでRuby技術者認定試験の問題文を作れるか、その性能を検証していきます。お楽しみに~♪(≧▽≦)♪
この記事を書いた人
【ニックネーム】しゃるたん
【経歴】入社23年目です。最初の10年は大手証券会社の約定報告システムの開発・保守を担当しました。その後、別の大手証券会社で9年ほどシステム部門で社員代替として、ユーザー部門からの相談に乗ってシステム起案したり、ベンダーとの橋渡しを行いました。単にユーザー要求をベンダーへ依頼するということではなく、ユーザー・ベンダーそれぞれとって最適で価値のあるシステムを一緒に考えて提案することが大変でした。
証券業務に約19年間従事した後、開発本部長として自社の開発部門を3年間取り仕切りました。直近では自社サービスの開発に係る業務や、開発の新機軸を探るための検討を行っています。
【得意な言語】VBA、C
【趣味】ゲーム、漫画
【一言】モンハンの新作とドラクエ3のリメイクが楽しみです(≧▼≦)ワッフ-イ