H28春期 午前II 問19
まままさん
(No.1)
文献検索システム,データ検索システムなどの情報検索システムを評価する尺度として用いられる再現率(recall ratio)と精度(precision ratio)の組合せとして,適切なものはどれか。ここで,a,b,cは次の件数を示す。
a.蓄積されたすべてのデータのうち,質問に適合する件数
b.検索されたデータのうち,質問に適合する件数
c.検索されたデータの件数
蓄積されたすべてのデータ、検索されたデータ、質問に適合というキーワードがでてきます。
「質問」というのは検索条件に入力することだとおもいます。
蓄積されたデータと検索されたデータの具体的なイメージができません。
どのようなイメージをすればいいでしょうか?
a.蓄積されたすべてのデータのうち,質問に適合する件数
b.検索されたデータのうち,質問に適合する件数
c.検索されたデータの件数
蓄積されたすべてのデータ、検索されたデータ、質問に適合というキーワードがでてきます。
「質問」というのは検索条件に入力することだとおもいます。
蓄積されたデータと検索されたデータの具体的なイメージができません。
どのようなイメージをすればいいでしょうか?
2021.08.10 10:35
DB娘さん
(No.2)
例えば、果物を管理する「果物DB」のようなものがあったとして、
a,b,cに以下のような例を設定し、「質問」には「赤い果物」を入力したとします。
a:いちご、ざくろ、すもも、ベリー、りんご
b:いちご、りんご
c:いちご、りんご、ぶどう、レモン
上記を例として、再現率と精度を出すと以下の通りです。
◆「再現率」は、検索システムの網羅性を示します。
「赤い果物」と検索した結果、「いちご、りんご、ぶどう、レモン」の4件が返ってきました(c)。
しかし、検索結果の中にある本当の「赤い果物」は「いちご、りんご」の2件しかありません。
また、「果物DB」に存在している本当の「赤い果物」(a)は
「いちご、ざくろ、すもも、ベリー、りんご」の5件もあります。
つまり、この検索システムでは、「赤い果物」と検索しても、
果物DBの中の「赤い果物」(a)を全て抽出することが出来ていないことになります。
検索DB内の「赤い果物」5件のうち、検索結果に含まれる赤い果物は2件のみなので、
検索システムの再現率は2/5=40%となります。
◆「精度」は検索システムの正確性を示します。
「赤い果物」と検索した結果、「いちご、りんご、ぶどう、レモン」の4件が返ってきました(c)。
しかし、検索結果の中にある本当の「赤い果物」は「いちご、りんご」の2件しかなく、
「ぶどう、レモン」は間違っているので、この検索結果は正確ではありません。
つまり、検索結果の4件のうち、正しい結果は2件のみなので、検索システムの精度は2/4 = 50%になります。
a,b,cに以下のような例を設定し、「質問」には「赤い果物」を入力したとします。
a:いちご、ざくろ、すもも、ベリー、りんご
b:いちご、りんご
c:いちご、りんご、ぶどう、レモン
上記を例として、再現率と精度を出すと以下の通りです。
◆「再現率」は、検索システムの網羅性を示します。
「赤い果物」と検索した結果、「いちご、りんご、ぶどう、レモン」の4件が返ってきました(c)。
しかし、検索結果の中にある本当の「赤い果物」は「いちご、りんご」の2件しかありません。
また、「果物DB」に存在している本当の「赤い果物」(a)は
「いちご、ざくろ、すもも、ベリー、りんご」の5件もあります。
つまり、この検索システムでは、「赤い果物」と検索しても、
果物DBの中の「赤い果物」(a)を全て抽出することが出来ていないことになります。
検索DB内の「赤い果物」5件のうち、検索結果に含まれる赤い果物は2件のみなので、
検索システムの再現率は2/5=40%となります。
◆「精度」は検索システムの正確性を示します。
「赤い果物」と検索した結果、「いちご、りんご、ぶどう、レモン」の4件が返ってきました(c)。
しかし、検索結果の中にある本当の「赤い果物」は「いちご、りんご」の2件しかなく、
「ぶどう、レモン」は間違っているので、この検索結果は正確ではありません。
つまり、検索結果の4件のうち、正しい結果は2件のみなので、検索システムの精度は2/4 = 50%になります。
2021.08.10 15:03
まままさん
(No.3)
イメージ出来ました。
ありがとうございます。
ありがとうございます。
2021.08.11 08:40
返信投稿用フォーム
スパム防止のためにスレッド作成日から30日経過したスレッドへの投稿はできません。