はじめに

SheepLint は AI を用いた翻訳のチェックツールです。入力に対訳ファイル（xliff/xlsx など）を用いつつ、AI が理解しやすいサイズまで自動で小分けすることで、ファイルをそのまま投入するよりも高精度なチェックが可能になっています。また、翻訳メモリ（Translation Memory：TM）を情報として注入したり、文を似ているもの同士並べてリクエストすることも可能。過去訳や類似文と比較したうえでのチェックもできるようにしています。

入力・出力ファイルの流れ

SheepLint は一連の処理を自動化するパイプラインのようなもの。入

力されたファイルに対して、以下の処理を順次行い、最終的に txt か、csv/xlsx で結果を一覧できるようにします。

読み込み

最初にファイルを原文、訳文、コンテキストからなるテキスト情報に変換します。対応しているファイルは以下のとおりです。

XLIFF
MXLIFF（Phrase）
MQXLIFF（memoq）
Excel（A 列に原文、B 列に訳文、C 列に補足情報）
CSV（列構成は Excel と同様）
Word（Phrase/memoq/xbench からエクスポートされたもの）
JSONL（プロパティは後述）

ファイルはこれらの対訳形式である必要があります。もし通常の Office で翻訳が進行している場合、アラインツールを使用して対訳形式にまとめなければなりません。

ただし、AI に入力できるトークン量情報の幅を考えると、TM をつくるほどの粒度は不要です。

そのため、「段落」や「スライド」といった粗い単位でアラインするためのツールSheepGroomを用意しています。

必要な場合はぜひお試しください。

解析＆変換

テキストの抽出が終わったら、さらにもう一段階、AI が理解しやすいようにテキストを変換しながら分割します。

変換形式は人間にも読みやすい CSV 形式（番号,原文,訳文,コンテキスト）と、AI が扱いやすい JSONL 形式を用意しています。単純なチェックであれば CSV 形式でも問題ありませんが、TM を挟む計算や、コンテキストが複雑なもの、元の順序ではなく類似文を並べてチェックしたい場合は JSONL 形式がおすすめです。

結果の取得

解析後はいよいよ AI モデルへの投入です。ここでは、Google のクラウドプラットフォーム Vertex AI を利用しています。

エンタープライズレベルのセキュリティと安定性を備えた Vertex AI を利用することで、安全かつ確実に AI によるチェックを行うことができます。

はじめに ​

入力・出力ファイルの流れ ​

読み込み ​

解析＆変換 ​

結果の取得 ​

はじめに

入力・出力ファイルの流れ

読み込み

解析＆変換

結果の取得