md/raid1: avoid reading from known bad blocks.

author NeilBrown <neilb@suse.de>

Thu, 28 Jul 2011 01:31:48 +0000 (11:31 +1000)

committer NeilBrown <neilb@suse.de>

Thu, 28 Jul 2011 01:31:48 +0000 (11:31 +1000)
author NeilBrown <neilb@suse.de>
Thu, 28 Jul 2011 01:31:48 +0000 (11:31 +1000)
committer NeilBrown <neilb@suse.de>
Thu, 28 Jul 2011 01:31:48 +0000 (11:31 +1000)
diff --git a/drivers/md/md.c b/drivers/md/md.c

index 7ae3c5a18001b437e3d43ef593e5342b8db1cfce..48217e8aa0ebef7d957e288dace9e5f6510437bf 100644 (file)
--- a/drivers/md/md.c
+++ b/drivers/md/md.c
@@ -215,6 +215,55 @@ struct bio *bio_clone_mddev(struct bio *bio, gfp_t gfp_mask,
  }
  EXPORT_SYMBOL_GPL(bio_clone_mddev);
  
+void md_trim_bio(struct bio *bio, int offset, int size)
+{
+       /* 'bio' is a cloned bio which we need to trim to match
+        * the given offset and size.
+        * This requires adjusting bi_sector, bi_size, and bi_io_vec
+        */
+       int i;
+       struct bio_vec *bvec;
+       int sofar = 0;
+
+       size <<= 9;
+       if (offset == 0 && size == bio->bi_size)
+               return;
+
+       bio->bi_sector += offset;
+       bio->bi_size = size;
+       offset <<= 9;
+       clear_bit(BIO_SEG_VALID, &bio->bi_flags);
+
+       while (bio->bi_idx < bio->bi_vcnt &&
+              bio->bi_io_vec[bio->bi_idx].bv_len <= offset) {
+               /* remove this whole bio_vec */
+               offset -= bio->bi_io_vec[bio->bi_idx].bv_len;
+               bio->bi_idx++;
+       }
+       if (bio->bi_idx < bio->bi_vcnt) {
+               bio->bi_io_vec[bio->bi_idx].bv_offset += offset;
+               bio->bi_io_vec[bio->bi_idx].bv_len -= offset;
+       }
+       /* avoid any complications with bi_idx being non-zero*/
+       if (bio->bi_idx) {
+               memmove(bio->bi_io_vec, bio->bi_io_vec+bio->bi_idx,
+                       (bio->bi_vcnt - bio->bi_idx) * sizeof(struct bio_vec));
+               bio->bi_vcnt -= bio->bi_idx;
+               bio->bi_idx = 0;
+       }
+       /* Make sure vcnt and last bv are not too big */
+       bio_for_each_segment(bvec, bio, i) {
+               if (sofar + bvec->bv_len > size)
+                       bvec->bv_len = size - sofar;
+               if (bvec->bv_len == 0) {
+                       bio->bi_vcnt = i;
+                       break;
+               }
+               sofar += bvec->bv_len;
+       }
+}
+EXPORT_SYMBOL_GPL(md_trim_bio);
+
  /*
   * We have a system wide 'event count' that is incremented
   * on any 'interesting' event, and readers of /proc/mdstat
diff --git a/drivers/md/md.h b/drivers/md/md.h

index aea9e9ff8a33975480c0ac9aeb7f2452c1aa53e9..7c3192c0a29a1cbf4f728cb5e5c0bfb1c5fb5628 100644 (file)
--- a/drivers/md/md.h
+++ b/drivers/md/md.h
@@ -575,4 +575,5 @@ extern struct bio *bio_clone_mddev(struct bio *bio, gfp_t gfp_mask,
  extern struct bio *bio_alloc_mddev(gfp_t gfp_mask, int nr_iovecs,
                                    mddev_t *mddev);
  extern int mddev_check_plugged(mddev_t *mddev);
+extern void md_trim_bio(struct bio *bio, int offset, int size);
  #endif /* _MD_MD_H */
diff --git a/drivers/md/raid1.c b/drivers/md/raid1.c

index 8db311d7cddcd35079d6a3aaa413b0dea5e610b7..cc3939dc9e3d140b4b6f5145d00880acff81a5c5 100644 (file)
--- a/drivers/md/raid1.c
+++ b/drivers/md/raid1.c
@@ -41,11 +41,7 @@
  #include "bitmap.h"
  
  #define DEBUG 0
-#if DEBUG
-#define PRINTK(x...) printk(x)
-#else
-#define PRINTK(x...)
-#endif
+#define PRINTK(x...) do { if (DEBUG) printk(x); } while (0)
  
  /*
   * Number of guaranteed r1bios in case of extreme VM load:
@@ -177,12 +173,6 @@ static void free_r1bio(r1bio_t *r1_bio)
  {
         conf_t *conf = r1_bio->mddev->private;
  
-       /*
-        * Wake up any possible resync thread that waits for the device
-        * to go idle.
-        */
-       allow_barrier(conf);
-
         put_all_bios(conf, r1_bio);
         mempool_free(r1_bio, conf->r1bio_pool);
  }
@@ -223,6 +213,33 @@ static void reschedule_retry(r1bio_t *r1_bio)
   * operation and are ready to return a success/failure code to the buffer
   * cache layer.
   */
+static void call_bio_endio(r1bio_t *r1_bio)
+{
+       struct bio *bio = r1_bio->master_bio;
+       int done;
+       conf_t *conf = r1_bio->mddev->private;
+
+       if (bio->bi_phys_segments) {
+               unsigned long flags;
+               spin_lock_irqsave(&conf->device_lock, flags);
+               bio->bi_phys_segments--;
+               done = (bio->bi_phys_segments == 0);
+               spin_unlock_irqrestore(&conf->device_lock, flags);
+       } else
+               done = 1;
+
+       if (!test_bit(R1BIO_Uptodate, &r1_bio->state))
+               clear_bit(BIO_UPTODATE, &bio->bi_flags);
+       if (done) {
+               bio_endio(bio, 0);
+               /*
+                * Wake up any possible resync thread that waits for the device
+                * to go idle.
+                */
+               allow_barrier(conf);
+       }
+}
+
  static void raid_end_bio_io(r1bio_t *r1_bio)
  {
         struct bio *bio = r1_bio->master_bio;
@@ -235,8 +252,7 @@ static void raid_end_bio_io(r1bio_t *r1_bio)
                         (unsigned long long) bio->bi_sector +
                                 (bio->bi_size >> 9) - 1);
  
-               bio_endio(bio,
-                       test_bit(R1BIO_Uptodate, &r1_bio->state) ? 0 : -EIO);
+               call_bio_endio(r1_bio);
         }
         free_r1bio(r1_bio);
  }
@@ -295,6 +311,7 @@ static void raid1_end_read_request(struct bio *bio, int error)
                         bdevname(conf->mirrors[mirror].rdev->bdev,
                                  b),
                         (unsigned long long)r1_bio->sector);
+               set_bit(R1BIO_ReadError, &r1_bio->state);
                 reschedule_retry(r1_bio);
         }
  
@@ -381,7 +398,7 @@ static void raid1_end_write_request(struct bio *bio, int error)
                                        (unsigned long long) mbio->bi_sector,
                                        (unsigned long long) mbio->bi_sector +
                                        (mbio->bi_size >> 9) - 1);
-                               bio_endio(mbio, 0);
+                               call_bio_endio(r1_bio);
                         }
                 }
         }
@@ -412,10 +429,11 @@ static void raid1_end_write_request(struct bio *bio, int error)
   *
   * The rdev for the device selected will have nr_pending incremented.
   */
-static int read_balance(conf_t *conf, r1bio_t *r1_bio)
+static int read_balance(conf_t *conf, r1bio_t *r1_bio, int *max_sectors)
  {
         const sector_t this_sector = r1_bio->sector;
-       const int sectors = r1_bio->sectors;
+       int sectors;
+       int best_good_sectors;
         int start_disk;
         int best_disk;
         int i;
@@ -430,8 +448,11 @@ static int read_balance(conf_t *conf, r1bio_t *r1_bio)
          * We take the first readable disk when above the resync window.
          */
   retry:
+       sectors = r1_bio->sectors;
         best_disk = -1;
         best_dist = MaxSector;
+       best_good_sectors = 0;
+
         if (conf->mddev->recovery_cp < MaxSector &&
             (this_sector + sectors >= conf->next_resync)) {
                 choose_first = 1;
@@ -443,6 +464,9 @@ static int read_balance(conf_t *conf, r1bio_t *r1_bio)
  
         for (i = 0 ; i < conf->raid_disks ; i++) {
                 sector_t dist;
+               sector_t first_bad;
+               int bad_sectors;
+
                 int disk = start_disk + i;
                 if (disk >= conf->raid_disks)
                         disk -= conf->raid_disks;
@@ -465,6 +489,35 @@ static int read_balance(conf_t *conf, r1bio_t *r1_bio)
                 /* This is a reasonable device to use.  It might
                  * even be best.
                  */
+               if (is_badblock(rdev, this_sector, sectors,
+                               &first_bad, &bad_sectors)) {
+                       if (best_dist < MaxSector)
+                               /* already have a better device */
+                               continue;
+                       if (first_bad <= this_sector) {
+                               /* cannot read here. If this is the 'primary'
+                                * device, then we must not read beyond
+                                * bad_sectors from another device..
+                                */
+                               bad_sectors -= (this_sector - first_bad);
+                               if (choose_first && sectors > bad_sectors)
+                                       sectors = bad_sectors;
+                               if (best_good_sectors > sectors)
+                                       best_good_sectors = sectors;
+
+                       } else {
+                               sector_t good_sectors = first_bad - this_sector;
+                               if (good_sectors > best_good_sectors) {
+                                       best_good_sectors = good_sectors;
+                                       best_disk = disk;
+                               }
+                               if (choose_first)
+                                       break;
+                       }
+                       continue;
+               } else
+                       best_good_sectors = sectors;
+
                 dist = abs(this_sector - conf->mirrors[disk].head_position);
                 if (choose_first
                     /* Don't change to another disk for sequential reads */
@@ -493,10 +546,12 @@ static int read_balance(conf_t *conf, r1bio_t *r1_bio)
                         rdev_dec_pending(rdev, conf->mddev);
                         goto retry;
                 }
+               sectors = best_good_sectors;
                 conf->next_seq_sect = this_sector + sectors;
                 conf->last_used = best_disk;
         }
         rcu_read_unlock();
+       *max_sectors = sectors;
  
         return best_disk;
  }
@@ -763,11 +818,25 @@ static int make_request(mddev_t *mddev, struct bio * bio)
         r1_bio->mddev = mddev;
         r1_bio->sector = bio->bi_sector;
  
+       /* We might need to issue multiple reads to different
+        * devices if there are bad blocks around, so we keep
+        * track of the number of reads in bio->bi_phys_segments.
+        * If this is 0, there is only one r1_bio and no locking
+        * will be needed when requests complete.  If it is
+        * non-zero, then it is the number of not-completed requests.
+        */
+       bio->bi_phys_segments = 0;
+       clear_bit(BIO_SEG_VALID, &bio->bi_flags);
+
         if (rw == READ) {
                 /*
                  * read balancing logic:
                  */
-               int rdisk = read_balance(conf, r1_bio);
+               int max_sectors;
+               int rdisk;
+
+read_again:
+               rdisk = read_balance(conf, r1_bio, &max_sectors);
  
                 if (rdisk < 0) {
                         /* couldn't find anywhere to read from */
@@ -788,6 +857,8 @@ static int make_request(mddev_t *mddev, struct bio * bio)
                 r1_bio->read_disk = rdisk;
  
                 read_bio = bio_clone_mddev(bio, GFP_NOIO, mddev);
+               md_trim_bio(read_bio, r1_bio->sector - bio->bi_sector,
+                           max_sectors);
  
                 r1_bio->bios[rdisk] = read_bio;
  
@@ -797,7 +868,38 @@ static int make_request(mddev_t *mddev, struct bio * bio)
                 read_bio->bi_rw = READ | do_sync;
                 read_bio->bi_private = r1_bio;
  
-               generic_make_request(read_bio);
+               if (max_sectors < r1_bio->sectors) {
+                       /* could not read all from this device, so we will
+                        * need another r1_bio.
+                        */
+                       int sectors_handled;
+
+                       sectors_handled = (r1_bio->sector + max_sectors
+                                          - bio->bi_sector);
+                       r1_bio->sectors = max_sectors;
+                       spin_lock_irq(&conf->device_lock);
+                       if (bio->bi_phys_segments == 0)
+                               bio->bi_phys_segments = 2;
+                       else
+                               bio->bi_phys_segments++;
+                       spin_unlock_irq(&conf->device_lock);
+                       /* Cannot call generic_make_request directly
+                        * as that will be queued in __make_request
+                        * and subsequent mempool_alloc might block waiting
+                        * for it.  So hand bio over to raid1d.
+                        */
+                       reschedule_retry(r1_bio);
+
+                       r1_bio = mempool_alloc(conf->r1bio_pool, GFP_NOIO);
+
+                       r1_bio->master_bio = bio;
+                       r1_bio->sectors = (bio->bi_size >> 9) - sectors_handled;
+                       r1_bio->state = 0;
+                       r1_bio->mddev = mddev;
+                       r1_bio->sector = bio->bi_sector + sectors_handled;
+                       goto read_again;
+               } else
+                       generic_make_request(read_bio);
                 return 0;
         }
  
@@ -849,8 +951,6 @@ static int make_request(mddev_t *mddev, struct bio * bio)
                 goto retry_write;
         }
  
-       BUG_ON(targets == 0); /* we never fail the last device */
-
         if (targets < conf->raid_disks) {
                 /* array is degraded, we will not clear the bitmap
                  * on I/O completion (see raid1_end_write_request) */
@@ -1425,7 +1525,7 @@ static void sync_request_write(mddev_t *mddev, r1bio_t *r1_bio)
   *
   *     1.      Retries failed read operations on working mirrors.
   *     2.      Updates the raid superblock when problems encounter.
- *     3.      Performs writes following reads for array syncronising.
+ *     3.      Performs writes following reads for array synchronising.
   */
  
  static void fix_read_error(conf_t *conf, int read_disk,
@@ -1448,9 +1548,14 @@ static void fix_read_error(conf_t *conf, int read_disk,
                          * which is the thread that might remove
                          * a device.  If raid1d ever becomes multi-threaded....
                          */
+                       sector_t first_bad;
+                       int bad_sectors;
+
                         rdev = conf->mirrors[d].rdev;
                         if (rdev &&
                             test_bit(In_sync, &rdev->flags) &&
+                           is_badblock(rdev, sect, s,
+                                       &first_bad, &bad_sectors) == 0 &&
                             sync_page_io(rdev, sect, s<<9,
                                          conf->tmppage, READ, false))
                                 success = 1;
@@ -1546,9 +1651,11 @@ static void raid1d(mddev_t *mddev)
                 conf = mddev->private;
                 if (test_bit(R1BIO_IsSync, &r1_bio->state))
                         sync_request_write(mddev, r1_bio);
-               else {
+               else if (test_bit(R1BIO_ReadError, &r1_bio->state)) {
                         int disk;
+                       int max_sectors;
  
+                       clear_bit(R1BIO_ReadError, &r1_bio->state);
                         /* we got a read error. Maybe the drive is bad.  Maybe just
                          * the block and we can fix it.
                          * We freeze all other IO, and try reading the block from
@@ -1568,21 +1675,28 @@ static void raid1d(mddev_t *mddev)
                                          conf->mirrors[r1_bio->read_disk].rdev);
  
                         bio = r1_bio->bios[r1_bio->read_disk];
-                       if ((disk=read_balance(conf, r1_bio)) == -1) {
+                       bdevname(bio->bi_bdev, b);
+read_more:
+                       disk = read_balance(conf, r1_bio, &max_sectors);
+                       if (disk == -1) {
                                 printk(KERN_ALERT "md/raid1:%s: %s: unrecoverable I/O"
                                        " read error for block %llu\n",
-                                      mdname(mddev),
-                                      bdevname(bio->bi_bdev,b),
+                                      mdname(mddev), b,
                                        (unsigned long long)r1_bio->sector);
                                 raid_end_bio_io(r1_bio);
                         } else {
                                 const unsigned long do_sync = r1_bio->master_bio->bi_rw & REQ_SYNC;
-                               r1_bio->bios[r1_bio->read_disk] =
-                                       mddev->ro ? IO_BLOCKED : NULL;
+                               if (bio) {
+                                       r1_bio->bios[r1_bio->read_disk] =
+                                               mddev->ro ? IO_BLOCKED : NULL;
+                                       bio_put(bio);
+                               }
                                 r1_bio->read_disk = disk;
-                               bio_put(bio);
                                 bio = bio_clone_mddev(r1_bio->master_bio,
                                                       GFP_NOIO, mddev);
+                               md_trim_bio(bio,
+                                           r1_bio->sector - bio->bi_sector,
+                                           max_sectors);
                                 r1_bio->bios[r1_bio->read_disk] = bio;
                                 rdev = conf->mirrors[disk].rdev;
                                 printk_ratelimited(
@@ -1597,8 +1711,44 @@ static void raid1d(mddev_t *mddev)
                                 bio->bi_end_io = raid1_end_read_request;
                                 bio->bi_rw = READ | do_sync;
                                 bio->bi_private = r1_bio;
-                               generic_make_request(bio);
+                               if (max_sectors < r1_bio->sectors) {
+                                       /* Drat - have to split this up more */
+                                       struct bio *mbio = r1_bio->master_bio;
+                                       int sectors_handled =
+                                               r1_bio->sector + max_sectors
+                                               - mbio->bi_sector;
+                                       r1_bio->sectors = max_sectors;
+                                       spin_lock_irq(&conf->device_lock);
+                                       if (mbio->bi_phys_segments == 0)
+                                               mbio->bi_phys_segments = 2;
+                                       else
+                                               mbio->bi_phys_segments++;
+                                       spin_unlock_irq(&conf->device_lock);
+                                       generic_make_request(bio);
+                                       bio = NULL;
+
+                                       r1_bio = mempool_alloc(conf->r1bio_pool,
+                                                              GFP_NOIO);
+
+                                       r1_bio->master_bio = mbio;
+                                       r1_bio->sectors = (mbio->bi_size >> 9)
+                                               - sectors_handled;
+                                       r1_bio->state = 0;
+                                       set_bit(R1BIO_ReadError,
+                                               &r1_bio->state);
+                                       r1_bio->mddev = mddev;
+                                       r1_bio->sector = mbio->bi_sector
+                                               + sectors_handled;
+
+                                       goto read_more;
+                               } else
+                                       generic_make_request(bio);
                         }
+               } else {
+                       /* just a partial read to be scheduled from separate
+                        * context
+                        */
+                       generic_make_request(r1_bio->bios[r1_bio->read_disk]);
                 }
                 cond_resched();
         }
diff --git a/drivers/md/raid1.h b/drivers/md/raid1.h

index 3cd18cfda2ad7f2760c91caa2db7f1f63f8ed617..aa6af37ca01b657202f48ef20a3e73c1f0c2c87a 100644 (file)
--- a/drivers/md/raid1.h
+++ b/drivers/md/raid1.h
@@ -123,6 +123,10 @@ struct r1bio_s {
  #define        R1BIO_IsSync    1
  #define        R1BIO_Degraded  2
  #define        R1BIO_BehindIO  3
+/* Set ReadError on bios that experience a readerror so that
+ * raid1d knows what to do with them.
+ */
+#define R1BIO_ReadError 4
  /* For write-behind requests, we call bi_end_io when
   * the last non-write-behind device completes, providing
   * any write was successful.  Otherwise we call when
author	NeilBrown <neilb@suse.de>
	Thu, 28 Jul 2011 01:31:48 +0000 (11:31 +1000)
committer	NeilBrown <neilb@suse.de>
	Thu, 28 Jul 2011 01:31:48 +0000 (11:31 +1000)
drivers/md/md.c		patch \| blob \| history
drivers/md/md.h		patch \| blob \| history
drivers/md/raid1.c		patch \| blob \| history
drivers/md/raid1.h		patch \| blob \| history